当前位置:首页 >综合 >机器学习在领英的规模化应用 这种做法无法有效实现规模化

机器学习在领英的规模化应用 这种做法无法有效实现规模化

2024-07-01 11:16:57 [百科] 来源:避面尹邢网

人工智能和机器学习仍然是机器全球持续增长的领域之一,近年来涌现出越来越多本科生或者非人工智能专业出身的学习工程师,他们努力学习和使用技术来改进产品,领英几乎每天都有新的模化机器学习技术和框架发布。这篇文章将讨论领英如何规模化利用技术,应用帮助更多工程师提升机器学习的机器效率。近日,学习领英中国机器学习研发经理李子在IEEE数据挖掘国际会议(ICDM)上分享了领英是领英如何规模化开展机器学习,介绍领英的模化核心产品以及如何利用技术帮助更多工程师提升机器学习的效率。

Pro-ML提升机器学习效率

机器学习在领英的应用规模化应用

机器学习在领英的规模化应用 这种做法无法有效实现规模化

过去10年,领英把人工智能技术应用于各个方面来提升用户和客户体验,机器比如你可能认识的学习人(People You May Know),可以为你推荐能够给你的领英职业发展带来价值的人;Feed可以帮你找到最相关的行业信息,比如最新的模化文章或联系人的最新动态;Recruiter Search可以帮助企业了解趋势,更好地进行招聘;职位推荐系统(Job Recommendations System)可以帮你找到工作或者跳槽到更好的应用企业。机器学习推动着领英的核心产品。

机器学习在领英的规模化应用 这种做法无法有效实现规模化

但领英发现,过去每个团队用自己的AI技术堆栈开发各自的产品。,这种做法无法有效实现规模化,因为每个团队使用的技术不同,从逻辑回归到深度学习,从Pig 、 Hive、Spark到Scalding等等,团队之间的AI技术堆栈很难共享协作。所以领英希望在招入新的工程师或是开发新功能、使用新技术时,尽可能减少大家的负担。此外,近年来很多人工智能领域的从业者其实并不是人工智能专业出身,领英的AI基础架构对他们来说过于复杂,难以用来构建、迭代模型。

机器学习在领英的规模化应用 这种做法无法有效实现规模化

为了高效地促进机器学习规模化,领英构建了名为“Productive Machine Learning”(高效机器学习)的项目,简称Pro-ML。Pro-ML的目标是将AI工程师的工作效率翻一番,让他们能更轻松、更高效地构建模型。在过去十年里领英发现,模型性能与模型更新速度直接相关。因此,如果能让工程师加快模型迭代速度,那么模型性能也会提高。

具体来说Pro-ML采用分层解决方案,目标是提高整个模型开发周期的效率,从模型探索和构建(Exploring and Authoring),到模型训练(Training)、模型部署(Deploying)、模型运行(Running),再到持续监控模型状态。领英希望把所有常规工作自动化,这样算法工程师就能更加聚焦于创新。

机器学习在领英的规模化应用

Pro-ML中有两个工具贯穿刚刚提到的所有阶段:一个是Feature Marketplace,另一个是Health Assurance Layer。在Feature Marketplace,领英使用先进的技术来生成、共享和管理新特征。AI建模的核心是特征工程(Feature Engineering),领英有数百名工程师和数万种正在研究的特征。提高工程师生成、共享和管理特征的效率,对于提高他们的工作效率至关重要。

而Health Assurance Layer可以在整个开发周期中持续监控模型状态。比如,它确保用于模型训练的离线特征和用于在线推理的在线特征在统计意义上一致或近似,同时确保在线模型的良好性能。比如在预测分数的时候,工程师希望在线打的分与离线训练的分数精度一致。一旦Health Assurance Layer检测到异常,会自动提醒工程师,然后工程师可以介入,进行调试。Health Assurance Layer还提供了很多有用的工具,帮助工程师进一步确认问题所在。是代码出错?还是数据缺失?还是仅仅因为模型老旧,需要重新训练?

Pro-ML提升效率的第一步——探索与授权

建模过程实际上始于对问题的探索。目标是什么?目标函数是什么?有什么特征?数据有哪些?对于这些问题,工程师需要做无数个实验来探索数据,进行特征工程,调整模型和超参数。为了提高这一阶段的工作效率,领英构建了集成了 Pro-ML内核的Jupyter Notebook。在Jupyter Notebook的帮助下,工程师可以一步一步地进行数据探索、特征选择和模型绘制,并以交互的方式做实验。Jupyter Notebook由领英的Spark集群提供计算资源,这样工程师就可以在线完成工作而不需要把数据下载到本地,不仅提高了他们的工作效率,同时也保护了用户隐私。

机器学习在领英的规模化应用

为了定义模型,除了Jupyter Notebook,领英还构建了一种领域特定语言(Domain-specific Language, DSL)叫做Quasar。本质上来说,机器学习模型就是有向无环图(DAG),它定义了输入特征和在这些特征上的转换。Quasar DSL是领英用来定义模型的语言,它为建模者提供了几乎所有常见的特征转换函数。因此AI工程师们可以专注于新特征或者特征组合实验,而不需要书写大量重复代码来做特征转换。Quasar的另一个优势是离线训练出来的模型可以直接部署到线上,大大简化了模型从离线到在线的过渡。

机器学习在领英的规模化应用

多种工具高效协助模型训练

众所周知,一个模型实际上有两个关键组成部分,一个是特征,另一个是算法。首先来看一下特征。如前所述,特征工程是AI建模的核心所在。在领英,为了提高学习效率,领英构建的框架Feature Marketplace可以让工程师可以有效地生成、发现、共享和管理特征。工程师可以将特征共享到Feature Marketplace上以便其他人使用,也可以按名称搜索特征,发现该特征并获取关于该特征的所有信息,例如特征的创建者、特征是如何生成的、特征应用在哪些领英的模型中以特征的统计分布等等,所有这些问题都可以在Feature Marketplace找到答案。Feature Marketplace还为工程师提供了诸多切实有用的工具,帮助工程师选择特征以及持续监控和验证特征。通过Feature Marketplace,工程师可以快速找到建模所需的特征。

机器学习在领英的规模化应用

不过,Feature Marketplace也面临着挑战:如何确保工程师能够得到他们所需要的么,比如在线和离线特征是一致的。如果做了大量离线实验,收集好的特征用于建模,那么这个模型可能会表现得很好,但不能保证在线的时候这个特征是稳定的,如果不稳定,那模型性能可能会下降。事实上,这种事故在过去几年屡见不鲜。为了解决这个问题,领英构建了一个工具称为Frame。Frame是一个基于相同配置和相同公共库离线和在线生成特征的平台,保证了离线和在线的一致性。领英向工程师提供操作细节,工程师只需要在Quasar模型中指定特征的名称,就可以保证在线和离线获取特征的一致性。

特征集齐后就需要算法。领英支持深度学习、决策树算法、Generalized Linear Mixed Model (GLMix)等多种算法。在深度学习的场景中,领英使用Tensorflow;在决策树算法的场景中使用XGBoost,两者都是第三方库。对于GLMix,领英研发并开源了一个机器学习库叫做Photon。GLMix模型大大提高了职位推荐系统的性能,成功使职位申请数量增加了20%。

根据特征和算法,领英构建了Photon Connect训练引擎,把上述所有组件连接起来。Photon Connect用Frame来访问特征,并将特征与标签数据连接起来,然后将数据传输至Quasar模型进行特征转换。在这个阶段,Quasar模型的参数是未知的,领英利用Quasar模型进行特征转换,然后使用算法来学习这些参数。学习到的参数会插入到Quasar模型中。这样,一个Quasar模型建模就完成了,它可以直接部署到线上服务中。    

机器学习在领英的规模化应用

Health Assurance Layer保证算法顺利运行

模型训练和部署完成后,最后一个问题是:当模型实际运行的时候,如何保持它能够正常运行呢?根据过去的经验教训,在开发的早期阶段越重视这个问题,越容易在实际运行时保证模型正常运行。因此,在模型探索和训练等早期阶段,领英的Health Assurance Layer提供了一系列工具,用于持续监控和验证。有人可能会问,在实际运行中,所有在线特征都可用吗?特征更新的速度是否足够快?实际上,如果出现任何异样, Health Assurance Layer 将通知相应的工程师,他们会介入进行调试。Health Assurance Layer为工程师提供了一系列工具,帮助他们快速锁定问题。

机器学习在领英的规模化应用

领英的机器学习与Pro-ML团队

经过十年的快速发展和实验后,领英将人工智能团队与产品团队紧密地联系在一起,使机器学习团队能够与致力于解决类似难题的同行专家合作并分享最佳实践。

类似地,Pro-ML团队围绕五个主要支柱构建,每个支柱都支持模型开发生命周期的一个阶段。通常,每个支柱都有一个负责人(通常是一名工程师)、一个技术负责人和几个工程师。这些工程师也来自各个组织,包括产品工程组织、基础/工具组织和基础架构团队。Pro-ML团队分布在世界各地,包括班加罗尔、欧洲和美国多个地方。领英还拥有一个领导团队,帮助制定项目愿景,并且最重要的是致力于消除摩擦,以便每一个支柱能够独立存在。

Pro-ML将增加能够利用人工智能的产品数量,并扩大能够培训和部署模型的团队数量。此外,它将减少模型选择、部署等所需的时间,并使Health Assurance等关键领域自动化。领英现在已经花了一年多的时间来改造人工智能,使其能保持快速、高效和可操作性,扩展到所有工程领域。它让工程师有更多的时间去做他们最擅长的事情:利用领英独特的高度结构化的数据集,为棘手的技术问题找到创造性的解决方案。

从 2014 年进入中国开始,领英不断地探索着中国这片独具特点的市场,在中国北京和美国硅谷从无到有,构建了一支超过 100人的本土研发团队,两地团队以“One Team”的形式协作,利用总部的技术资源优势,希望推动中国市场完成本地化产品与技术创新。未来领英也将进一步依靠 AI 和大数据技术升级优化用户体验。如果你也想加入领英中国这支强大的研发团队,欢迎点击链接,查看并申请职位吧!

雷峰网版权文章,未经授权禁止转载。详情见转载须知。

(责任编辑:焦点)

    推荐文章
    • 深圳三部门:持续深化融资租赁、商业保理行业清理规范 加强部门协同

      深圳三部门:持续深化融资租赁、商业保理行业清理规范 加强部门协同据深圳市地方金融监督管理局官网,11月5日,深圳银保监局、人民银行深圳市中心支行、深圳市地方金融监督管理局发布《关于推动金融业服务新发展格局的指导意见》,其中提到,大力整治违法违规金融活动。坚决清理和 ...[详细]
    • 自组装机器人问世  超轻超能干

      自组装机器人问世  超轻超能干两种机器人协同作业,构建建筑结构。本报讯 近日,美国国家航空航天局NASA)艾姆斯研究中心在《科学-机器人》上报告了自组装机器人的最新进展。这是一种可自我编程的超材料机械,具有在各种应用场景中自我重新 ...[详细]
    • 国家区块链技术创新中心启动重庆中心建设

      国家区块链技术创新中心启动重庆中心建设本报讯记者田瑞颖)1月29日,在国家区块链创新应用试点总结交流会上,国家区块链技术创新中心正式宣布启动建设重庆中心。这是国家区块链技术创新中心布局的首个区域创新中心,将加速区块链关键技术研发,通过构建 ...[详细]
    • 毛利率达67.3% 卖奥特曼卡牌的卡游要上市了

      毛利率达67.3% 卖奥特曼卡牌的卡游要上市了新快报讯 记者刘艳爽报道 近日,卡游公司向港交所递交上市申请,该公司主要通过售卖奥特曼卡牌获利,产品在小学生群体中十分风靡。由于将儿童群体作为主要受众,该公司曾身陷舆论漩涡,随着向未成年人售卖盲盒的政 ...[详细]
    • 恒嘉融资租赁(00379.HK)预计年度亏损扩大至3亿

      恒嘉融资租赁(00379.HK)预计年度亏损扩大至3亿恒嘉融资租赁(00379.HK)公告,公司预计截至2020年12月31日止年度将录得重大净亏损约3亿港元至4亿港元,相较于上年度净亏损约5100万港元。董事会认为,预期净亏损增加主要由于以下原因:(i ...[详细]
    • 青稞品种甘垦糯3号育成并进入产业化

      青稞品种甘垦糯3号育成并进入产业化    科技日报讯 记者颉满斌)近日,记者从甘肃省农业工程技术研究院获悉,该院国家大麦青稞产业技术体系武威综合试验站团队新育成的青稞品种甘垦糯3号,已在多家企业进入成果产业化阶段。团队采用常规育种与现 ...[详细]
    • 金融监管总局:全力推进中小金融机构改革化险,健全风险处置常态化机制

      金融监管总局:全力推进中小金融机构改革化险,健全风险处置常态化机制图片来源:视觉中国)1月30日,金融监管总局召开2024年工作会议。围绕2024年重点任务的部署,金融监管总局提出,2024年是金融监管总局全面履职的第一个完整年度,要紧紧围绕金融监管总局系统年度重点 ...[详细]
    • 广州开出春运首趟爱心专列

      广州开出春运首趟爱心专列免费送老乡回家 新快报讯 记者许力夫 通讯员 黄惠萍 胡靖报道 “我们要回家过年咯!”1月30日7时4分,载有320名贵州安顺籍在粤务工人员的D1846次列车驶离广州南站,一路向西驰往贵州。 据铁路部 ...[详细]
    • 教你新号激活京东金条 京东金条激活方法有哪些?

      教你新号激活京东金条 京东金条激活方法有哪些?京东是一个非常注重品质和送货速度的购物平台,为了满足用户的消费需求,京东也推出了京东白条、京东金条等服务,京东白条主要为用户购物时提供先消费后付款的支付服务,而京东金条就类似于支付宝借呗、微信微粒贷了 ...[详细]
    • 世界未解之谜是真?是假?科普作家教你一招破解

      世界未解之谜是真?是假?科普作家教你一招破解在我们生活的地球上,一直流传着许许多多神秘现象,如神秘的百慕大三角、金字塔法老的诅咒、人体自燃、麦田怪圈等等。那么,UFO是外星人的飞船吗?快速射电暴是怎么产生的?暗能量很神秘吗?宇宙大沉默是怎么回事 ...[详细]
    热点阅读