当前位置:首页 >休闲 >清华朱文武团队:开源世界首个轻量图自动机器学习库AutoGL 旨在针对给定的数据和任务

清华朱文武团队:开源世界首个轻量图自动机器学习库AutoGL 旨在针对给定的数据和任务

2024-06-29 06:36:59 [百科] 来源:避面尹邢网

清华朱文武团队:开源世界首个轻量图自动机器学习库AutoGL-light

作者:机器之心 人工智能 新闻 针对图自动机器学习问题,清华清华大学朱文武教授团队从 2017 年开始布局,朱文自动并在 2020 年发布了智图库(AutoGL)—— 世界首个针对图自动机器学习的武团平台和工具包。

清华大学朱文武教授团队自 2020 年发布智图库(AutoGL)以来,队开在图自动机器学习的源世可解释性和可泛化能力等方面取得新进展,特别关注于图 Transformer、界首机器图分布外泛化(OOD)、个轻图自监督学习等方面,量图发表图神经架构搜索评测基准,学习并在中国新一代开源创新服务平台 GitLink 上发布首个轻量智图库(AutoGL-light)。清华

智图库回顾

图(graph)是朱文自动描述数据间关系的一般抽象,广泛存在于不同的武团研究领域中并有许多重要应用,例如社交网络分析、队开推荐系统、源世交通预测等互联网应用,界首机器新药物发现、新材料制备等科学应用(AI for Science),覆盖诸多不同领域。图机器学习在近年来取得了广泛关注。由于不同图数据在结构、性质和任务上千差万别,现有人工设计的图机器学习模型缺乏对不同场景与环境变化的泛化能力。图自动机器学习(AutoML on Graphs)是图机器学习发展的前沿,旨在针对给定的数据和任务,自动化地设计最优的图机器学习模型,在研究与应用上都有着极大的价值。

清华朱文武团队:开源世界首个轻量图自动机器学习库AutoGL 旨在针对给定的数据和任务

针对图自动机器学习问题,清华大学朱文武教授团队从 2017 年开始布局,并在 2020 年发布了智图库(AutoGL)—— 世界首个针对图自动机器学习的平台和工具包。

清华朱文武团队:开源世界首个轻量图自动机器学习库AutoGL 旨在针对给定的数据和任务

图片

清华朱文武团队:开源世界首个轻量图自动机器学习库AutoGL 旨在针对给定的数据和任务

项目地址:https://github.com/THUMNLab/AutoGL

智图库已在 GitHub 获得了超千个星标,吸引了超过 20 个国家和地区数万次访问,并在 GitLink 上进行了发布。智图库包括一套完整的图自动机器学习流程,涵盖了主流的图自动机器学习方法。智图库通过图自动机器学习解决方案 AutoGL Solver,将图上的自动机器学习拆分为五个核心部分:图自动特征工程、图神经架构搜索(NAS)、图超参数优化(HPO)、图模型训练,以及图模型自动集成。智图库已经支持节点分类、异构图节点分类、链接预测、图分类等多种类型的图任务。 

图自动机器学习研究新进展

针对目前图自动机器学习缺乏可解释性和可泛化能力等问题,智图团队在图自动机器学习研究取得了一系列新进展。

1. 图分布外泛化(OOD)架构搜索

针对图神经架构搜索无法处理图数据分布变化问题,提出了基于解耦自监督学习的图神经架构搜索方法,通过为每个图样本定制合适的图神经网络架构,有效增强了图神经架构搜索方法处理数据分布偏移的适应能力。该工作已发表于机器学习顶级国际会议 ICML 2022。

图片

论文地址:https://proceedings.mlr.press/v162/qin22b/qin22b.pdf

2.大规模图架构搜索

针对现有图神经架构搜索无法处理大规模图问题,提出了基于架构 - 子图联合采样机制的超网络训练方法,通过重要性采样和同辈学习(peer learning)算法,突破了采样过程中的一致性瓶颈,极大程度提升了图神经架构搜索的效率,首次实现了单机可处理亿规模真实图数据。该工作已发表于机器学习顶级国际会议 ICML 2022。

图片

论文地址:https://proceedings.mlr.press/v162/guan22d.html

3. 图神经架构搜索评测基准

针对图神经架构搜索缺乏统一的评测标准,以及评测过程消耗的计算资源量巨大问题,智图团队研究并提出了图神经架构搜索基准 NAS-Bench-Graph,首个针对图神经架构搜索的表格式基准。该基准可以高效、公平、可复现地比较不同图神经架构搜索方法,填补了针对图数据架构搜索没有基准的空白。NAS-Bench-Graph 设计了一个包含 26,206 种不同图神经网络架构的搜索空间,采用了 9 个常用的不同大小、不同类型的节点分类图数据,并提供了已经完全训练好的模型效果,可以在保证可复现性与公平比较的同时,极大地减少计算资源。该工作已发表于机器学习顶级国际会议 NeurIPS 2022。

图片

项目地址:https://github.com/THUMNLab/NAS-Bench-Graph

4. 自动图 Transformer

针对目前人工设计的图 Transformer 架构难以取得最佳预测性能问题,提出了自动图 Transformer 架构搜索框架,通过统一的图 Transformer 搜索空间与结构感知的性能评估策略,解决了设计最佳图 Transformer 耗时长,难以得到最优架构的难题,该工作发表于机器学习顶级国际会议 ICLR 2023。

图片

论文地址:https://openreview.net/pdf?id=GcM7qfl5zY

5. 鲁棒图神经架构搜索

针对目前图神经架构搜索无法处理对抗打击问题,提出了鲁棒图神经架构搜索方法,通过在搜索空间中增加鲁棒性图算子并在搜索过程中提出了鲁棒性评价指标,增强了图神经架构搜索抵御对抗打击的能力。该工作已发表于模式识别顶级国际会议 CVPR 2023。

图片

论文地址:https://openaccess.thecvf.com/content/CVPR2023/papers/Xie_Adversarially_Robust_Neural_Architecture_Search_for_Graph_Neural_Networks_CVPR_2023_paper.pdf

6. 自监督图神经架构搜索

现有图神经架构搜索严重依赖于标签作为训练和搜索架构的指标,限制了图自动机器学习在标签匮乏场景的应用。针对该问题,智图团队提出了自监督图神经架构搜索方法,发现了驱动图数据形成的图因子与最优神经架构之间潜在的关系,采用了一种新颖的解耦自监督图神经架构搜索模型,实现了有效在无标签图数据上搜索最优架构。该工作已被机器学习顶级会议 NeurIPS 2023 接收。

图片

7. 多任务图神经架构搜索

针对现有图神经架构搜索无法考虑不同任务对架构需求的差异性问题,智图团队提出了首个多任务图神经网络架构搜索方法,通过同时为不同图任务设计最优架构并采用课程学习捕捉不同任务之间的协作关系,有效实现了不同图任务定制最优架构。该工作已被机器学习顶级会议 NeurIPS 2023 接收。

图片

轻量智图库

基于上述研究进展,智图团队在 CCF 指定开源平台 GitLink 发布了轻量智图(AutoGL-light),世界首个轻量图自动机器学习开源库。其整体架构图如图 1 所示。轻量智图主要具有以下特点:

图片

图 1. 轻量智图框架图

项目地址:https://gitlink.org.cn/THUMNLab/AutoGL-light

1. 模块解耦

轻量智图通过更全面的模块解耦方式,实现了对不同图自动机器学习流水线更便捷的支持,允许在机器学习流程的任何步骤中自由加入模块,满足用户定制化需求。

2. 自主定制能力

轻量智图库支持用户自主定制化图超参数优化(HPO)和图神经架构搜索(NAS)。在图超参数优化模块中,轻量智图提供了多种超参数优化算法和搜索空间,并支持用户通过继承基类来创建自己的搜索空间。在图神经架构搜索模块中,轻量智图实现了典型和最先进的搜索算法,且用户能够根据自己的需求自主轻松组合和定制搜索空间、搜索策略和评估策略的模块设计。

3. 广泛的应用领域

轻量智图的应用不仅仅局限于传统的图机器学习任务,而是进一步扩展到了更广泛的应用领域。目前,轻量智图已经支持了分子图、单细胞组学数据等 AI for Science 应用。在未来,轻量智图希望可以为不同领域图数据提供最先进的图自动机器学习解决方案。

4. GitLink 编程夏令营

以轻量智图为契机,智图团队深度参与了 GitLink 编程夏令营(GLCC),其是在 CCF 中国计算机学会指导下,由 CCF 开源发展委员会(CCF ODC)举办的面向全国高校学生的暑期编程活动。智图团队的两个项目 “GraphNAS 算法复现” 和 “图自动学习科学领域应用案例” 吸引了国内十余所高校的本科生和研究生报名。

夏令营举办过程中,智图团队与参与同学积极沟通,工作进展程度超出预期。其中,GraphNAS 算法复现项目在轻量智图中成功实现了上述介绍的图分布外泛化架构搜索(ICML’22)、大规模图架构搜索(ICML’22)、自动图 Transformer (ICLR’23),有效验证了轻量智图库的灵活性与自主定制能力。

图自动机器学习科学领域应用项目则在轻量智图实现了基于图的生物信息处理算法,包括用于单细胞 RNA 测序分析的代表性算法 scGNN、用于分子表征学习的代表性算法 MolCLR,以及用于分子结构预测的代表性算法 AutoGNNUQ,推动了图自动机器学习技术在 AI for Science 的应用。在 GitLink 编程夏令营中,轻量智图既丰富了算法和应用案例,也使参与的同学锻炼了开源软件开发等技能,在图自动机器学习方面培养人才,并为助力我国开源生态建设的发展贡献了自己的力量。

智图团队来自清华大学计算机系朱文武教授领导的网络与媒体实验室,核心成员包括助理教授王鑫、博士后张子威、博士生李昊阳、秦一鉴、张泽阳,硕士生关超宇等十余人。项目得到了国家自然科学基金委和科技部的大力支持。

责任编辑:张燕妮 来源: 机器之心 AI工具

(责任编辑:焦点)

    推荐文章
    • *ST海航(600221.SH):2月客运量同比升419.17% 货邮载运率32.77%

      *ST海航(600221.SH):2月客运量同比升419.17% 货邮载运率32.77%*ST海航(600221.SH)披露2021年2月主要运营数据。2021年2月,集团运输旅客249.355万人,同比增长419.17%;客座率68.85%,同比增长24.74个百分点。2021年2月, ...[详细]
    • 如何在Kubernetes上运行Apache Spark

      如何在Kubernetes上运行Apache Spark如何在Kubernetes上运行Apache Spark译文 作者:李睿 2021-08-09 09:00:00开发 前端 云计算 Spark Empathy公司平台工程技术负责人Ramiro Al ...[详细]
    • 纯 CSS 实现一个计时器

      纯 CSS 实现一个计时器纯 CSS 实现一个计时器作者:XboxYan 2023-04-17 09:08:27开发 前端 CSS 现在可不仅仅只是改一个颜色这么简单,还可以做很多交互,比如做一个功能齐全的计时器? CSS 现 ...[详细]
    • OPPO官宣:Reno Ace2下月见

      OPPO官宣:Reno Ace2下月见3月25日消息,OPPO副总裁沈义人再次在其微博带来了OPPO家的新机爆料。沈义人称:大家一直催更的Ace2在4月份要来了,新机重量对小拇指非常友好。现在时间已经是3月底了,按照这个产品规律,OPPO ...[详细]
    • 富瀚微(300613.SZ)公布消息:就收购眸芯科技32.43%股权已完成工商变更登记

      富瀚微(300613.SZ)公布消息:就收购眸芯科技32.43%股权已完成工商变更登记富瀚微(300613.SZ)公布,之前公告披露,公司于2021年2月5日召开第三届董事会第十四次会议,于2021年2月25日召开了2021 年第二次临时股东大会审议通过了《关于收购眸芯科技(上海)有限 ...[详细]
    • Hive基于UDF进行文本分词

      Hive基于UDF进行文本分词Hive基于UDF进行文本分词作者: 刘不二 2020-12-31 05:37:05运维 数据库运维 Hive作为一个sql查询引擎,自带了一些基本的函数,比如count(计数),sum(求和),有 ...[详细]
    • 如何使用 chage 命令

      如何使用 chage 命令如何使用 chage 命令2023-04-05 08:33:10系统 Linux 乍一看,这像是一个拼写错误。但实际上并没有写错,我们今天讨论的的确是 chage 命令。 chage 命令用于检查和更 ...[详细]
    • 从0到1部署一套TiDB本地集群

      从0到1部署一套TiDB本地集群从0到1部署一套TiDB本地集群作者: jinjunzhu 2021-01-08 08:19:36运维 数据库运维 TiDB 是 PingCAP 公司自主设计、研发的开源分布式关系型数据库,是一款同 ...[详细]
    • 北京租房市场入冬 六成商圈租金环比下跌

      北京租房市场入冬 六成商圈租金环比下跌天气转冷,北京租赁市场也正式入冬,市场淡季叠加部分区域疫情反弹因素,11月北京租赁市场呈现加速降温趋势。11月29日,贝壳研究院发布数据显示,11月北京市租赁成交量环比减少超过10%,各城区租赁市场均 ...[详细]
    • 您了解分区存储吗?现在该使用它了

      您了解分区存储吗?现在该使用它了您了解分区存储吗?现在该使用它了译文 作者:布加迪编译 2021-03-11 08:00:00存储 存储软件 我们知道,数据继续迅猛增加。据IDC Global Datasphere显示,未来三年的 ...[详细]
    热点阅读