当前位置:首页 >探索 >商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5” 开源并持续联合研发

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5” 开源并持续联合研发

2024-06-28 17:24:49 [百科] 来源:避面尹邢网

3月14日,商汤社区生商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”,发布在多模态多任务处理能力方面实现多项全新突破,开源其卓越的最大最强图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的多模大模感知和理解能力支持,向通用人工智能迈出坚实的态多通用一步。“书生(INTERN)”最初版本由商汤科技、任务上海人工智能实验室、型书清华大学、商汤社区生香港中文大学、发布上海交通大学在2021年11月首次共同发布,开源并持续联合研发。最大最强

“书生2.5”拥有30亿参数,多模大模不仅是态多通用世界上开源模型中ImageNet准确度最高、规模最大的任务模型,也是物体检测标杆数据集COCO中唯一超过65.0 mAP的模型。目前,“书生2.5”多模态通用大模型已在通用视觉开源平台OpenGVLab开源(https://github.com/OpenGVLab/InternImage),为学术界和产业界的多模态通用模型研发提供有力支撑。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5” 开源并持续联合研发

当前,人工智能技术的发展正面临着大量跨模态任务的挑战,为满足快速增长的各式应用场景需求,发展更为通用的人工智能模型已成为科技前沿的核心焦点问题。此次全新发布的“书生2.5”致力于多模态多任务通用模型的构建,可接收处理各种不同模态的输入,并采用统一的模型架构和参数处理各种不同的任务,促进不同模态和任务之间在表示学习方面的协作,逐步实现通用人工智能领域的融会贯通。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5” 开源并持续联合研发

迈向AGI通用人工智能,大幅提升通用场景感知和理解能力

在当今快速增长的各式应用场景需求下,传统计算机视觉已无法处理真实世界中数不胜数的特定任务和场景需求。我们迫切需要一种具备通用场景感知和复杂问题处理能力的高级视觉系统。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5” 开源并持续联合研发

“书生2.5”实现了通过文本来定义任务,从而可以灵活地定义不同场景的任务需求,并根据给定视觉图像和任务的提示性语句,给出相应的指令或作答,进而具备通用场景下的高级感知和复杂问题处理能力,比如图像描述、视觉问答、视觉推理和文字识别等。

在自动驾驶和居家机器人等通用场景下,“书生2.5”可辅助处理各种复杂任务。例如在自动驾驶场景下,可以大幅提升场景感知理解能力,准确地辅助车辆判断交通信号灯状态、道路标志牌等信息,为车辆的决策规划提供有效信息输入。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”利用多模态多任务通用大模型辅助完成自动驾驶场景中各类复杂任务

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”利用多模态多任务通用大模型辅助完成居家机器人场景中各类复杂任务

除了解决例如自动驾驶和居家机器人这类复杂问题的能力,“书生2.5”通用大模型也可以解决纷繁复杂的日常生活中的常见任务,满足各种需求。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

除了全图级别的以图生文,“书生2.5”通用大模型同样可以根据物体边框更精细化定位任务需求。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

“书生2.5”同时具备AIGC“以文生图”的能力,可根据用户提出的文本创作需求,利用扩散模型生成算法,生成高质量、自然的写实图像。例如借助“书生2.5”的以文生图能力帮助自动驾驶技术研发,通过生成各类真实的道路交通场景,如繁忙的城市街道、雨天拥挤的车道、马路上奔跑的狗等,生成写实的Corner Case训练数据,进而训练自动驾驶系统对Corner Case场景的感知能力上限。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

“书生2.5”还可根据文本快速检索出视觉内容。例如,可在相册中返回文本所指定的相关图像,或是在视频中,检索出与文本描述最相关的帧,提高视频中时间定位任务的效率。此外还支持引入物体检测框,根据文本返回最相关的物体,可实现开放世界视频或图像中物体检测及视觉定位。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

三位一体,高效能打通自然语言、图像等多模态任务处理

“书生2.5”在图文跨模态领域卓越的性能表现来自于视觉、语言及多任务建模三大模型能力的有效融合,即InternImage-G通用视觉大模型、用于文本理解的超大语言预训练模型(LLM)和用于多任务的兼容解码建模大模型(Uni-Perceiver)。

其中,InternImage-G通用视觉大模型能够基于动态稀疏卷积算子自适应地调整卷积的位置和组合方式,从而为多功能视觉感知提供强大的表示。超大语言模型通过在超大规模丰富文本语料库上进行预训练提供强大可靠的文本特征。Uni-Perceiver通才任务解码建模通过将不同模态的数据编码到统一的表示空间,将不同任务统一为相同的任务范式,从而能够以相同的架构和共享的模型参数同时处理各种模态和任务。此外,“书生2.5”还创新性地引入了任务级别的稀疏激活机制,使其具备高效的多任务协作能力。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

在视觉主流图像分类数据集ImageNet上,该模型仅基于公开数据便达到了90.1%的Top-1准确率。这是除谷歌与微软之外,唯一准确率超过90.0%的模型,值得一提的是,谷歌与微软均未公开模型及额外数据集。“书生2.5”同时也是世界上开源模型中ImageNet准确度最高、规模最大的模型。

除了高精确度的语义理解能力外,“书生2.5”在目标定位性能上同样有着出色的表现。在物体检测标杆数据集COCO上,其取得了65.4的mAP,是世界上唯一超过65.0 mAP的模型。“书生2.5”也在包括图像分类、物体检测、语义分割、图像描述、图文检索等20+个不同场景、不同任务的单模态和跨模态公开数据集中都取得了最佳成绩。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”在20余个不同场景、不同任务的单模态和跨模态公开数据集中都取得了最佳成绩

开源模型社区性能最强多模态大模型,加速学术和产业界多模态通用模型研发

即日起,“书生2.5”多模态通用大模型已在通用视觉开源平台OpenGVLab开源,成为目前开源模型社区能提供的性能最强的多模态大模型。

OpenGVLab致力于通用视觉模型的开源社区建设,开源项目覆盖数据、模型、评测基准全链路,为学术界和产业界的多模态通用模型研发提供了坚实的支撑。在数据方面,OpenGVLab构建了千万级超大规模精标注数据集,涵盖了图像分类、目标检测等视觉核心任务的标注,同时包括各类图像中的属性、状态等的精细标注,显著降低了数据的采集成本。在模型方面,OpenGVLab的开源项目全方位覆盖了通用模型架构、高效训练框架及超高性能的预训练模型,助力社区用极低的数据量快速满足多场景、多任务、高性能的AI模型训练,并供所有对人工智能技术感兴趣的人士自由体验。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

OpenGVLab还提供了多任务、多模态的通用视觉评测基准,可以提供权威的评测结果,推动基于统一标准的公平和准确评测,加快通用视觉模型的产业化应用步伐。通过开源社区的建设,OpenGVLab帮助开发者显著降低通用视觉模型的开发门槛,用更低成本快速开发用于成百上千种视觉任务、视觉场景的算法模型,高效实现对长尾场景的覆盖,推动通用AI技术的规模化应用。

当前,“书生”还在持续学习、不断进步,致力于实现多模态多任务通用模型技术的突破,驱动通用人工智能技术的创新应用生态,为推动人工智能学术、产业发展做出贡献。

雷峰网版权文章,未经授权禁止转载。详情见转载须知。

(责任编辑:时尚)

    推荐文章
    • 汇率变动对股价的影响的有哪些 主要表现是什么?

      汇率变动对股价的影响的有哪些  主要表现是什么?外汇行情与股价有密切的联系。一般来说,如果一国的货币是实行升值的基本方针,股价便会上涨,一旦其货币贬值,股价即随之下跌。所以外汇的行情会带给股市以很大的影响。在当代国际贸易迅速发展的潮流中,汇率对一国 ...[详细]
    • “十四冬”的观天人

      “十四冬”的观天人【新春走基层·身边暖镜头】◎本报记者 付丽丽    1月28日早上5时,内蒙古呼伦贝尔扎兰屯,呼伦贝尔市气象台副台长王颖的闹钟准时响起。她习惯性地看了一眼室外温度显示,-16℃。    当天,第十四届 ...[详细]
    • 龙年氛围渐浓 到正佳感受大唐古韵

      龙年氛围渐浓 到正佳感受大唐古韵龙年氛围渐浓,广州众多商家、景区纷纷推出各种龙年主题活动。打造8大盛唐千灯唯美场景、美人鱼演绎震撼海底龙凤大秀、16种共1300余场精彩演出轮番上演……龙年新春将至,正佳文旅将为本地市民和来粤过年的游 ...[详细]
    • 全国古树名木保护管理一张图初步建成

      全国古树名木保护管理一张图初步建成【环保时空】    科技日报讯 记者马爱平)记者1月28日从国家林业和草原局获悉,第二次全国古树名木资源普查结果显示,我国普查范围内现有古树名木共计508.19万株,包括散生122.13万株和群状38 ...[详细]
    • 中青旅(600138.SH):2020年度由盈转亏 基本每股亏损0.3206元

      中青旅(600138.SH):2020年度由盈转亏 基本每股亏损0.3206元中青旅(600138.SH)发布2020年年度报告,实现营业收入71.51亿元,同比减少49.12%;归属于上市公司股东的净亏损2.32亿元,去年同期则为净利润5.68亿元;归属于上市公司股东的扣除非 ...[详细]
    • 自我生长的细胞可降低人造肉成本

      自我生长的细胞可降低人造肉成本这种细胞可自制生长物质,无须昂贵的培养基。 研究人员设计出了一种奶牛的肌肉细胞,这种工程化细胞无须昂贵和高能耗的生长因子就能繁殖。研究人员乐观地认为,如果规模扩大,可以降低实验室培育肉类的生产成本。但 ...[详细]
    • 一台涉刑iPhone6S手机被拍出22.6万天价,法院回应

      一台涉刑iPhone6S手机被拍出22.6万天价,法院回应1月30日,一则“旧iphone 6s涉刑手机被拍出22.6万天价”的消息引发关注。红星新闻记者看到,该手机的评估价格为124元,起拍价格为86.8元,实际参与竞拍的有4人,最后基本是同一人竞拍号22 ...[详细]
    • 四川省省直(红星)作协首届新春年会举行

      四川省省直(红星)作协首届新春年会举行今30)日下午,四川省省直红星)作家协会首届新春年会在成都举办,这是继该协会2023年12月21日成立大会后,再次迎来的一场文学川军的盛会。省直红星)作协主席兼党支部书记王怀林致辞中表示,四川是文学大 ...[详细]
    • 恒信东方(300081.SZ)公布消息:向85名激励对象授予1188万股第二类限制性股票

      恒信东方(300081.SZ)公布消息:向85名激励对象授予1188万股第二类限制性股票恒信东方(300081.SZ)公布,公司于2021年3月19日召开第七届董事会第十六次会议审议通过了《关于向2021年限制性股票激励计划激励对象首次授予限制性股票的议案》,确定以2021年3月19日为 ...[详细]
    • 欧盟统计局:2022年欧盟出口3210万吨垃圾

      欧盟统计局:2022年欧盟出口3210万吨垃圾2022年,欧盟向非欧盟国家出口了3210万吨垃圾。与2021年相比,这一数字下降3%。自2021年以来,从非欧盟国家进口的废物减少了5%,达到1870万吨。土耳其:欧盟垃圾出口的主要目的地2022年 ...[详细]
    热点阅读