当前位置:首页 >休闲 >微软再扔AI聊天画图炸弹!视觉模型加持ChatGPT,Visual ChatGPT横空出世 微软再扔AI聊天画图炸弹

微软再扔AI聊天画图炸弹!视觉模型加持ChatGPT,Visual ChatGPT横空出世 微软再扔AI聊天画图炸弹

2024-06-29 07:51:36 [百科] 来源:避面尹邢网

微软再扔AI聊天画图炸弹!微软视觉模型加持ChatGPT,再扔炸弹Visual ChatGPT横空出世

作者:新智元 开发 前端 要说ChatGPT已经是聊天核弹级的现象,那么微软今天发布的画图横空Visual ChatGPT可以称的上宇宙大爆炸。在视觉模型加持下的视觉ChatGPT,聊天生图全拿捏了。模型

图文版ChatGPT诞生了!加持

刚刚,出世微软亚研院发布了一个炸弹级模型Visual ChatGPT。微软

微软再扔AI聊天画图炸弹!视觉模型加持ChatGPT,Visual ChatGPT横空出世 微软再扔AI聊天画图炸弹

图片

微软再扔AI聊天画图炸弹!视觉模型加持ChatGPT,Visual ChatGPT横空出世 微软再扔AI聊天画图炸弹

论文地址:https://arxiv.org/abs/2303.04671

微软再扔AI聊天画图炸弹!视觉模型加持ChatGPT,Visual ChatGPT横空出世 微软再扔AI聊天画图炸弹

以前的再扔炸弹ChatGPT虽然具有卓越的对话能力和推理能力,但也有短板——还不能处理或生成视觉图像。聊天

而Visual Transformers或Stable Diffusion,画图横空虽然在视觉理解和生成能力上很强大,视觉却只有一轮固定的模型输入和输出。

微软亚研院学者提出的加持模型,就把视觉模型信息注入了ChatGPT,使用户能够与ChatGPT以语言和图像的形式交互,还能提供复杂的视觉指令,让多个模型通过多步骤协作。

微软前不久推出的Kosmos-1,就属于多模态大语言模型,传言下周发布的GPT4,据说也是转向了多模态。看来,微软在下一盘多模态的大棋。

作画、上色、抠图,一键拿捏

注入视觉模型后,ChatGPT直接化身艺术大师,想要什么作品,动动嘴就行了。

-帮我画一个苹果。Visual ChatGPT直接生成了一张画好的图。

图片

这还仅是前菜,Visual ChatGPT各种画风全能hold住,比如:

随便给个草图框架,它便能输出一幅精美的画作。

图片

另外,上色、「抠图」、深度图、基于深度图再生成图片都能拿捏。

一张简陋的图经过你的精心调教后,就变成了这个样子。

图片

当然了,Visual ChatGPT没有忘本,让它进行创作的同时,还能描述图片、回答问题。

图片

有了Visual ChatGPT的加持,微软必应简直可以制霸全世界了。

Prompt Manager,让视觉模型立刻和ChatGPT合体

研究者是如何想到这个点子的呢?

当红炸子鸡ChatGPT能输入输出文字类的信息,但是在图像理解和生成方面能力有限。

Visual ChatGPT并非是从头训练的,而是直接基于ChatGPT构建,并向其注入了许多可视化模型(VFMs)。Stable Diffusion就是可视化模型的典型代表。

VFMs虽然在文本-图像生成上展现出巨大能力,但在人机交互上却不如对话语言模型灵活。

微软亚研院的研究人员便get了一个点,将这两者结合,提出Visual ChatGPT,岂不是强强联合。

点子有了,那视觉模型信息如何注入ChatGPT呢?就是通过一系列提示。

论文中提出了Prompt Manager,具体步骤是——

1 首先明确告诉ChatGPT每个VFM的能力,并指定输入-输出格式。

2 然后转换不同的视觉信息,比如将Png图、深度图和掩模矩阵,转换为语言格式。

3 最后处理不同VFMs的历史、优先级和冲突。

图片

在Prompt Manager的帮助下,ChatGPT可以利用这些VFMs,并以迭代的方式接收其反馈,直到满足用户的要求或达到结束条件。

如图,上传一个黄色花朵的图像,然后输入一个复杂语言指令「请根据图像的预测深度生成一朵红色花朵,然后一步一步地把它做成卡通形象」。

Visual ChatGPT便开始执行任务链:

首先应用深度估计模型来检测深度信息,然后利用深度图像模型生成一个带有深度信息的红色花朵图形,最后利用基于Stable Diffusion的风格转换VFM,将该图像转化为卡通风格。

在上述管道中,Prompt Manager通过提供可视化格式的类型,和记录信息转换的过程,来充当ChatGPT的调度器。

最后,当 Visual ChatGPT从Prompt Manager获得「卡通」提示时,将结束执行管道,并显示最终结果。

模型概述

图片

左边是进行的三轮对话;中间是Visual ChatGPT如何迭代调用VFMs并提供答案的流程图;右侧是第二个QA的详细过程。

M(P)

Visual ChatGPT为了能让不同的VFM理解视觉信息并生成相应答案,需要设计一系列系统原则,并将其转化为ChatGPT能够理解的提示。

通过生成这样的提示,Prompt Manager能够帮助Visual ChatGPT完成生成文本、图像的任务,能够访问一系列VFM并自由选择使用哪个基础模型,提高对文件名的敏感度,进行链式思考和严格推理。

M(F)

Prompt Manager需要帮助Visual ChatGPT区分不同的VFM,以便准确地完成图像任务。

为此,Prompt Manager对各个基础模型的名称、应用场景、输入和输出提示以及实例给出了具体定义。

M(Q)

Prompt Manager会对用户新上传的图像生成唯一文件名,并生成假的对话历史,其中提到该名称的图片已经收到,这样可以在涉及引用现有图像的查询时忽略文件名的检查。

Prompt Manager会在查询问题之后加上一个后缀提示,来确保成功触发VFM,强制Visual ChatGPT进行思考,给出言之有物的输出。

M(F(A))

VFM给出的中间输出,Prompt Manager会为其生成链式文件名,作为下一轮内部对话的输入。

ChatGPT生成最终答案要经历一个不断迭代的过程,它会不断自我询问,自动调用更多VFM。而当用户指令不够清晰时,Visual ChatGPT会询问其能否提供更多细节,避免机器自行揣测甚至篡改人类意图。

图片

Prompt Manager概述

每个视觉基础模型的GPU显存使用情况如下:

图片

通过修改self.tools来调整模型的使用数量,便可以节省显存。

案例研究

此外,论文还分析了在各个模块,如果Prompt Manager的设计不到位,会各自出现什么问题。

比如,对于工具包的描述,需要对其名字、功能、输入输出有严格的设计。不过举例影响不大,只要描述清楚,ChatGPT便可以理解。

图片

另外,在M(P)中,不强调对图片文件名的敏感,没有严格的思考链格式、不强调可靠性、还有可以使用链式使用工具,模型在输出时就会产生错误。

论文中,作者也指出了当前Visual ChatGPT存在的一些局限。

比如,需要大量的提示来将VFMs转换成语言,实时能力有限、token长度有限制等等。

作者介绍

论文一作吴晨飞,高级研究员,2020年加入微软亚洲研究院自然语言计算组,研究领域为多模型的预训练、理解和生成。

图片

通讯作者段楠,微软亚洲研究院首席研究员及自然语言计算组研究经理,中国科学技术大学兼职博导,天津大学兼职教授,研究领域为自然语言处理、代码智能、多模态智能和机器推理等。

图片

Visual ChatGPT的横空出世,让ChatGPT聊天更加丝滑了。

图片

有网友预测,这个功能会迅速集成到新必应中,可能作为付费服务,让日常消费者更接近与「人类」的对话……

也有网友说,这个应用简直堪比早期的智能手机,相当于人们早期的应用程序开发。可以想象,它们最终的使用范围会比最初设想的要广泛得多。

责任编辑:武晓燕 来源: 新智元 ChatGPTAI微软

(责任编辑:热点)

    推荐文章
    • 埃斯顿(002747.SZ):埃斯顿投资减持749.18万股 占公司总股本的比例约为0.89%

      埃斯顿(002747.SZ):埃斯顿投资减持749.18万股 占公司总股本的比例约为0.89%埃斯顿(002747.SZ)公布,埃斯顿投资及其一致行动人韩邦海目前持有公司5.89%的股份,公司于近日接到埃斯顿投资相关方递交的《简式权益变动报告书》及相关资料。2021年3月25日,埃斯顿投资通过 ...[详细]
    • 华为捅破天上热搜 中国航天科技集团官现身科普

      华为捅破天上热搜 中国航天科技集团官现身科普华为Mate60 Pro有一项产品功能是Mate60标准版上没有的,那就是卫星通话。在华为Mate 60 Pro上,华为再次“捅破天”,首发卫星通话功能,用户可在无地面网络信号等极端环境下拨打、接听卫 ...[详细]
    • 混动车型领克06 EM-

      混动车型领克06 EM-【智车派新闻】目前,领克06EM-P已经正式开启预订,新车提供了两项预定福利。订金1000元可获得3000元购车券,还可以参加11月9日的幸运抽奖,奖品为魅族20手机128GB+512GB版本)。据智 ...[详细]
    • 向冠军致敬,奔腾T90冠军版上市交付

      向冠军致敬,奔腾T90冠军版上市交付在2023亚运会上,中国田径军团在48个比赛项目中取得19金11银9铜的不凡战绩。为了迎接冠军凯旋,致敬荣耀之师,一汽奔腾“强者荣耀 冠军来袭”——中国国家田径队荣耀运动健儿奔腾T90交车仪式暨冠军版 ...[详细]
    • 凯撒文化(002425.SZ)业绩快报:2020年度净利润降40.8% 基本每股收益0.15元

      凯撒文化(002425.SZ)业绩快报:2020年度净利润降40.8% 基本每股收益0.15元凯撒文化(002425.SZ)发布2020年度业绩快报,实现营业总收入5.90亿元,同比下降26.64%;归属于上市公司股东的净利润1.24亿元,同比下降40.80%;基本每股收益0.15元。报告期内 ...[详细]
    • 京东如何通过手机号和运单号查快递

      京东如何通过手机号和运单号查快递很多的用户在使用京东软件购买过商品之后都比较好奇的是京东如何通过手机号和运单号查快递呢?现在就来看一下小编给大家带来的京东通过手机号和运单号查快递的方法吧。1、首先打开京东进入到首页之后点击右下角的【 ...[详细]
    • 消费电子

      消费电子核心观点:智能物联网时代,消费电子行业的增长点从手机/笔电/电视等大单品转变为以TWS耳机/智能手表等为代表的多品类小爆款产品,应用交互场景多 方拓展。展望未来,我们认为以5G+AIoT为核心的方向将 ...[详细]
    • 浅谈边缘缓存及其工作原理

      浅谈边缘缓存及其工作原理浅谈边缘缓存及其工作原理译文 作者:布加迪 2021-10-12 08:00:00存储 数据管理员须采用有效的管理实践以确保文件、系统和应用程序等数字资源的可用性,比如边缘缓存。 [[428115] ...[详细]
    • 四川省资阳市“项目突破年”大会举行 跑出项目投资“加速度”

      四川省资阳市“项目突破年”大会举行 跑出项目投资“加速度”4月25日,资阳市“项目突破年”大会举行,市委书记元方出席并讲话。他强调,要全面落实党中央和省委决策部署,进一步鲜明发展导向,全力以赴抓项目、促投资、助企业、稳增长,奋力推动资 ...[详细]
    • MySQL 索引创建和优化实践

      MySQL 索引创建和优化实践MySQL 索引创建和优化实践作者:老郑 2021-11-09 07:59:50运维 数据库运维 本文以 employees 表为例子,结合具体的索引运用实践案例,通过分析 EXPLAIN 关键字 ...[详细]
    热点阅读