当前位置:首页 >知识 >开源人工智能根据面部表情特征深度学习应用于生成图像标题 旨在提高模型的开源描述能力

开源人工智能根据面部表情特征深度学习应用于生成图像标题 旨在提高模型的开源描述能力

2024-06-29 06:01:36 [百科] 来源:避面尹邢网

开源人工智能根据面部表情特征深度学习应用于生成图像标题

作者:趣说人工智能 人工智能 深度学习 开源人工智能根据面部表情特征深度学习应用于生成图像标题摘要:图像字幕是开源生成图像的自然语言描述的过程。然而,人工大多数当前的根据图像字幕模型没有考虑图像的情感方面,这与其中表现的面部活动和人际关系非常相关。

开源人工智能根据面部表情特征深度学习应用于生成图像标题摘要:图像字幕是表情生成图像的自然语言描述的过程。然而,特征题大多数当前的深度图像字幕模型没有考虑图像的情感方面,这与其中表现的学习像标活动和人际关系非常相关。为了开发一种可以生成包含这些人类标题的应用于生模型,我们使用从包括人脸在内的成图图像中提取的面部表情特征,旨在提高模型的开源描述能力。在这项工作中,人工我们提出了两种Face-Cap模型,根据它以不同的面部方式嵌入面部表情特征,以生成图像标题。表情使用所有标准评估指标,我们的Face-Cap模型在应用于从标准Flickr 30K数据集中提取的图像标题数据集时,优于用于生成图像标题的***进基线模型,该数据集包含大约11K个包含面部的图像。对字幕的分析发现,令人惊讶的是,令人惊讶的是,字幕质量的提高似乎并非来自添加与图像的情感方面相关的形容词,而是来自字幕中描述的行为的更多变化。

开源人工智能根据面部表情特征深度学

开源人工智能根据面部表情特征深度学习应用于生成图像标题 旨在提高模型的开源描述能力

开源人工智能根据面部表情特征深度学习应用于生成图像标题

开源人工智能根据面部表情特征深度学习应用于生成图像标题 旨在提高模型的开源描述能力

 

开源人工智能根据面部表情特征深度学习应用于生成图像标题 旨在提高模型的开源描述能力

习应用于生成图像标题简介:图像字幕系统旨在使用计算机视觉和自然语言处理来描述图像的内容。这在计算机视觉中是一项具有挑战性的任务,因为我们不仅要捕捉对象,还要捕捉它们之间的关系以及图像中显示的活动,以便生成有意义的描述。大多数***进的方法,包括深度神经网络,都会生成反映图像事实方面的字幕[3,8,12,16,20,35,37];在这个过程中,通常会忽略能够提供更丰富和更有吸引力的图像标题的情感方面。在设计智能系统以产生智能,适应性和有效结果时,需要包括识别和表达情感的情感属性[22]。设计能够识别情感并将其应用于描述图像的图像字幕系统仍然是一个挑战。

一些模型已将情绪或其他非事实信息纳入图像标题[10,23,38];他们通常需要收集一个补充数据集,其中的情感词汇来源于此,来自自然语言处理[25]的工作,其中情绪通常被描述为积极的,中立的或消极的。马修斯等人。例如,[23]通过众包构建了一个情感图像标题数据集,其中要求说话者使用固定词汇包括正面情绪(例如可爱的猫)或负面情绪(例如阴险的猫);他们的模型在这个和一套标准的事实标题上进行了训练。甘等人。 [10]提出了一个名为StyleNet的字幕模型,用于添加样式,包括情感,以及事实标题;他们指定了一组预定义的样式,例如幽默或浪漫。

这些类型的模型通常包含代表观察者对图像的情感的图像描述(例如,对于图像的正面看法而言,可爱的猫,对于负面的看法,则是阴险的猫);它们并不旨在捕捉图像的情感内容,如图1所示。这种区别已在情感分析文献中得到认可:例如,[24]的早期工作提出了一种用于预测情绪的图论 - 理论方法。由文本作者表达,首先删除文本实际内容中的正面或负面的文本片段(例如“主角试图保护她的好名字”作为电影情节描述的一部分,哪里好具有积极的情绪)并且只留下反映作者主观观点的情感文本(例如“大胆,富有想象力,无法抗拒”)。在图像的背景下,我们对与内容相关的情感的概念感兴趣。

开源人工智能根据面部表情特征深度学习应用于生成图像标题

 

开源人工智能根据面部表情特征深度学习应用于生成图像标题贡献:因此,在本文中,我们引入了一个图像字幕模型,我们称之为Face-Cap,以结合图像本身的情感内容:我们自动检测人脸的情绪,并将衍生的面部表情特征应用于生成图像标题。我们介绍了Face-Cap的两种变体,它们以不同的方式使用这些特征来生成字幕。我们的工作贡献是:

1.Face-Cap模型生成包含面部表情特征和情感内容的字幕,既不使用情感图像标题配对数据也不使用难以收集的情绪标题数据。据作者所知,这是***项在图像字幕任务中应用面部表情分析的研究。

2.一组实验证明,这些Face-Cap模型在所有标准评估指标上都优于基线,这是一种***进的模型。对生成的字幕的分析表明,它们通过更好地描述图像中执行的操作来改进基线模型。

3.一个图像标题数据集,包括我们从Flickr 30K数据集[39]中提取的人脸,我们称之为FlickrFace11K。它是公开的3,用于促进该领域的未来研究。

开源人工智能根据面部表情特征深度学习应用于生成图像标题

 

开源人工智能根据面部表情特征深度学习应用于生成图像标题数据集:为了训练我们的面部表情识别模型,我们使用面部表情识别2013(FER-2013)数据集[11]。它包括野外样本,幸福,悲伤,恐惧,惊讶,愤怒,厌恶和中立。它包含35,887个示例(28,709个用于培训,3589个用于公开,3589个用于私人测试),通过Google搜索API收集。这些示例采用灰度级,大小为48 x 48像素。在删除11个完全黑色的示例后,我们将FER-2013的训练集分为两个部分:25,109个用于训练,3589个用于验证模型。与该领域的其他工作[17,27,40]类似,我们使用FER-2013的私人测试集进行训练阶段后模型的性能评估。为了与相关工作进行比较,我们不会将公共测试集应用于培训或验证模型。

为了训练我们的图像字幕模型,我们提取了Flickr 30K数据集的一个子集,带有图像标题[39],我们称之为FlickrFace11K。它包含11,696个例子,包括人脸,使用基于CNN的人脸检测算法进行检测[18] .4我们观察到Flickr 30K数据集是我们数据集的一个很好的来源,因为它有很大一部分样本包括人类与其他图像标题数据集(如COCO数据集[4])相比,这些面。我们将FlickrFace11K样本分为8696个进行培训,2000个进行验证,1000个进行测试,并将其公之于众.5为了提取样本的面部特征,我们使用面部预处理步骤和面部表情识别模型如下。

开源人工智能根据面部表情特征深度学习应用于生成图像标题Face预处理:由于我们的目标是在FER-2013上训练面部表情识别模型并将其用作FlickrFace11K样本的面部表情特征提取器,我们需要使样本与FER-2013数据一致。为此,使用面部检测器对FlickrFace11K的面进行预处理。通过基于CNN的面部检测算法检测面部并从每个样本裁剪。然后,我们将每个面转换为灰度,并将其调整为48 x 48像素,这与FER-2013数据完全相同。

开源人工智能根据面部表情特征深度学习应用于生成图像标题结论和未来的工作:在本文中,我们提出了两种图像字幕模型,Face-Cap,它采用面部特征来描述图像。为此,应用面部表情识别模型从包括人脸的图像中提取特征。使用这些特征,我们的模型被告知图像的情感内容,以自动调节图像标题的生成。与***进的基线模型相比,我们已经使用标准评估指标显示了模型的有效性。生成的标题表明Face-Cap模型成功生成图像标题,并在适当的时间结合了面部特征。对字幕的语言分析表明,描述图像内容的有效性得到提高,表达的可变性更大。

未来的工作可能涉及设计新的面部表情识别模型,这可以涵盖更丰富的情感,包括混乱和好奇;并有效地应用其相应的面部特征来生成图像标题。此外,我们希望探索注入面部情绪的替代架构,如[37]的软注射方法。

代码地址:github.com/omidmn/Face-Cap 

责任编辑:庞桂玉 来源: 今日头条 人工智能深度学习机器学习

(责任编辑:休闲)

    推荐文章
    • A股275家公司无主 信息技术企业占比近三成

      A股275家公司无主 信息技术企业占比近三成亚太药业(002370)一则将变为“无主”状态的公告引起关注。据Wind数据统计,截至11月7日,除亚太药业外,两市共有275家上市公司处于无实控人状态。北京商报记者通过梳理发 ...[详细]
    • 硬件疯涨?锐龙APU+技嘉B550M是你装机好选择

      硬件疯涨?锐龙APU+技嘉B550M是你装机好选择​今天为大家推荐一套性价比极高的装机搭配:AMD锐龙APU+技嘉B550M主板。优质的用料与精细的做工,外加一系列先进特性,令技嘉雪雕B550M AORUS PRO AX主板有了超出定位的产品实力,加 ...[详细]
    • 分享15个基于Vue3.0全家桶的优秀开源项目

      分享15个基于Vue3.0全家桶的优秀开源项目分享15个基于Vue3.0全家桶的优秀开源项目作者:Echa攻城狮 2022-11-28 17:21:24开源 今天来分享 15 个基于 Vue3.0 全家桶的优秀开源项目! 今天来分享 15 个基于 ...[详细]
    • Sentry 监控

      Sentry 监控Sentry 监控 - Distributed Tracing 分布式跟踪作者: 为少 2021-09-30 23:12:52安全 应用安全 分布式 分布式跟踪(Distributed tracin ...[详细]
    • 安逸花还清后还收费吗 取消方法是怎样的?

      安逸花还清后还收费吗 取消方法是怎样的?大家应该都知道,贷款都是要成本的,贷款平台会在借款成功后收取一定的费用,在安逸花借钱也一样。有不少人在安逸花上借的钱还清了想知道还会不会再收费,那么安逸花还清后还收费吗?这个要看具体是什么费用了,一起 ...[详细]
    • 以大数据技术为基础的4个游戏应用

      以大数据技术为基础的4个游戏应用以大数据技术为基础的4个游戏应用作者:Harris编译 2019-07-01 10:11:18大数据 如今,基于大数据技术的游戏应用程序为游戏行业带来了全新的进步。大数据是游戏的未来。Dataiku公 ...[详细]
    • 新学期如何更新装备 这份笔记本选购指南请查收

      新学期如何更新装备 这份笔记本选购指南请查收​2021年的脚步已经迈进了三月份,在结束了愉快的寒假之后,不少学校纷纷开学。同学们也该收收心进入新学期,去完成自己的学业。笔记本电脑是大学生们的必备装备,无论是完成自己的学业,还是打发空闲时间,都离 ...[详细]
    • 浅入浅出 MySQL 索引

      浅入浅出 MySQL 索引浅入浅出 MySQL 索引作者:SH的全栈笔记 2021-05-17 09:58:00数据库 MySQL 在数据库中,索引可以帮助我们快速的查询到对应的数据行,从而顺利的取出所有列的数据。这个过程必须 ...[详细]
    • 人寿保险有哪些险种 中国人寿保险怎么样?

      人寿保险有哪些险种 中国人寿保险怎么样?人寿保险有哪些险种?人寿保险的险种包括定期人寿保险,终身人寿保险,生存保险,生死两全保险,养老保险(由生存保险和死亡保险结合而成,是生死两全保险的特殊表现形式)等。此外,因为巨大灾难也成为了威胁人身安 ...[详细]
    • 小众手机的“试错”之旅

      小众手机的“试错”之旅小众手机的“试错”之旅作者:佚名 2020-09-02 09:16:16移动开发 现在想买个手机,放眼望去你会发现几乎每家主流厂商的产品都长得差不多,除了Logo之外没有太多区别。曲面屏加挖孔前置摄像 ...[详细]
    热点阅读