5 月 25 日消息,翻译巴塞罗那超级计算中心(BSC)和加泰罗尼亚理工大学(UPC)的器帮研究人员开发了一种将手语翻译成文本的新工具,以给予听觉障碍者更多包容性和可及性。助听障人该工具利用人工智能技术,士正包括自我注意机制和更快的常交吞吐量,以更准确地理解手语者的研究语转姿势并产生准确的文字转写。
▲ 图源 Arxiv
该工具基于 How2Sign 数据集,推手这是文字一个公开可用的大规模、多模态和多视图数据集,翻译包括 80 小时的器帮美国手语教学视频和相应的英语文字记录。该数据集由 BSC 和 UPC 发布,助听障人用于训练模型,士正以便将手语转换为文本。研究人员使用膨胀式三维网络(I3D)对数据进行预处理,这是一种视频提取方法,可以对视频进行三维过滤,直接从视频中获取时空信息。并使用了一个转化器式的机器学习模型,与 ChatGPT 等其他人工智能工具背后的模型类似。
▲ 图源论文《Sign Language Translation from Instructional Videos》
该研究的主要作者 Laia Tarrés 表示:“我们开发的新工具是以前发布的名为 How2Sign 的出版物的延伸,在那里,训练模型所需的数据被公布。利用这些已经可用的数据,我们开发了一个新的开源软件,能够学习视频和文本之间的映射。”
研究人员发现,他们的模型能够产生有意义的翻译,但仍存在改进的空间。该工具尚处于实验阶段,研究人员将继续努力,以创建一个能够与无听力损失者使用的技术相媲美的工具。
Laia Tarrés 同时表示:“这个自动手语翻译的开放工具是对关注无障碍环境的科学界的宝贵贡献,它的发表代表了向为所有人创造更具包容性和无障碍的技术迈出的重要一步。”
责任编辑:庞桂玉 来源: IT之家 AI人工智能(责任编辑:休闲)
远东发展(00035.HK)获执行董事邱达昌增持33万股 涉资约92.1万港元
2020年城镇平均工资正式出炉 非私营单位年平均工资近十万元
央行:适时适度实施逆周期调节 守住不发生系统性金融风险的底线
一季度非储备性质金融账户顺差488亿美元 储备资产增加676亿元
新筑股份(002480.SZ):拟开展融资性售后回租业务 租赁期限3年
江苏进出口总量中占全国的14.4% 外贸产业升级带动爆发式增长