当前位置:首页 >娱乐 >科大讯飞拿下SemEval 2022三项冠军,多语种语言理解再上新台阶! 简称HFL)以显著优势摘得冠军

科大讯飞拿下SemEval 2022三项冠军,多语种语言理解再上新台阶! 简称HFL)以显著优势摘得冠军

2024-06-30 16:39:52 [百科] 来源:避面尹邢网

近日,讯飞l项第十六届国际语义评测(The拿下 16th International Workshop on Semantic Evaluation, SemEval 2022)大赛落下帷幕,科大讯飞在三项主要赛道中拿下冠军,冠军标志着科大讯飞在多语种语言理解领域持续进阶。多语

科大讯飞拿下SemEval 2022三项冠军,种语多语种语言理解再上新台阶!言理

科大讯飞拿下SemEval 2022三项冠军,多语种语言理解再上新台阶! 简称HFL)以显著优势摘得冠军

SemEval 2022评测由国际计算语言学协会(Association for Computational Linguistics, ACL)旗下SIGLEX主办,迄今已举办16届,上新参赛者覆盖国内、台阶外一流高校及知名企业,讯飞l项包括达特茅斯学院、拿下谢菲尔德大学、冠军华为、多语阿里达摩院等,种语代表着最前沿国际技术和水平。言理

科大讯飞拿下SemEval 2022三项冠军,多语种语言理解再上新台阶! 简称HFL)以显著优势摘得冠军

经过角逐,科大讯飞分别在“多语种新闻相似度评测任务”(Task 8)、“多语种惯用语识别任务” 子赛道(Task 2: Subtask A one-shot)、“多语种复杂命名实体识别任务”(Task 11)三个子赛道中拿下冠军。

科大讯飞拿下SemEval 2022三项冠军,多语种语言理解再上新台阶! 简称HFL)以显著优势摘得冠军

新闻相似度评价:目光如炬

本次SemEval 2022评测聚焦的Task 8是多语种新闻相似度评价任务。科大讯飞与哈尔滨工业大学联合组建的“哈工大讯飞联合实验室”(Joint Laboratory of HIT and iFLYTEK Research,简称HFL)以显著优势摘得冠军。

简单来说,参赛队伍需要在每组新闻中判断是否描述了同一个事件,并以1-4分为两篇新闻的相似度打分,其中包含了多达10种语言,分别为阿拉伯语、德语、英语、西班牙语、法语、意大利语、波兰语、俄语、土耳其语和中文。但新闻相似度究竟是什么?让我们用一则示例为大家解读。

科大讯飞拿下SemEval 2022三项冠军,多语种语言理解再上新台阶!

图中列举了两篇相似度极高的新闻稿件,参赛队伍必须将文中相似的主要元素剥离出来并逐一分析,比如地理信息、叙事技巧、实体、语气、时间及风格,最终得出两篇文章的相似度与差异化。

与普通的文章相比,该项比赛更强调跨语言理解能力,除了写作风格和叙述方式外,还需要把握文章中描述的具体事件。通俗来说,该项技术可以甄别外网的一些新闻报道是否存在偏差与曲解,从而有效预防虚假信息、不良信息的传播。

科大讯飞在这样的赛道上拔得头筹,充分展示了在跨语言理解能力上的强硬实力。

惯用语检测:熟能生巧

哈工大讯飞联合实验室拿下的第二项任务冠军,便是Task2 Subtask A的惯用语检测。通俗来说,无论你是哪国人,在日常表达中都有一类短语的固定用法,并且该固定用法通常与短语的字面语义不同,我们会将这些短语称为“惯用语”。想要理解包含惯用语的句子,首先需要判断句子中的多字短语是否为惯用语,比如“说曹操,曹操到。”句中的曹操是否真实存在。

该任务的形式便是给定一个目标语句,包括其上下文和多字短语,继而判断该语句中的多字短语用法究竟是惯用语还是字面意思。该任务为多语言任务,包含英语、葡萄牙语、加利西亚语三种语言。其中加利西亚语没有在训练集中出现过,因此科大讯飞代表队需要在不同语言之间进行迁移学习。

还是不懂?别担心,让我们来看一则示例。

科大讯飞拿下SemEval 2022三项冠军,多语种语言理解再上新台阶!

如例所示,Literal表示字面意思,第一句话可翻译为:当你从网中抓一条大鱼时,最好撑住它的腰。Idiomatic表示惯用语,所以第二句话中再次出现了大鱼一词,但却不是简单的字面意思,而是“大人物”。

所以该任务要求参赛队伍区分不同句子中同一个词的不同语义,这需要强大的分析及跨语言理解能力。有了该项技术,在日常写作和翻译工作中,即可有效鉴别惯用语的表达用意,极大提高内容准确率。

科大讯飞不负众望,再摘桂冠。

复杂命名实体识别:披荆斩棘

这第三冠有多难?光听名字就觉得复杂:多语种复杂命名实体识别任务(MutiCoNER)。科大讯飞联合中国科学技术大学语音及语言信息处理国家工程研究中心迎难而上,在该项任务中一举拿下三个子赛道冠军。

我们先拆解一下MuticoNER这个词,Muti是multilingual (多语言)的简称,Co即是complex (复杂),而NER则是Named Entity Recognition,又称作“命名实体识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。

该任务是一个多语言赛道数据集,包含11项单独语言命名实体评测任务,以及2项多语言统一建模的评测任务。该榜单数据来源于Wikidata(维基数据),数据量庞大且极具应用价值。参赛团队需要在单个语言以及多个语言混合的文本数据中,精准预测不同语言实体的类别标签。该任务采用国际通用的槽位F1评价指标, 我们在多语言混合、中文、孟加拉语赛道上,分别以92.9%、81.6%、84.2%的F1成绩登顶。

这项任务究竟有多难?举个例子:NER是指从用户文本中按照业务需求识别出实体的类别,之前任务基本上一句话中仅会出现一到两个实体,本次任务需要抽出多实体增加实体抽取难度,同时需要具备多语种能力,例如【(皇马)[organization]除了首轮负于[克星拉科](organization)以外,现在已是四连胜。(Rafael van der Vaart)[PER]、(Gonzalo Higuaín)[PER]和(Arjen Robben)[PER]的表现出色。】既要识别出多个相关实体,同时是各语种夹杂的文本。

此前针对中文和英文需要单独进行模型建模,此次有关赛道的挑战是仅使用一个模型来可以完成不同语种任务,能够快速识别复杂、专有词汇,提高准确率。

科大讯飞拿下SemEval 2022三项冠军,多语种语言理解再上新台阶!

(多语言混合榜单)

科大讯飞拿下SemEval 2022三项冠军,多语种语言理解再上新台阶! 

( 中文榜单 )

拒绝纸上谈兵,技术应用要落地

当前,人类已进入“人、机、物”智能互联时代,智能语音是这个时代最为关键的入口之一,有助于实现语言大互通,建设人类命运共同体。科大讯飞始终保持初心、坚持源头核心技术创新,在语音、语义等国际赛事中为国争光。

在去年11月举办的国际低资源多种语音识别竞赛OpenASR中,科大讯飞参加了所有15个语种受限赛道和7个语种非受限赛道,并全部取得了第一名,而在SemEval 2022多语种NLP领域中取得佳绩也标志着科大讯飞在多语言理解与跨语言迁移能力再上新台阶,从多语种语音到多语种语言都有着顶尖技术实力。

而在今年的北京冬奥会和冬残奥会上,科大讯飞作为“官方自动语音转换与翻译独家供应商”,为所有观众展现了一场“无障碍沟通”的体育盛会。 

基于强大的多语种语音语言技术,我们可以做到语种足够全、翻译足够准、反应足够快,支持包括冬奥体育在内的16大行业领域翻译,在冬奥应用场景下,中文与英/俄/法/西/日等重点语种的翻译准确率超过90%,平均每句语音翻译响应时间不超过1.5秒,一方面帮助各国观众、游客快速掌握赛事信息,另一方面我们特别希望帮助听障人士运用科技的手段听得见奥运文字,看得见奥运声音。

科大讯飞拿下SemEval 2022三项冠军,多语种语言理解再上新台阶!

值得一提的是,科大讯飞AI虚拟人 “爱加(i+)”也成为了冬奥会的一名“虚拟志愿者”。在北京冬奥小屋中,爱加可以用多种语言与各国运动员进行面对面的交流,助力冬奥的无障碍沟通。科大讯飞运用语音识别、语音合成、口唇驱动、面部驱动、肢体动作驱动等多项核心技术,打造出虚拟形象自动化内容生产方案,让虚拟人不仅会说普通话,同时支持31种语言及方言,是不折不扣的“语言通”,不仅能进行面对面的冬奥赛事、赛程实时互动交流,还能陪你玩一把冬奥知识游戏大PK,周边交通、文化、旅游等咨询问答也不在话下。

除此之外,在教育、医疗、司法等场景中的各类行业人工智能应用中,多语种语音交互系统都将发挥重要作用。经过多年的技术积累,除了中英以外,当前科大讯飞已经具备其他69种语言的语音识别能力,其中已经有35个语种准确率已经超过90%,并已在新加坡、俄罗斯、印度、日本等国家部署了海外站点,将持续为海内外开发者提供语音识别、语音合成、机器翻译、图文识别等语音语言服务。

如何更好地研发包括中文在内的多语种语音及语言技术的AI能力并实现大规模应用落地,如何更好地用人工智能技术服务社会、建设美好世界,是我们不断奋斗努力的方向。

未来,科大讯飞将不断开展人工智能源头技术创新,助力中国人工智能在全球赢得话语权,实现更多人工智能创新应用真正解决社会刚需,蓬勃向上,生生不息。

雷峰网(公众号:雷峰网)

雷峰网版权文章,未经授权禁止转载。详情见转载须知。

(责任编辑:休闲)

    推荐文章
    • 恒生科技指数跳水 科技股跌幅明显

      恒生科技指数跳水 科技股跌幅明显港股开盘后快速走低,其中,科技股跌幅明显,恒生科技指数一度跳水跌1.83%,恒指跌0.7%。恒生科技指数成分股中,美团、快手均跌超5%,腾讯跌近1%,阿里巴巴逆势上涨。美团上周五公布业绩显示,2020 ...[详细]
    • “福星”苹果实现千万元苗木繁育经营权转让

      “福星”苹果实现千万元苗木繁育经营权转让苹果新品种“福星”。本报讯记者廖洋 通讯员刘琨)近日,青岛农业大学苹果新品种“福星”的苗木繁育经营权以1000万元独家转让给莱州大自然园艺科技有限公司。这是青岛农业大学继“福丽”和“福九红”之后转让的 ...[详细]
    • 世界数字教育联盟在上海正式宣布成立

      世界数字教育联盟在上海正式宣布成立转自:红星新闻1月30日,以“数字教育:应用、共享、创新”为主题的2024世界数字教育大会在上海开幕。会议期间,世界数字教育联盟正式宣布成立。联盟发起方代表,中国教育国际交流协会会长刘利民向与会嘉宾介 ...[详细]
    • 国家区块链技术创新中心启动重庆中心建设

      国家区块链技术创新中心启动重庆中心建设本报讯记者田瑞颖)1月29日,在国家区块链创新应用试点总结交流会上,国家区块链技术创新中心正式宣布启动建设重庆中心。这是国家区块链技术创新中心布局的首个区域创新中心,将加速区块链关键技术研发,通过构建 ...[详细]
    • 港铁公司(0066.HK)去年大幅亏损48.09亿港元 全年普通股息合共每股1.23港元

      港铁公司(0066.HK)去年大幅亏损48.09亿港元 全年普通股息合共每股1.23港元港铁公司(0066.HK)小幅低开,随后快速下跌4%,现报46.8港元,总市值2893亿港元。港铁公司昨日盘后发布年度业绩,截至2020年12月31日止12个月,实现经常性业务收入425.41亿港元, ...[详细]
    • 全国古树名木保护管理一张图初步建成

      全国古树名木保护管理一张图初步建成【环保时空】    科技日报讯 记者马爱平)记者1月28日从国家林业和草原局获悉,第二次全国古树名木资源普查结果显示,我国普查范围内现有古树名木共计508.19万株,包括散生122.13万株和群状38 ...[详细]
    • 毛利率达67.3% 卖奥特曼卡牌的卡游要上市了

      毛利率达67.3% 卖奥特曼卡牌的卡游要上市了新快报讯 记者刘艳爽报道 近日,卡游公司向港交所递交上市申请,该公司主要通过售卖奥特曼卡牌获利,产品在小学生群体中十分风靡。由于将儿童群体作为主要受众,该公司曾身陷舆论漩涡,随着向未成年人售卖盲盒的政 ...[详细]
    • 广铁发送旅客179.6万人次

      广铁发送旅客179.6万人次春运第五天 新快报讯 记者许力夫 通讯员孙宇鹏 刘豪 黄建报道 记者从铁路部门获悉,春运第五天,1月30日,广铁集团发送旅客179.6万人次,同比增加57.8万人次,增长47.4%。广东地区发送旅客1 ...[详细]
    • 大病医保报销额度是多少 ?大病医保包括哪些病?

      大病医保报销额度是多少 ?大病医保包括哪些病?根据规定,参加城乡医疗保险后,就可以获得大病医保报销,很多人都关心大病医保的有关问题,那么大病医保报销额度是多少?大病医保包括哪些病?下文就来带大家了解一下。大病医保报销额度比例1、累计金额在1.2万 ...[详细]
    • 广州开出春运首趟爱心专列

      广州开出春运首趟爱心专列免费送老乡回家 新快报讯 记者许力夫 通讯员 黄惠萍 胡靖报道 “我们要回家过年咯!”1月30日7时4分,载有320名贵州安顺籍在粤务工人员的D1846次列车驶离广州南站,一路向西驰往贵州。 据铁路部 ...[详细]
    热点阅读