多模方式提升AI理解能力，微软展示Project Rumi 多模方式提升AI理解能力

2024-06-28 14:59:19 [百科] 来源：避面尹邢网

多模方式提升AI理解能力，多模微软展示Project Rumi

作者：Yu 2023-08-08 10:06:25人工智能微软的提升Project Rumi旨在通过解决理解非语言线索和上下文细微差别的局限性来增强LLM的能力。它将副语言输入纳入与LLM的理解基于提示的互动中，以提高沟通质量。微软研究人员使用音频和视频模型来检测数据流中的展示实时非语言线索。两个独立的多模模型用于来自用户音频的副语言信息，第一个是提升音频的韵律音调和屈折，另一个是理解来自语音的语义。

在新兴技术的微软数字时代，大语言模型(LLM)已经成为一种强大的展示工具，革命性地改变了人类社会和文化的多模许多方面，重塑了我们与计算机的提升互动方式。然而，理解还有一个关键的微软挑战需要解决。LLM的展示局限性是显而易见的，它揭示了在无法掌握对话的上下文和细微差别以及取决于提示的质量和具体性方面的差距。

多模方式提升AI理解能力，微软展示Project Rumi 多模方式提升AI理解能力

不过，LLM主要依赖于文本输入输出，忽略了人类在自然交流中的语调，面部表情，手势和肢体语言等线索，从而在理解方面会存在偏差。

多模方式提升AI理解能力，微软展示Project Rumi 多模方式提升AI理解能力

这些线索统称为副语言，微软的Project Rumi旨在通过解决理解非语言线索和上下文细微差别的局限性来增强LLM的能力。它将副语言输入纳入与LLM的基于提示的互动中，以提高沟通质量。研究人员使用音频和视频模型来检测数据流中的实时非语言线索。两个独立的模型用于来自用户音频的副语言信息，第一个是音频的韵律音调和屈折，另一个是来自语音的语义。他们使用视觉变换器对帧进行编码，并从视频中识别面部表情。下游服务将副语言信息合并到基于文本的提示中。这种多模式方法旨在增强用户情绪和意图理解，从而将人类人工智能交互提升到一个新的水平。

多模方式提升AI理解能力，微软展示Project Rumi 多模方式提升AI理解能力