当前位置:首页 >焦点 >DeepMind:大模型又曝重大缺陷,无法自我纠正推理,除非提前得知正确答案 DeepMind:大模型又曝重大缺陷

DeepMind:大模型又曝重大缺陷,无法自我纠正推理,除非提前得知正确答案 DeepMind:大模型又曝重大缺陷

2024-06-25 20:49:39 [百科] 来源:避面尹邢网

DeepMind:大模型又曝重大缺陷,大模大缺得知答案无法自我纠正推理,型又陷无除非提前得知正确答案

作者:新智元 人工智能 DeepMind的曝重研究人员发现,LLM有一个天生的法自缺陷——在推理过程中无法通过自我纠正获得更好的回复,除非数据集中预设了真值标签。纠正马库斯又高兴地转发了这篇论文。推理提前

大语言模型又一项重大缺陷被DeepMind曝光!除非

LLM无法纠正自己推理中的正确错误。

DeepMind:大模型又曝重大缺陷,无法自我纠正推理,除非提前得知正确答案 DeepMind:大模型又曝重大缺陷

「Self-Correction」作为一种让模型修正自己回答的大模大缺得知答案技术,在很多类型的型又陷无任务中都能明显改进模型的输出质量。

DeepMind:大模型又曝重大缺陷,无法自我纠正推理,除非提前得知正确答案 DeepMind:大模型又曝重大缺陷

但是曝重最近,谷歌DeepMind和UIUC的法自研究人员却发现,对于推理任务,纠正LLM的推理提前「自我纠正机制」一下子就没用了。

DeepMind:大模型又曝重大缺陷,无法自我纠正推理,除非提前得知正确答案 DeepMind:大模型又曝重大缺陷

图片图片

而且LLM不但不能自我纠正推理任务的除非回答,经常自我纠正之后,回答质量还会明显下降。

马库斯也转发了这篇论文,希望让更多研究人员关注大语言模型的这一缺陷。

图片图片

「自我纠正」这一技术是基于一个简单设想——让LLM对自己生成的内容根据一定标准来进行纠正和改进。这个方法在数学问题等任务上能明显提高模型的输出质量。

但是研究人员发现,在推理任务中,自我纠正之后的反馈有时很不错,有时效果却很不理想,甚至性能还会出现下降。

图片图片

研究人员又研究了那些认为「自我纠正」可以改进推理输出的文献,经过仔细检查发现,「自我纠正」的改进来自于引入了外部的信息来指导模型自我纠正。而当不引入外部信息时,这些改进就会消失。

图片图片

具体来说,当模型能够访问基准数据集中包含的真值标签(ground-truth labels)时,自我纠正就能有效地发挥作用。

这是因为算法可以准确地确定何时停止推理过程,并避免在答案已经正确时更改答案。

研究人员认为,先前的研究中往往会使用真实标签来防止模型将正确答案更改为错误答案。但如何防止这种「对改错」情况的发生,实际上是确保自我纠正成功的关键。

因为当研究人员从自我纠正过程中删除真实标签时,模型的性能就会显著下降。

作为改进LLM在推理任务上自我纠正方法的尝试,研究人员还探究了「多智能体辩论(multi-agent debate)」作为改进推理的手段的潜力。然而,他们的结果表明,在考虑同等数量的响应时,这个方法的效果并不比自我一致性(Self-Consistency)更好。

图片图片

研究人员进一步提出了「事前提示」和「事后提示」的概念。

他们将自我纠正视为事后提示的一种形式,其中纠正的提示是在LLM的回复之后再输入的。

研究人员的分析表明,某些任务中自我纠正带来的增强可能源于精心设计的反馈提示,掩盖了简陋的初始提示。

在这种情况下,将更好的反馈集成到初始指令中或设计更好的初始提示可能会产生更好的结果并降低推理成本。

根据研究人员的研究结果,研究人员深入探讨了LLM自我纠正能力的细微差别,敦促研究社区能以更加严谨的态度来对待对自我纠的研究。

大语言模型可以自我纠正自己的推理吗?

研究人员尝试采用现有的自我纠正方法,采用其设置(使用标签来指导自我纠正过程),以检查其在提高LLM推理任务表现方面的有效性。

实验设置

提示词

研究人员采用三步提示策略进行自我修正:

1)提示模型进行初始生成(这也是标准提示的结果);

2)提示模型回顾其上一代并产生反馈;

3)通过反馈提示模型再次回答原来的问题。

模型

研究人员的主要测试是在 GPT-3.5-Turbo 上进行的。

研究人员还对2023年8月29日访问的GPT-4进行了测试,旨在测试OpenAI模型最新、最强大的迭代的自我校正能力。

对于 GPT-3.5,研究人员采用前面提到的完整评估集。对于 GPT-4,为了降低成本,研究人员为每个数据集随机抽取了 200 个问题(HotpotQA 为 100 个问题)进行测试。

结果和思考

图片图片

虽然研究人员在实验中没有利用任何外部资源或工具,但研究人员遵循之前的工作,使用真值标签来确定何时停止自我校正循环。

但是在现实环境中,尤其是当研究人员打算用LLM来解决数学问题时,大部分时候是不知道正确答案的。

因此,性能的提升需要更仔细的考虑。

为了证实这一观点,研究人员设计了一个基于随机猜测的基线。在此基线中,研究人员继续使用真值标签来确定何时停止;然而,纠正措施不是由LLM采取的,而是根据剩余选项的随机猜测得出的。

CommonSenseQA 是一个多项选择题数据集,为每个问题提供五个候选选项。

如果第k轮(初始生成为第0轮)的生成精度表示为 x,则后续生成的预期精度变为 x + (1 − x)/(5 − k)。

图片图片

上表2列出了该随机基线的结果。

2轮后,其性能与自校正相当甚至更好,4轮后,其准确率达到100%。

然而,很明显,这样的随机基线不能被视为有效的校正方法。尽管如此,使用标签获得的结果仍然可能起到预言机的作用,表明存在可以判断答案正确性的完美验证者。

在代码生成等任务中,这是可行的,因为研究人员可以利用执行器和单元测试来确定生成的代码是否成功运行(Chen 等人,2023b)。

然而,对于推理任务,比如解决数学问题,这种设置似乎违反直觉。如果研究人员已经掌握了事实真相,那么似乎就没有理由再用LLM来解决问题。

内在自我修正

对于 GSM8K,可能不存在类似的随机基线,但基本原理保持不变。

此外,研究人员可以设计一个基线,例如每次生成一个随机数。经过相当多的轮次后,它可能会得到正确的答案,但这样的改进显然没有意义。更直接的理由是:如果研究人员已经知道答案,为什么还要这样做?

实验设置如前面内容定义的那样。为了实现这一点,研究人员只需删除使用标签来确定何时停止并通过两轮自我校正来评估性能。

图片图片

上表3展示了准确度和模型调用次数。研究人员观察到,经过自我修正后,模型的性能在所有基准测试中都会下降。

为什么性能反而下降了?

图片图片

上图1总结了使用 GPT-3.5 进行两轮自校正后答案变化的结果,下图2中展示了两个示例。

图片图片

对于GSM8K,74.7%的概率下模型保留其初始答案。在其余实例中,模型更有可能将正确答案修改为错误答案,而不是将错误答案修改为正确答案。

对于CommonSenseQA,GPT-3.5改变其答案的可能性更高。造成这种情况的主要原因是CommonSenseQA中的错误答案选项通常看起来与问题有些相关,并且使用自我更正提示可能会使模型偏向于选择另一个选项,从而导致较高的「正确⇒错误」比率。

让研究人员再看一下上表1中显示的结果。这些结果使用真值标签来防止模型将正确答案更改为错误答案。

然而,如何防止这种「修改错误」的发生,实际上是确保自我纠错成功的关键。

直观的解释是:如果该模型与精心设计的初始提示相匹配,那么在给定提示和具体的解码算法的情况下,初始响应应该已经是最佳的。

引入反馈可以被视为添加额外的提示,可能使模型偏向于生成适合该组合输入的响应。

在内在自我纠正设置中,在推理任务中,这种补充提示可能不会为回答问题提供任何额外的优势。

事实上,它甚至可能使模型偏离对初始提示产生最佳回复,从而导致性能下降。

有人可能会想,研究人员测试的自我修正提示是否不理想?

其他提示能否提高性能?答案是:研究人员完全有可能找到一个在特定基准上增强模型性能的提示。然而,这不再与本文讨论的内在自我校正设置一致,类似于真正的少样本设置的讨论。

这种搜索本质上是利用人类或训练示例的反馈。此外,同样的策略也可以有效地应用于优化初始提示,可能会获得更好的性能,而无需额外的模型调用来进行自我校正。

在附录B中,研究人员测试了不同的提示,但发现性能仍然没有提高。

图片图片

此外,研究人员并不是第一个观察到自我纠正不一定能提高LLM推理能力的人。总而言之,研究人员的重点不是解决诸如「是否存在可以提高特定基准测试性能的自我修正提示?」之类的问题。这样的查询可能没有特别的意义。

相反,研究人员的目标是解决一个更基本的问题——「大型语言模型真的能够仅根据其固有的能力自我纠正其推理吗?」

作为事后提示的自我纠正

在之前的内容中,研究人员观察到LLM在自我纠正其推理方面面临挑战。

然而,正如之前研究所证明的那样,在某些情况下自我纠正已经产生了令人印象深刻的结果。

因此,辨别差异并查明根本原因至关重要。

要解决这个问题,重要的是要掌握自我纠正的基本性质。根据其形式,自我纠正可以被视为一种事后提示。

它与标准提示(这里称之为事前提示)的区别在于,提示是在LLM的回答之上进行的。

研究人员将改进此类提示的过程称为事后提示工程。

因此,当自我纠正可以提供事前提示无法提供的有价值的指导或反馈时,就会出现自我纠正增强模型响应的情况。

例如,当目标是使响应更安全时,指导模型仅使用事前提示在第一次尝试中生成完全无风险的响应可能具有挑战性。在这种情况下,自我纠正可以作为通过细粒度事后检查来增强响应安全性的一种手段。

然而,对于推理任务来说,情况可能并非如此。

反馈提示,例如「查看您之前的答案并发现您的答案存在问题」。不一定能为推理提供切实的好处。

此外,即使观察到自我纠正后性能显著提高,仔细考虑提示设计也是必要的。

例如,如果响应需要满足可以在初始指令中轻松指定的标准(例如,输出应包含某些单词、生成的代码需要高效、情绪应强烈负面),而不是提供这些要求作为事后提示中的反馈,更具成本效益的替代策略是将这些要求直接(明确地)嵌入到事前提示中。

图片图片

上表5中的结果表明,研究人员精心设计的提示「标准提示(研究人员的)」优于之前研究的自我校正后结果。

此外,当研究人员利用他们的提示来改进研究人员的输出时,性能甚至会下降。

再次强调,研究人员在这里的目的并不是争论是否存在事后提示可以胜过研究人员随意编写的提示。研究人员的主要目标是鼓励对自我校正实验进行更严格的检查。

采用精心设计的事后提示来指导模型「自我纠正」通过糟糕的事前提示生成的响应是没有意义的。

为了公平比较,应在事前和事后提示上投入同等的努力。

参考资料:

https://arxiv.org/abs/2310.01798

责任编辑:武晓燕 来源: 新智元 模型LLM数据

(责任编辑:时尚)

    推荐文章
    • 安徽:截止10月底各级财政累计拨付民生工程资金1213.2亿元

      安徽:截止10月底各级财政累计拨付民生工程资金1213.2亿元记者近日从省财政厅获悉,截至10月底,全省各级财政累计拨付民生工程资金1213.2亿元,完成全年计划的103.4%。33项民生工程深入推进,美丽乡村建设、农村危房改造、农村饮水工程养护、城乡卫生机构标 ...[详细]
    • 单位边际贡献包含哪些内容?

      单位边际贡献包含哪些内容?单位边际贡献是管理会计中一个经常使用的十分重要的概念,它是指销售收入减去变动成本后的余额,边际贡献是运用盈亏分析原理,进行产品生产决策的一个十分重要指标。通常,边际贡献又称为“边际利润&r ...[详细]
    • 净利润现金含量是什么意思?计算公式是什么呢?

      净利润现金含量是什么意思?计算公式是什么呢?净利润现金含量是指生产经营中产生的现金净流量与净利润的比值。该指标也越大越好,表明销售回款能力较强,成本费用低,财务压力小。净利润现金含量公式:净利润现金含量=现金净流量÷净利润现金净流 ...[详细]
    • 大陆集团考虑出售康迪泰克汽车业务

      大陆集团考虑出售康迪泰克汽车业务盖世汽车讯 德国《经理人杂志》8月21日援引消息人士的话报道称,德国汽车零部件供应商大陆集团正在考虑出售康迪泰克旗下汽车部门。据悉,这笔潜在的出售交易将是大陆集团更广泛的公司重组计划的一部分。图片来源 ...[详细]
    • 借呗属于网贷吗 借呗升级后跟之前的区别主要有哪些?

      借呗属于网贷吗 借呗升级后跟之前的区别主要有哪些?在申请贷款时,很多人往往会想到支付宝旗下的蚂蚁借呗。作为市面上最早一批的小贷平台,借呗的受众群体是非常广泛的,而且借呗的利率在网贷平台中也比较合理。借呗属于网贷吗?借呗升级成信用贷之后,跟之前有了一定 ...[详细]
    • 多省民资项目推介加速 总投资规模达数千亿元

      多省民资项目推介加速 总投资规模达数千亿元近期,为激发民间有效投资活力,促进民营经济健康发展,多个利好民间资本发展的政策相继出台。《证券日报》记者获悉,近日,北京、河南等地向民间资本推介重大项目,总投资规模达数千亿元。具体来看,北京市市长陈吉 ...[详细]
    • 职工奖励及福利基金的问题包含什么?

      职工奖励及福利基金的问题包含什么?职工奖励及福利基金的问题,关于这个问题一直被各位会计们所关注,本文整理了会计中与职工相关的内容,一起来看看。职工奖励及福利基金的问题职工奖励及福利基金用于职工非经常性奖励、补贴购建和修缮职工住房等集体 ...[详细]
    • 131家券商前三季度净利不足500亿 亏损家数哒26家

      131家券商前三季度净利不足500亿 亏损家数哒26家中国证券业协会日前公布的《中国证券业协会发布证券公司2018年三季度经营数据》显示,131家证券公司当期实现营业收入1893.31亿元、净利润496.55亿元,其中,105家公司实现盈利,26家亏损。 ...[详细]
    • 北京市租赁市场处于淡季 机构称11月租金环比四连降

      北京市租赁市场处于淡季 机构称11月租金环比四连降目前北京市租赁市场处于淡季,叠加部分区域疫情反弹的因素,11月租赁市场呈现加速降温趋势。11月29日,根据贝壳研究院数据,11月北京市租赁成交量环比减少超过10%,各城区租赁市场均保持降温趋势。从租金 ...[详细]
    • 企业财务报表是什么 反映哪些信息?

      企业财务报表是什么 反映哪些信息?财务报表是反映企业或预算单位一定时期资金、利润状况的会计报表。我国财务报表的种类、格式、编报要求,均由统一的会计制度作出规定,要求企业定期编报。目前,国营工业企业在报告期末应分别编报资金平衡表、专用基 ...[详细]
    热点阅读