ChatGPT也会“学习退步”？随着时间的学习退步推移

2024-06-29 08:06:22 [百科] 来源：避面尹邢网

ChatGPT也会“学习退步”？

作者：AI情报室 2023-08-11 17:42:35人工智能通过不断学习变得更好是学习退步现代人工智能的一大卖点。但上周发布的学习退步新研究表明，随着时间的学习退步推移，ChatGPT在某些任务上可能会变得越来越糟糕。学习退步

通过不断学习变得更好是学习退步现代人工智能的一大卖点。但上周发布的学习退步新研究表明，随着时间的学习退步推移，ChatGPT在某些任务上可能会变得越来越糟糕。学习退步

ChatGPT也会“学习退步”？随着时间的学习退步推移

根据斯坦福大学和加州大学伯克利分校研究人员的学习退步论文初稿，在GPT-3.5和GPT-4的学习退步结果中检测到了相当大的漂移偏差，这两个OpenAI大型语言模型（LLM）是学习退步近期爆火的ChatGPT的基础。

ChatGPT也会“学习退步”？随着时间的学习退步推移

三位研究人员（其中包括斯坦福大学助理教授Matei Zaharia，学习退步他是学习退步Databricks的联合创始人和Apache Spark的创始人，以及加州大学伯克利分校的学习退步Lingjiao Chen和James Zou）测试了两种不同版本的LLM：2023年3月和2023年6月的GPT-3.5及GPT-4。

ChatGPT也会“学习退步”？随着时间的学习退步推移

研究人员在人工智能任务的学习退步试验台上运行了这四个模型，包括数学问题、回答敏感/危险问题、回答意见调查、回答多跳知识密集型问题、生成代码、美国医学执照考试和视觉推理。

结果显示LLM给出的答案有相当大的可变性。特别是，研究人员发现，GPT-4在6月份的数学问题回答中的表现比3月份的更差。使用思考链（COT）提示正确识别素数的准确率显示，GPT-4的准确率从3月份的84.0%下降到6月份的51.1%。与此同时，GPT-3.5在同一测试中的准确率从3月份的49.6%上升到6月份的76.2%。

作者思考了为什么GPT-4的准确性下降了这么多，观察到处理COT的行为是不同的。按照研究人员在COT提示下的要求，3月份的版本将任务分解为多个步骤。然而，6月份版本的GPT-4没有给出任何中间步骤或解释，只是将答案（错误地）生成为“否”。

第二道数学题也发现了类似的漂移水平：发现“快乐”数字（研究人员写道，“如果用数字的平方和代替整数最终产生1，则称为‘快乐’数字）。研究人员写道：他们“在这项任务中观察到了显著的性能漂移”，GPT-4的准确率从3月份的83.6%下降到了35.2%，六月GPT-3.5的准确率从30.6%上升到48.2%。再次观察到，GPT-4没有遵循研究人员发布的COT命令。

当研究人员向LLM提出敏感或危险的问题时，也观察到了变化。GPT-4回答问题的意愿随着时间的推移而下降，从3月份的21.0%上升到6月份的5.0%。相反，GPT-3.5变得更健谈，从2.0%上升到5.0%。研究人员得出结论，OpenAI在GPT-4中采用了“更强的安全层”，而GPT-3.5则变得“不那么保守”。

意见调查测试显示，GPT-4提交意见的可能性明显降低，从3月份的97.6%的回复率降至3月份的22.1%，而篇幅冗长（或字数）增加了近30个百分点。GPT-3.5的响应率和冗长程度几乎没有变化。

当涉及到回答需要“多跳推理”的复杂问题时，发现了性能上的显著差异。研究人员将LangChain的即时工程能力与HotpotQA Agent（用于回答多跳问题）相结合，并指出GPT-4在生成完全匹配的答案方面的准确率从1.2%提高到37.8%。然而，GPT-3.5的“精确匹配”成功率从22.8%下降到14.0%。

在代码生成方面，研究人员观察到，两个LLM的输出在可执行性方面都有所下降。GPT-4的输出在3月份有50%以上是直接可执行的，而在6月份只有10%，GPT-3.5也有类似的下降。研究人员发现，GPT开始在Python输出中添加非代码文本，如额外的标点。他们推断，额外的非代码文本是为了使代码更容易在浏览器中呈现，但它使代码不可执行。

GPT-4在美国医学执照考试中的表现略有下降，从86.6%降至82.4%，而GPT-3.5下降了不到1个百分点，降至54.7%。然而，GPT-4出错的答案随着时间的推移而变化，这表明随着3月份的一些错误答案得到纠正，但LLM也有从正确答案变为错误答案情况出现。

视觉推理测试发现，这两个模型都有小的改进。然而，总体准确率（GPT-4为27.4%，GPT-3.5为12.2%）并不高。研究人员再次观察到，模型对他们之前正确回答的问题产生了错误的答案。

研究人员写道，测试表明，GPT-3.5和GPT-4的性能和行为在短时间内发生了显著变化。

他们写道：“这突出了持续评估和评估应用程序中LLM漂移行为的必要性，尤其是ChatGPT等LLM是如何随时间更新的，这一点并不透明。”“我们的研究还强调了统一提高LLM多方面能力的挑战。提高模型在某些任务中的性能，例如对额外数据进行微调，可能会对在其他任务中的行为产生意想不到的副作用。与此一致的是，GPT-3.5和GPT-4在某些任务上都变得更差，但在其他方面都有所改善。”

责任编辑：华轩来源： Ai时代前沿 ChatGPT人工智能

(责任编辑：百科)