当前位置：首页 >百科 >4k窗口长度就能读长文，陈丹琦高徒联手Meta推出大模型记忆力增强新方法 4k窗口长度就能读长文

4k窗口长度就能读长文，陈丹琦高徒联手Meta推出大模型记忆力增强新方法 4k窗口长度就能读长文

2024-06-28 20:23:11 [百科] 来源：避面尹邢网

4k窗口长度就能读长文，口长陈丹琦高徒联手Meta推出大模型记忆力增强新方法

作者：克雷西 2023-10-25 09:19:00人工智能新闻研究团队创建了一种名为MemWalker的度能读长丹琦大模树形记忆策略，可以突破模型本身的文陈窗口长度限制。

只有4k窗口长度的高徒大模型，也能阅读大段文本了！联手

普林斯顿的推出华人博士生的一项最新成果，成功“突破”了大模型窗口长度的型记新方限制。

4k窗口长度就能读长文，陈丹琦高徒联手Meta推出大模型记忆力增强新方法 4k窗口长度就能读长文

不仅能回答各种问题，忆力而且整个实现的增强过程全靠prompt就能完成，不需要任何的口长额外训练。

4k窗口长度就能读长文，陈丹琦高徒联手Meta推出大模型记忆力增强新方法 4k窗口长度就能读长文

4k窗口长度就能读长文，陈丹琦高徒联手Meta推出大模型记忆力增强新方法 4k窗口长度就能读长文

研究团队创建了一种名为MemWalker的度能读长丹琦大模树形记忆策略，可以突破模型本身的文陈窗口长度限制。

测试过程中，高徒模型阅读的联手最长文本包含了1.2万+token，成绩相比LongChat大幅提高。推出

相比于相似的TreeIndex，MemWalker可以进行推理并回答任何问题，而不是只做概括。

MemWalker的研发利用到了“分而治之”的思想，就此有网友这样评论：

每次我们让大模型的思考过程更像人类，它们的表现就会越好

那么，具体什么是树形记忆策略，又是如何用有限的窗口长度阅读长文本的呢？

一个窗口不够，就多开几个

模型上，MemWalker使用Stable Beluga 2作为基本模型，它是Llama 2-70B经过指令调优得到的。

在选择该模型之前，开发者对比了其与原始Llama 2的表现，并最终确定选用。

就像MemWalker这个名字一样，它的工作过程就像记忆流在行走。

具体来看，大致分为记忆树构建和导航检索两个阶段。

构建记忆树时，长文本会被分割成多个小段（seg1-6），并由大模型分别针对每一段做出总结，得到“叶子节点”（leaf nodes，summ1-6）。

分割时，每段的长度越长，层级就会越少，有利于后续检索，但其本身过长又会导致准确度下降，因此需要综合考虑确定每段长度。

作者认为，每一段合理的长度是500-2000token，而实验中使用的为1000token。

然后，模型递归地对这些叶子节点的内容再次进行总结，形成“非叶节点”(non-leaf nodes，summ7-8）。

二者的另一个区别是，叶子节点包含了原始信息，非叶节点只有概括得到的二级信息。

作用上，非叶节点用于导航定位答案所在的叶子节点，而叶子节点则用于推理出答案。

其中的非叶节点可以有多个层级，模型逐步进行总结概括，直到得到“根节点”，形成完整的树形结构。

记忆树建立完毕后，就可以进入导航检索阶段来生成答案了。

这一过程中，模型从根节点开始，逐一读取下一级子节点的内容，然后推理出应该进入这个节点还是返回。

决定进入这个节点之后，再次重复这样的过程，直到读取到叶节点。如果叶节点的内容合适则生成答案，否则返回。

为了确保答案的完整性，这个过程的结束条件并非发现了一个合适的叶节点，而是模型认为得到了完整答案，或者达到最大步数。

导航过程中，如果模型发现进入了错误的路径，还可以导航回退。

此外，MemWalker中还引入了工作记忆机制来来提高准确度。

该机制会将已经访问过的节点内容加入到当前内容的上下文中。

当模型进入一个新节点时，当前节点内容都会被加入到记忆中。

这一机制让模型在每一步都可以利用访问过的节点内容，避免重要信息的丢失。

实验结果显示，工作记忆机制可以将MemWalker的准确率提升10%左右。

而且，上面所说的过程只依靠prompt就能完成，不需要进行额外的训练。

理论上，只要有足够的算力，MemWalker可以阅读无限长的文本。

不过，记忆树构建时的时间和空间复杂度随着文本长度的增长是呈指数型的。

作者简介

论文第一作者是普林斯顿大学NLP实验室华人博士生Howard Chen。

清华姚班校友陈丹琦是Howard的导师，她今年在ACL上的学术报告也与搜索有关。

这项成果是Howard在Meta实习期间完成的，Meta AI实验室的Ramakanth Pasunuru，Jason Weston和Asli Celikyilmaz三位学者也参与了本项目。

论文地址：https://arxiv.org/abs/2310.05029

责任编辑：张燕妮来源：量子位 AI训练

(责任编辑：探索)

相关内容

推荐文章

奥海科技(002993.SZ)发布公告：对子公司增资并完成工商变更登记
奥海科技(002993.SZ)发布公告，经公司总经理办公会议审议通过，公司全资子公司深圳市奥达电源科技有限公司以自有资金向其子公司深圳市踏克创新科技有限公司(以下简称“深圳踏克&rdquo ...[详细]
用科学度汛，用实干守护
入汛以来，我国多地遭遇强降雨，发生严重洪涝灾害。面对汛情，各地压实责任、主动作为，全力以赴抢险救灾。防汛抗洪是一项专业性极强的工作，科学应对、精准施策，才能掌握主动权。同时，广大基层党组织和党员干部挺 ...[详细]
再融资监管松绑半月 22家上市公司28份定增预案出炉
近期，在政策支持下，A股再融资市场有快速增长迹象，尤其自11月9日证监会对再融资监管要求作出修订之后，定向增发预案增长比较突出。再融资监管要求实施半月有余，A股定增预案增长明显。《证券日报》记者据Wi ...[详细]
企业所得税弥补亏损明细表怎么填？有什么注意事项
企业所得税弥补亏损明细表怎么填？1、《企业所得税法》第十八条规定：“企业纳税年度发生的亏损，准予向以后年度结转，用以后年度的所得弥补，但结转年限最长不得超过五年。”如2004年 ...[详细]
从渤海银行南京分行到浦发银行南通分行存款质押罗生门何解
从渤海银行南京分行到浦发银行南通分行，接二连三发生的企业存款质押“风波”，引起了大众的热切关注。监管层也发声了，银保监会新闻发言人11月19日表示，近期，个别商业银行与企业客户 ...[详细]
在线零售巨头亚马逊被投诉：趁飓风灾难之际哄抬物价
北京时间7日早间消息，据美国《商业内幕》网站报道，最近，美国不良商家趁飓风灾难之际哄抬物价的情况时有发生，继百思买之后，在线零售巨头亚马逊也成了被投诉的对象。有报道称，该公司在佛罗里达州为飓风&ldq ...[详细]
东方甄选方面宣布，8月29日开启淘宝直播首秀
继不久前有传言称，东方甄选方面或将入驻淘宝直播，并且正在组建淘宝直播相关团队，已经初步找好商品供应商，预计最快将在本月底开播后。日前东方甄选方面正式宣布，将于8月29日开启淘宝直播首秀“东方盘淘会”， ...[详细]
“比白酒好喝”，听专家们拆解009的口味密码
「每瓶酒，都有自己独特的个性。专业品酒师，是真正的“好酒发言人”，将TA的风味和特色表达出来。」8月24-27日，由中国酒业协会主办，湖南酒业协会承办的“中国陈年白酒鉴定师培训班”走进湘江之畔、岳麓之 ...[详细]
银保监会：前10个月房地产合理贷款需求得到满足信贷结构持续优化
11月19日，中国银保监会新闻发言人介绍今年前10个月银行信贷投放情况。据介绍，前10个月，各项贷款新增17.9万亿元，同比多增783亿元，资金供给合理充裕，有效满足了实体经济合理资金需求。与此同时， ...[详细]
火花思维：怎么看自己的逻辑思维好不好，如何培养孩子的逻辑思维能力
不管古代还是现代，逻辑思维能力强，都是对一个人很好的褒奖。但是，你知道该如何看自己的逻辑思维能力是不是足够强呢？一般来说，逻辑思维能力弱主要有以下表现：开会的时候，领导突然提问、脑袋一片空白，会后又很 ...[详细]

热点阅读

随机内容

友情链接

接受PR>=1、BR>=1，流量相当，内容相关类链接。