让全球大语言模型的对话缺陷有了较为清晰的解决方案
南方财经全媒体记者 石恩泽 深圳报道
中途迷失、模型偷懒、上下文越长大模型越笨......如果体验过大语言模型产品,用户多少会对文本输入长度带来的限制有所感触,比如当想和大模型讨论一些稍长的内容,需要拆分输入,而前面输入的要点,很快就会被大模型忘记。
这是典型的大语言模型对话缺陷,就像先天有注意力缺陷的儿童,难以专注看完一本新书。而缺陷的关键,在于模型缺乏长文本处理能力。这个局面如今被打破。
近日,南方财经全媒体记者从贾佳亚团队处获悉,该团队联合MIT发布了一项名为LongLoRA的技术。该技术只需两行代码、一台8卡A100机器,便可将7B模型的文本长度拓展到100k tokens,70B模型的文本长度拓展到32k tokens;同时,该研究团队还发布了首个拥有70B参数量的长文本对话大语言模型LongAlpaca。
这是贾佳亚团队继8月9日发布的“可以分割一切”的多模态大模型 LISA 后的又一力作。目前该新技术和新模型,已登上各大开源网站的热榜:hugging face热榜第一、paperwithcode热度第一,Github全部python项目热度第五、github stars一周内破千,Twitter上的相关技术帖子浏览量近18万......
全球首个70B长文本大语言模型
LongLoRA的提出,让全球大语言模型的对话缺陷有了较为清晰的解决方案。
原来大语言模型对长文本处理过程中,计算量的主要开销集中在自注意力机制(self-attention),其开销随着文本长度成平方次地增加。
针对这个问题,贾佳亚团队介绍,团队提出LongLoRA技术,并用分组和偏移的方式来对全局自注意力机制进行模拟。
简单来说,就是将长文本对应的tokens拆分成不同的组,在每组内部做自注意力计算,而分组的方式在不同注意力头(attention head)上有所偏移。这样的方式既可以大幅度节约计算量,又可以维持全局感受野(Receptive Field)的传递。
令人意外的是,这个实现方法非常简洁,仅两行代码即可完成。自此,几十页的论文、几百页的报告,不再成为大模型盲区。
此外,LongLoRA还探索了低秩训练的方式。贾佳亚团队向南方财经全媒体记者表示,原有的低秩训练方式,如LoRA,无法在文本长度迁移上取得良好的效果。而LongLoRA在低秩训练的基础上,引入嵌入层 (Embedding layer和 Normalization layers)进行微调,从而达到可以和全参数微调(Full fine-tune) 逼近的效果。
具体来看,可以参考三个维度表现:
在Perplexity-困惑度上,原有LoRA方法的性能在不断恶化,而LongLoRA和全参数微调都能在各种文本长度下维持很好的效果;
在显存消耗上,相比于全参数微调,LongLoRA和原有LoRA都有大幅度的节省。例如,对于8k长度的模型训练,相比于全参数微调,LongLoRA将显存消耗从46.3GB降低到25.6GB;
在训练时间上,对于64k长度的模型训练,相比于常规LoRA,LongLoRA将训练时间从90~100小时左右降低到52.4小时,而全参数微调超过1000小时。
综合来看,极简的训练方法、极少的计算资源和时间消耗、极佳的准确性,以及相关技术与模型的开源,令LongLoRA大规模推广成为可能。
对此,有专业人士评论称,LongLoRA是大语言模型领域的革新性发明,犹如大语言模型迷宫中的希望之灯。“这代表着业界对长文本大语言模型的重新思考和关注,并有效扩展了大语言模型的上下文窗口,以及允许模型考虑和处理较长的文本序列。”该评论人士称。
看小说、改论文、指点经济
除了技术革新外,大语言模型处理长文本问题的一大难点还在于缺少公开的长文本对话数据。
为此,研究团队特意收集了9k条长文本问答语料对,包含针对名著、论文、深度报道甚至财务报表的各类问答。
光会回答长问题还不够,该团队又挑选了3k的短问答语料与9K的长问答语料混合训练,让长文本大模型同时具备短文本对话能力。这个完整的数据集被称为LongAlpaca-12k,目前也已经开源。目前开源模型还包括LongAlpaca-7B, LongAlpaca-13B和LongAlpaca-70B。
在LongAlpaca-12k数据集基础上,研究团队对不同参数大小7B、13B、70B进行了训练和评测。
贾佳亚团队向南方财经全媒体记者演示了三个应用了LongLoRA技术叠加12K问答语料的大模型LongAlpaca效果。
第一个场景是让系统对一篇论文提出修改意见,从而提升该论文的接收率。
首先,团队喂取系统读两篇新的不同的论文,让LongAlpaca概括ICLR和CVPR两个会议之间的风格区别。在LongAlpaca总结提炼出了两种类型的不同之后,团队又喂取一篇新的论文,让LongAlpaca模型根据ICLR的审查指南,提出修改意见。经过训练的LongAlpaca模型可以很轻松地接受新的长篇学术论文,并在学术相关问题上给出相当精准的回答。
(图片一:LongAlpaca概括ICLR和CVPR两个会议之间的风格区别)
在场景二下,团队又演示了LongAlpaca模型在颇高阅读和理解门槛的经济领域的解读表现。
根据国际货币基金组织从2012年到2023年的全球经济展望的概述合集,对经济形势进行逐年总结以及对未来经济趋势进行预测。LongAlpaca告诉我们,2023年全球经济形势不明朗,跟2022年相比,增长预计放缓;未来几年,全球经济扩张速度偏温和并将低于预期,而地缘政治紧张、金融市场波动等大的挑战依然存在,需通过多边合作和结构性改革小心应对。
(图片二:LongAlpaca给出未来几年全球经济预测)
在场景三下,团队让LongAlpaca提炼长篇小说中的观点,并选取了模型是13B参数的LongAlpaca和Llama2,看各自表现。
在询问有关《西游记》小说中的问题时,LongAlpaca给出了比Llama2更为全面的解释;在询问有关《三体》小说中的问题时,LongAlpaca也给出了逻辑清晰的回答,而Llama2回答笼统,且答非所问。
从模型给出的答案可发现,一些模型如Llama2可能在预训练过程中见过相关小说,但如果在提问时进行仅根据小说题目进行短文本提问的话,回答并不理想。
(图片三:在《西游记》小说相关问题里,LongAlpaca VS Llama2的回答)
(作者:石恩泽 编辑:孙超逸)
南方财经全媒体集团及其客户端所刊载内容的知识产权均属其旗下媒体。未经书面授权,任何人不得以任何方式使用。详情或获取授权信息请点击此处。