【环球快播报】大模型搅拌机来了，把11个AI的结果融合输出，艾伦研究所团队-亚洲资本网

亚洲资本网 > 栏目首页 > 商品 > 正文

【环球快播报】大模型搅拌机来了，把11个AI的结果融合输出，艾伦研究所团队

2023-06-27 20:44:01来源： 互联网

大模型这么多，到底该用哪一个？并且生成结果时好时坏，怎么破。

现在有一种方法，一招整合各家 LLM 特长，性能值拉满！让你不做选择全都拿捏。

【资料图】

现在通过 LLM-Blender 大模型集成框架，你输入问题，自动帮你排序各家 LLM 结果，然后“融合生成”最佳答案。

就像一个水果榨汁机，各个开源 LLM 代表不同水果，一箩筐放进去，根据不同水果特点，调配比例榨出好喝的果汁。

这个方法不仅可以有效减轻单一 LLM 中偏见错误和不确定性信息，且输出结果比“单用效果最好的 LLM”还要高不少。

对此网友惊呼：简直太赞了！

博采众长，一个大模型搅拌机
现在开源大模型这么多，说到性能也是千差万别。通常我们都会直接选择最好的模型，来 Prompt 结果。
然鹅，这种方法也有一些限制。比如我们无法考虑所有可能的模型输出，并且新的数据可能导致我们选择不同的最佳结果。
现在的方法，要么是直接通过打分对比输出答案，要么也会对不同 LLM 答案进行融合，但整个过程仍会保留有害、或不正确的信息，输出结果相应也会大打折扣。
因此，为了解决这个问题和提高 LLM 的鲁棒性、泛化和准确性，Allen AI 实验室联合南加大和浙江大学的发表最新研究论文。
论文提出一个用集成框架“LLM-Blender”，集合多个开源大模型（LLM）的优势，通过排序和融合生成两种方式，比较不同 LLM 生成结果，然后融合择优输出。
LLM-Blender 主要包含两个模块“PairRanker”和“GenFuser”。
PairRanker 模块是一个 BERT 结构的编码器，通过双向注意机制捕捉输出结果之间的细微差异，然后对候选输出进行排名。
PairRanker 的运行流程是这样的。
首先，它会收集 N 个模型对每个输入的输出，并创建所有可能的输出对。
然后，使用特殊的编码器来比较这些输出对，以确定哪个候选输出更好，捕捉到微小的差异。
在推理阶段，计算一个矩阵，其中包含了所有输出对的比较结果。再根据矩阵确定给定输入的所有输出排名顺序。
最后，选择每个输入中排名最高的候选输出作为最终结果。
GenFuser 模块则是一个基于 Transformer 的编码器-解码器结构，使用单个编码器对输入文本和一些候选者进行编码，然后使用单个解码器解码融合的输出。
值得注意的是，它只将排名靠前的输出结果放入编码器，这样既避免了“噪音”感染，还能提升输出结果质量。
总结一下，LLM-Blender 的运转流程：
PairRanker 比较 N 个 LLM 的输出，然后通过 GenFuser 将它们融合，从排名前 N 的输出中生成最佳结果。
按照论文解释，通过这个运作流程，就能有效筛选并集合生成优质答案。
那么到底效果如何，下面是团队的评估过程。

集成 LLM 结果优于单个 LLM
为了保证可以在大量数据基础上进行评估，团队专门引入基准数据集 MixInstruct，用于在指令跟随任务中对 LLM 的集成模型进行基准测试。
团队对数据集中的 10 万个样本进行训练，5000 个用于验证，5000 个用于测试。然后，在这 11 万个示例上测试 11 个当下热门的开源大模型，比如 Vicuna、OpenAssistant、Alpaca、MPT 等。
根据对多个 LLM 模型在 MixInstruct 数据集上的表现，可以看到不同模型在表现上存在显著差异，各有优劣。其中，Open Assistant、Vicuna 和 Alpaca 是表现最好三个模型，而 Mosaic MPT、StableLM 和 Flan-T5 排名则较低。
其次，实验还得出部分优秀的模型表现并不稳定，许多其他模型的表现都优于它们。
例如，Koala 的平均 GPT-Rank 为 6.76，但大约 40% 的测试结果表明 Koala 产生了更好或同样优于 Open Assistant 和 Vicuna 的结果。
另外也可以看到，在排名工具这部分，与 BARTScore 和 GPT-Rank 的最佳模型 (Open Assistant) 相比，PairRanker 表现出更好的性能。
并且团队表示，使用从 PairRanker 中选出的前三名，并将其作为 GenFuser 的候选。在此基础上，LLM-Blender 展示了预期的卓越性能。尤其是在 GPT-Rank 方面，达到了 3.01，明显超过了最佳模型 Open Assistant 的（3.90）。
在 BERTScore（79.09）、BARTScore（-3.02）和 BELURT（-0.17）三个排名里得分也都不错。
实验证明，通过将 LLM-Blender 框架进行排名和融合，显著提高了 LLM 最终输出结果的质量。
团队提出 LLM-Blender 一个创新的集成框架，通过排名的方式来减少单个 LLM 的弱点，并通过融合生成来整合优势，来提高 LLM 的能力，可以说非常新颖。
不过该方法仍有一些可以优化的地方，比如引入更多的语言模型、使用不同的相似度计算方法等。

研究团队
论文由 Allen AI 实验室联合南加大和浙江大学一同发表，三位作者都来自中国，且都与南加大（USC）有关联。
姜东甫（Dongfu Jiang）是浙江大学计算机工程专业大四学生，即将去加拿大滑铁卢大学读 PhD，此前曾在南加大（USC）做过研究实习生，当时的导师正好是另外两名作者。
任翔（Xiang Ren）是南加大计算机科学系副教授和 INK 实验室主任，在艾伦人工智能研究所研究机器常识，也是谷歌学者。
林禹臣（Bill Yuchen Lin）是现任艾伦人工智能研究所青年研究员，本科在上海交大读计算机，PhD 在南加大也是计算机相关专业。
此外，南加大 NK 实验室、艾伦人工智能研究所的 Mosaic 团队的学者也参与了这一项目。
论文传送门：
https://arxiv.org/abs/2306.02561
参考链接：
[1]https://yuchenlin.xyz/LLM-Blender/#bg
[2]https://twitter.com/billyuchenlin/status/1668666357058277377
本文来自微信公众号：量子位（ID：QbitAI），作者：尚恩

关键词：

相关新闻

1721组，运河新城“黑马”热度赶超未科！_世界关注

1721组，运河新城“黑马”热度赶超未科！_世界关注

暴雪遭受DDOS攻击《暗黑4》《魔兽》登录受影响天天要闻

暴雪遭受DDOS攻击《暗黑4》《魔兽》登录受影响天天要闻

专题新闻

热点新闻

全球今日报丨农业农村部、自然资源部联合通报5起“大棚房”问题典型案例

全球今日报丨农业农村部、自然资源部联合通报5起“大棚房”问题典型案例

世界快看：《羊了个羊》6月27日羊羊大世界通关攻略

世界快看：《羊了个羊》6月27日羊羊大世界通关攻略

【世界说】美媒：美国枪支暴力失控与其政府对外战争政策息息相关

【世界说】美媒：美国枪支暴力失控与其政府对外战争政策息息相关

【天天聚看点】时间旅行者的游戏(关于时间旅行者的游戏的简介)

【天天聚看点】时间旅行者的游戏(关于时间旅行者的游戏的简介)

当前滚动:特朗普“炮轰”拜登：拜登对于密歇根州来说是个灾难

当前滚动:特朗普“炮轰”拜登：拜登对于密歇根州来说是个灾难

1万元高端礼物送女领导，教你如何切割橡胶轮胎，这招太实用了！

1万元高端礼物送女领导，教你如何切割橡胶轮胎，这招太实用了！

环球快资讯：无障碍环境建设法草案明确无障碍环境建设应当与适老化改造相结合

环球快资讯：无障碍环境建设法草案明确无障碍环境建设应当与适老化改造相结合

深圳发布成人教育培训消费提示别轻信“名师授课”“轻松拿证”-世界焦点

深圳发布成人教育培训消费提示别轻信“名师授课”“轻松拿证”-世界焦点

中汽协：1-5月汽车销量排名前十位的企业集团销量合计同比增长7.9% 环球观热点

中汽协：1-5月汽车销量排名前十位的企业集团销量合计同比增长7.9% 环球观热点

今日热门!最终幻想16安布洛西亚的鞍具获取攻略

今日热门!最终幻想16安布洛西亚的鞍具获取攻略

大家都在看

最近更新

【环球快播报】大模型搅拌机来了，把11个AI的结果融合输出，艾伦研究所团队

美媒晒文班亚马的“拯救地球”首发五人组利拉德点赞表示同意

云南省昆明市2023-06-19 23:16发布雷电黄色预警全球球精选

安全无小事管城回族区教育局召开全区教育系统安全工作会议环球看点

环球滚动:4-0到5-1！国足神了，冲3连胜+4大纪录+43年神迹，武磊或创历史

2023年高校毕业生等青年就业服务攻坚行动启动

焦点热文：鸿铭股份：目前预约8月28号披露半年报

员工违规保管客户空白借据浙江一农商行被罚70万元当前速讯

端午假期铁路累计发送旅客7037.9万人次较2019年同期增长11.3%

新大洲控股股份有限公司股票6月28日开市起撤销其他风险警示

川大回应北京一律所称不再招川大毕业生：是否聘用是其自由

云南建水县：银发志愿者“三个一”助力禁毒宣传

焦点日报：小荷健康如何查检验报告小荷健康查看病情记录教程

DIY白色海景房金士顿高颜值白色内存装机体验

全球速讯：【鱼鹰社】俄罗斯-格鲁吉亚战争

鄂州00后少年因捐骨髓错过期末考试，校方：补考已安排|热闻

快讯：戴民汉：过去200年海洋表层水酸度增加了33%

中科磁业涨12.92%

京能电力涨停

75场“奇思妙旅”来了！浦东科普研学活动启动|环球速递

友情链接

新闻发布平台 |科极网 |环球周刊网 |中国创投网 |教体产业网 |中国商界网 |万能百科 |薄荷网 |资讯_时尚网 |连州财经网 |剧情啦 |5元服装包邮 |中华网河南 |网购省钱平台 |海淘返利 |太平洋装修网 |励普网校 |九十三度白茶网 |商标注册 |专利申请 |启哈号 |速挖投诉平台 |深度财经网 |深圳热线 |财报网 |财报网 |财报网 |咕噜财经 |太原热线 |电路维修 |防水补漏 |水管维修 |墙面翻修 |旧房维修 |参考经济网 |中原网视台 |财经产业网 |全球经济网 |消费导报网 |外贸网 |重播网 |国际财经网 |星岛中文网 |手机测评 |品牌推广 |名律网 |项目大全 |整形资讯 |整形新闻 |美丽网 |佳人网 |税法网 |法务网 |法律服务 |法律咨询 |成报网 |媒体采购网 |聚焦网 |参考网 |热点网

亚洲资本网版权所有

京ICP备2021034106号-51

Copyright © 2011-2020 亚洲资本网 All Rights Reserved. 联系网站：55 16 53 8 @qq.com