首页 > 计算机科学

清华、智谱团队:探索 RLHF 的 scaling laws

学术头条 2024-12-24 08:11
文章摘要
本文由清华大学与智谱的研究团队对基于人类反馈的强化学习(RLHF)在大语言模型(LLM)中的扩展性能进行了全面研究。研究指出,增加训练数据的多样性和数量能显著提升奖励模型的性能,而策略训练的效率在初期增加响应样本后会迅速趋于平稳。研究还发现,RLHF的计算资源投入带来的回报递减,其扩展效率低于模型预训练阶段。研究团队提出了多任务目标训练统一模型和策略训练中的多响应采样等优化策略,并通过实验验证了这些策略的有效性。研究结果为优化RLHF在LLM中的应用提供了重要指导,同时也揭示了其在扩展性能上的潜在瓶颈。
清华、智谱团队:探索 RLHF 的 scaling laws
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
最新文章
清华、智谱团队:探索 RLHF 的 scaling laws
清华、智谱团队:探索 RLHF 的 scaling laws
基于人类反馈的强化学习(RLHF)是优化大语言模型(LLM)行为的关键技术,能够让模型更符合人类偏好和需求,提升生成质量。然而,目前关于 RLHF 的 scaling(扩展)潜力研究仍然相对缺乏,尤其
21小时前
谢赛宁、李飞飞「空间智能」新作:多模态大模型仍难突破空间推理
谢赛宁、李飞飞「空间智能」新作:多模态大模型仍难突破空间推理
人类拥有视觉空间智能,可以通过连续的视觉观察记忆空间。然而,在百万规模的视频数据集上训练的多模态大语言模型(MLLMs)也能从视频中进行“空间思维”吗?今日凌晨,纽约大学计算机科学助理教授谢赛宁团队联
2024-12-23
AI同时操控200个机器人,任务成功率超90%,半数故障依然「能打」
AI同时操控200个机器人,任务成功率超90%,半数故障依然「能打」
人工智能(AI),可以同时操控数百机器人“协同作战”了。来自康斯坦茨大学和国际理论物理中心的研究团队开发了一种基于 AI 的控制策略,成功让 200 个微型机器人变身为“AI 智能体”,独立作出决策,
2024-12-21
“Transformer八子”之一,让AI大模型学会了主动“忘记”
“Transformer八子”之一,让AI大模型学会了主动“忘记”
还记得第一个“人工智能科学家”(The AI Scientist)吗?只需 15 美元,它就可以写出一篇超过顶级机器学习会议接受门槛的论文。从生成新颖的研究想法、编写代码、执行实验、可视化结果,到通过
2024-12-20
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1