AIR 科研｜LLM RL最强算法，清华AIR-字节跳动SIA-Lab联合发布

智药邦 2025-03-27 08:00

文章摘要

本文介绍了清华大学智能产业研究院（AIR）与字节跳动SIA-Lab联合开发的大规模LLM强化学习系统DAPO。该系统在纯RL端的比较中超越了DeepSeed R1模型所使用的GRPO算法，取得了新的SOTA结果。研究团队通过引入Clip-Higher、Dynamic Sampling、Token-Level Policy Gradient Loss和Overlong Reward Shaping四项关键技术，解决了大规模强化学习训练中的熵崩塌、梯度衰减和奖励噪声等问题。实验结果显示，DAPO在AIME 2024测试集上取得了50分的优异成绩，超越了前SOTA模型DeepSeek-R1-Zero-Qwen-32B，且仅用了一半的训练步数。

阅读全文

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

最新文章

关于账号进行迁移的说明

因运营需要，你所关注的账号"智药邦"将进行账号迁移。届时本账号的业务、功能将转移至新账号"智药邦"。迁移详情如下：旧账号ID：gh_823ae1837fa9旧账号名称：智药邦旧账号主体：上海邦越医药科

2025-10-20

Sci Adv丨陈洛南课题组为计算生物学中的干预性因果推断提供新思路

从观测数据中进行因果推断是自然科学和工程学诸多领域的一个基础性问题，其中包括生物学、地球科学、经济学、医学、神经科学以及机器学习。在复杂生物系统中有效识别因果关系，不仅能为调控机制提供更深刻的见解，还

2025-10-20

Cell｜西湖大学卢培龙/黄晶等：从头设计新型电压门控阴离子通道

离子通道在神经传导、肌肉收缩和细胞信号转导等关键生物学过程中发挥重要作用，其开闭状态受电压、配体或机械力等特定刺激的精确调控。从头设计能够响应外界刺激并发生构象变化的跨膜蛋白，是蛋白质工程领域的重要目

2025-10-20

专家点评Cell | 卢培龙团队及其合作者从头设计新型电压门控阴离子通道

2025年10月16日，西湖大学生命科学学院遗传物质表达与重构全国重点实验室卢培龙研究团队，联合西湖实验室/西湖大学李波、黄晶等团队在Cell期刊发表题为“De novo designed volta

2025-10-20