首页 > 新车生活 > 新车生活 > 首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合

首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合

发布时间:2025-09-28 11:23:22
开源框架实现100%可复现的稳定RL训练!
 
下图是基于Qwen3-8B进行的重复实验。两次运行,一条曲线,实现了结果的完美重合,为需要高精度复现的实验场景提供了可靠保障。
 
这就是SGLang团队联合slime团队的最新开源成果。
 
 
 
 
近期,Thinking Machines Lab (由 OpenAI 前 CTO Mira Murati 创立) 发布了一篇文章——《克服LLM推理中的不确定性》,指出问题的核心在于缺乏批次不变性(batch invariance)。
 
 
 
 
自从这篇博客发布后,业界反响热烈,一直期待开源推理引擎能实现稳定可用的确定性推理,或者更进一步,实现完全可复现的RL训练。而现在,SGLang和slime一起给出了答案。
 
SGLang团队在Thinking Machines Lab发布的批次不变算子基础之上,通过定制一系列注意力算子和采样逻辑,实现了完全确定性推理。该实现同时保持与分块预填充 (chunked prefill)、CUDA Graph、Radix Cache 和非贪婪采样 (non-greedy sampling)等关键功能的兼容性。
 
利用CUDA Graph,SGLang可以实现2.8倍的加速。与 Thinking Machines Lab博客中报告的61.5%性能下降相比,SGLang在FlashInfer和FlashAttention 3后端平均仅有34.35%的性能下降。
 
 
 
 
在此基础上,SGLang团队联合slime团队一起,以极少代码实现了完全可复现的稳定RL训练,具体细节现在全面公开。
 
问题的本质:为什么LLM推理不确定?
从大语言模型(LLM)推理中获得一致输出的能力越来越重要。例如,推理结果的不确定性可能会隐式地将在线策略强化学习(RL)转换为离线策略RL。然而,即使将温度降到0,由于使用了动态批处理(Dynamic Batching) 和基数缓存(Radix Cache),采样仍然不是确定性的。
 
Thinking Machines Lab的研究发现,不确定性的最大来源是变化的批次大小:即使用户重复提交相同的提示,输出也可能在不同的运行中有所变化,因为请求可能与其他用户的请求一起批处理,批次大小的差异导致不确定的推理结果。
 
更具体地说,不同的批次大小会影响内核的归约(reduction)分割过程。这导致每个归约块的顺序和大小变化,由于浮点运算的非结合性,可能导致不确定的输出。为了解决这个问题,他们实现了批次不变(batch invariant) 的归约算子(RMSNorm、Matmul)。这些算子也作为配套库发布供外部集成。
 
在Thinking Machines Lab工作的基础上,SGLang提供了强大、高吞吐量的确定性 LLM 推理解决方案,将批次不变(batch invariant)算子、CUDA 图、基数缓存和分块预填充与高效性能相结合。通过全面的测试和强化学习训练实验,其确定性得到了充分验证。 

新车生活更多>>

谷歌Gemini赋能!iPhone将迎来超10项智能新功能 追觅科技与央视春晚官宣战略合作!追觅洗地机将与全球观众共贺新春 国产HDMI2.1协议分析仪交付华为!软硬件完全自主知识产权 17系列挑大梁Air疲软 苹果Q4国内出货暴增28% 6.32英寸小钢炮来袭:一加15T入网搭载骁龙8 Elite Gen5,3月见 腾讯音乐“守城”,汽水音乐“改道” 消息称阿里旗下芯片公司平头哥拟独立上市,阿里未作回应 探访郑州具身智能机器人实验室 AMD也要减少GPU供应!重点转向RX 9070 XT:价格更好调整 Setapp Mobile iOS应用商店将于2月16日关闭 为直播间卖食品“划红线、立规矩”(政策问答·回应关切) 机器人终于能用明白洗碗机了|UC伯克利新研究 押宝哪吒,国潮又杀出第一股 SK海力士、三星加速HBF商业化进程 “HBM之父”:最快明年用于英伟达产品 谷歌Pixel 10a手机渲染图及规格曝光,起售价500欧元 iPhone 18系列与Air2屏幕配置曝光,Pro型号将引入屏下Face ID技术 2025年苏州年人均使用快递量超600件 端到端智驾新SOTA|KnowVal:懂法律道德、有价值观的智能驾驶系统 荣耀Magic8系列入选“年度科技创新--AI智能体先锋案例” 2026年新机“Turbo大战”?一加、Redmi、iQOO谁能笑到最后 摩托罗拉首款大折叠手机Razr Fold渲染图曝光,支持手写笔 2026年实测:iPhone 14 Pro Max凭什么还是\"钉子户神机\"? 现在算华为想国内手机销量过六千万,畅享和nova需要占一半才行? 背靠上汽好乘凉?智己2025销量解读:技术换销量,盈利换未来 老车主破防 抢先试驾2026款岚图梦想家 沃尔沃冰封40天,硬核挑战“沃标” 全新雷克萨斯LM KUHL版官图发布 姿态迷人 霸气十足 装车了!红旗的全固态电池研发进展明确领先一个身位 丰田“自砍一刀”,B级车从16.98万降到9.38万,能打过国产车? 新车到店,纯电210km,比亚迪秦L 、秦PLUS DM-i长续航版正式上市