首页
建站资讯
SEO优化
小程序
网站建设
数码科技
软件介绍
系统教程
questions
登录
标签
字节Seed团队PHD
字节Seed团队PHD
编辑:杜伟最近,DeepSeek-R1 和 OpenAI o103 等推理大模型在后训练阶段探索了长度扩展(length scaling),通过强化学习(比如 PPO、GPRO)训练模型生成很长的推理链(CoT),并在奥数等高难度推理任务
字节Seed团队PHD
admin
1天前
1
0