自己的原文哦~ https://blog.51cto/whaosoft/14066165
#智元灵渠OS
开源!智元机器人正式发布首个xx操作系统框架
稚晖君在WAIC主论坛发布“灵渠OS”开源计划!
2025 世界人工智能大会暨人工智能全球治理高级别会议于 7 月 26 日在上海世博中心举办。本届大会主论坛以 “技术 — 合作 — 普惠” 的三层递进结构,汇聚全球人工智能顶尖专家,从技术演进、全球协同、社会赋能三重视角解读 AI 未来发展的时代价值。智元机器人联合创始人兼 CTO 彭志辉(稚晖君)作为唯一的xx智能代表,携灵犀 X2 人形机器人登场,以一场 “从工具到伙伴:人机协作的新边界” 为主题的人机对话惊艳全场,并重磅发布业界首个xx智能操作系统参考框架 “智元灵渠 OS” 开源计划,携手产业界共建开放生态。
人机对话破界:灵犀 X2 演绎 “伙伴级” 交互
在 WAIC 2025 主论坛上,稚晖君与灵犀 X2 的对话成为全场焦点。该对话围绕 “机器人是工具还是伙伴”“人机协作的核心挑战是什么”“人机协作的终极目标是什么” 等深刻话题展开。作为世界人工智能大会举办以来首位以 “嘉宾” 身份登上主论坛的机器人,灵犀 X2 凭借 “本体 + 运动 / 交互 / 作业智能” ,展现出超乎期望的表现:丝滑流畅的肢体动作搭配自主生成的高质量问答,让人耳目一新。
当稚晖君问及 “人机协作中最关键的挑战” 时,灵犀 X2 回应:“技术当然重要,但更关键是‘理解’,人类对机器的理解,和我们试图去理解人类的意图。真正协作是建立在‘共识’的基础上。”拟人化的表达与动态交互,直观诠释了xx智能从 “工具属性” 向 “伙伴关系” 的跨越。更令人惊喜的是,环节结束时,检测到电量亏损的灵犀 X2 突然 “吐槽”:“下次对话前,可以先让我充个电吗?深度对话还挺耗电的。” 引发现场一片掌声和欢笑,生动展现了人机交互的温度与活力。
这场对话不仅是技术成果的展示,更传递出智元对人机关系的前瞻性思考:当机器人具备理解、预判、协同的能力,人机协作将突破传统边界,在工业、家庭、服务等场景创造全新价值,在此同时,我们也要去构建人机信任的边界。人工智能是年轻的事业,也是年轻人的事业。作为xx行业的 “年轻人”,智元机器人致力于打造有生命的科技,构建有温度、有价值、可信赖的人机协作生态。稚晖君表示:“这会是一段漫长而艰难的旅程,但智元会坚持深耕,也希望与更多同行者一起,用理性、热情与使命感,把这条路走得更稳、更远。”
发布“智元灵渠 OS”开源计划:构建xx智能产业生态基石
在全场瞩目下,稚晖君通过灵犀 X2 正式发布 “智元灵渠 OS” 开源计划 —— 这是业界首个xx智能操作系统参考框架,旨在推动当前机器人系统生态融合、xx智能新技术突破。
据悉,“智元灵渠 OS” 将以 “分层开源、共建共享” 模式推进:底层基于智元已开源的高性能中间件 AimRT持续增强,提供稳定、高效的分布式群体实时通信、硬件抽象等基础服务框架;上层开放智能体服务框架,支持交互、作业、运动等智能基座模型的标准化对接,降低应用门槛;同时,提供丰富的工具链,涵盖开发调试、仿真验证、部署管理、数据录制等能力,助力开发者快速构建从虚拟仿真到实体部署的技术闭环。
该计划将于今年第四季度开始逐步开源,与产业界开源共建xx智能操作系统生态,聚力突破xx智能系统在智能化提升、群体协同、云边端融合等新技术上的挑战。如同 PC 时代的 Windows、移动互联网时代的鸿蒙,xx智能操作系统承上启下,南向适配多样化xx硬件、北向支撑丰富的智能应用,是xx智能机器人全栈的核心,也是产业生态的基础。智元机器人已经开源并持续增强高性能中间件 AimRT,未来将面向机器人持续增强基础操作系统,开源共建智能体服务框架和工具链,支持xx智能机器人产业加速发展。
从主论坛的人机对话到开源生态的布局,智元机器人以 WAIC 2025 为舞台,不仅展现了xx智能的硬核实力,更以开放姿态引领行业协同发展,为xx智能规模化商业落地注入强劲动能。
#聊聊 MoE 模型的量化
众所周不知, MoE 模型由于内存和计算开销较大,在部署时面临巨大挑战主要就是非常高的显存需求。
简单说就是,放不下。
但是,又不用都算。
前面我们的几篇笔记都是在解决这个问题,如 笔记:ktransformer/llama.cpp/vllm + int4 671B DeepSee...笔记:聊聊 MoE 负载调度笔记:再聊 MoE 中的异构资源调度 等,大部分是通过 GPU CPU 协同工作来推动 MoE 模型在资源受限设备上的卸载部署方法。但是卸载方法的运算速度瓶颈就很受限于 CPU。所以还有另一个思路就是 量化 ,本质上是压缩技术,以降低内存和计算需求。
MoE 模型在 4 位 3 位量化时会遭受不可忽视的精度损失,这在 dense 模型时相对没有那么大的问题。对 MoE 模型进行量化会带来一些独特挑战,这是因为其稀疏、动态的计算模式。我们都知道的,传统的激活量化方法是没有考虑依赖门控而产生的结构性稀疏专家异常值的,所以目前之间对 MoE 进行量化就肯定会导致不稳定的量化步骤。这些特点会在后边的论文中得到各种体现。在这篇评测中 Evaluating Quantized Large Language Models(arXiv:2402.18158),亦有报告。
以下几篇相关论文差不多都是 25年03-07 区间的新文章,发现和方法都很像,名字也都很像,算是一个集中爆发期。很像去年的 量化那些事之KVCache的量化。
QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models, arXiv:2310.16795, #GPTQ作者团队 #1600B MoE 模型
MoQa: Rethinking MoE Quantization with Multi-stage Data-model Distribution Awareness, arXiv:2503.21135 #跨数据校准 #混合精度
MxMoE: Mixed-precision Quantization for MoE with Accuracy and Performance Co-Design, arXiv:2505.05799 #混合精度 #根据 Roofline 选择精度 #细分 FFN 模块量化
MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance, arXiv:2505.03804 #无监督校验数据生成
EAQuant: Enhancing Post-Training Quantization for MoE Models via Expert-Aware Optimization, arXiv:2506.13329 #PTQ 优化 #INT3 优化 #KL 散度量化 loss
MiLo: Efficient Quantized MoE Inference with Mixture of Low-Rank Compensators, arxiv:2504.02658 #INT3优化 #低秩补偿
Fate: Fast Edge Inference of Mixture-of-Experts Models via Cross-Layer Gate, arXiv:2502.12224 #MoE 调度 #混合精度量化 #PD 区分量化
MoQAE: Mixed-Precision Quantization for Long-Context LLM Inference via Mixture of Quantization-Aware Experts, arXiv:2506.07533 #利用门控解决 KVCache 压缩问题
QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models
这篇是今天几篇论文中最早的一篇,23 年的 arxiv,24 年 MLSys 录用, 前瞻性很强 ,作者是 GPTQ 的作者。
主要优化的模型:SwitchTransformer-c2048。
GPTQ 是当下很多模型量化的首选方法之一,广受欢迎。本文相当于是对 GPTQ 量化方法的一种的实践。
这篇文章使用的模型是一个非常不常见的极大模型,名叫 SwitchTransformer-c2048,有 1.6 万亿个参数,也就是 1600B 的模型,存 fp32 的话需要 3.2TB 的显存。我们很熟悉的 DeepSeek R1 满血版模型,是 671B 的,虽然在一个量级上,但是比这个小,最近的 Kimi K2 模型 1000B 也算是赶上来了。总之这些尺寸的模型,量化是很直观的优化方法。
这个模型是个典型的 MoE 模型,模型名称中的 c2048 表示的就是模型中包含 2048 个专家,是 google 在 2021 年提出的,一个是出来的早,另一个是足够大(优化空间大),后边还有文章中也用的这个模型作为优化目标。(怎么说呢,有点像 opt?)
所以 QMoE 包含一种可扩展的 动态稀疏量化框架 算法,将1.6万亿参数的Switch Transformer-C 2048模型压缩到小于 160GB(压缩了 20 倍,bit per weight bpw 是 0.8 ),也就是压缩到每个参数实际占比小于 1 位,同时与定制的 GPU 解码内核协同设计,以实现高效的端到端压缩推理。实际上也不小,不考虑 kvcache 空间的话,如果全部在 GPU 运算那么 80GB 的 A100 也能用两块三块的,也不便宜。
文章中虽然多次提到模型从 GPU 卸载到 CPU 内存中,但是我认为实际上作者使用的方法并没有 offload ,而是都在 GPU 中计算的,并且非专家的层,还是使用的 bf16 ,专家基本上是 2bit 也就是三进制(-1,0,1)这种进制,压缩方法就是用 GPTQ 算法对分组专家进行的处理。(GPTQ 的量化压缩方法中还有一些压缩率和掩码的细节这里不展开了)
那么 0.5 的压缩比是怎么来的?bf16 是非专家层,2bit 是专家,这样也做不到 20 倍加速比呀,所以它有一个 Sub-1-Bit Compression 的提法,这个方法的逻辑是这样的:三进制(-m, 0, m),加上权重通常接近正态分布这一事实,自然会导致量化后出现高稀疏性,即大量的零,这里称为接近 90% 的自然稀疏性。这样的状态可以使用稀疏矩阵乘法的方法进一步优化获得最终小于 1 bit 的 bpw。当然,这样的稀疏化方法因为只保存非零位,和它们的索引位置,因此必须有专门的 sparse gemm 方法也就是 CUDA kernel 来做高效支撑。文章中对 CUDA kernel 的介绍也比较详细。
所以,QMoE 是比较典型的《混合精度量化》MoE 量化方法。
MoQa: Rethinking MoE Quantization with Multi-stage Data-model Distribution Awareness
作者主要来自北大和字节,2505 的文章,很新。
主要优化的模型:OLMoE、MoE-Girl、Qwen-MoE-14B、Qwen1.5-MoE、DeepSeek-MoE-16B。
作者认为现有的量化方法已逐渐将重点从参数缩放转移到数据分布分析上,但是 MoE 模型的模型数据分布和 dense 密集模型完全不同,因为专家利用率是和输入数据分布是有极高相关性的。
我认为本文的核心观察就在于不同的输入数据分布下,专家重要性差异很大。如图 3 所示。在 WikiText2 下,第 28 个专家表现出较高的专家重要性,而在 C4 下,第 28 个专家表现出非常低的重要性。这里长尾分布的横轴代表的是 token 映射,在图二和 III.A 章节中进行的分析,基于这个映射,再获取到的所谓专家重要性。(不过这里我个人是有疑惑的,我并不认为出现多的 token 就一定很重要,出现少的就一定不重要, 或许真理就是掌握在少数人手中的 。所以 我认为这里的专家重要性 expert significance 更像是一个 expert profile )
这表明 MoE 使用不同的专家组合来适应不同的输入数据分布。 而不同的输入数据分布是当前诸多量化方法在量化时进行校验时的核心依赖关系。 例如 GPTQ、SmoothQuant 就是依赖静态的一对一数据-参数映射(即单一模型拟合全局数据分布),这明显是个很大的问题。
所以综合考虑多个输入数据分布下专家的作用已成为一个难题,因此作者提出用多输入数据集拟合成一个联合分布,如下图 4 。这图不是把两个数据集分别作为横轴和纵轴,而是有多个数据集作为 X 轴,专家作为 Y 轴来的。按作者的说法 Z 轴都高的专家肯定是重要的(同理存疑),也就是文中所言专家综合性能。
通过前面的分析,我们发现MoE量化有两个要求(这两个要求是有道理的):1)MoE 需要根据专家的重要性进行专家级别的混合精度量化。2)MoE 需要有动态调整的能力,以适应各种新的输入数据分布,这意味着固定的量化方法不是最优的。所以需要有,多对多映射关系:多个专家协同拟合动态数据分布,参数重要性随专家组合变化。专家间重叠与离散化:专家功能存在重叠,但参数敏感性差异显著,需差异化量化。
我们再来详细看看这个多阶段的量化方法,第一阶段量化策略是专家级别的混合精度基础量化,对于共享专家和重要性高的专家,使用较高的精度(如INT8)进行量化以保持性能;对于重要性低的专家,使用较低的精度(如INT2)进行量化以获得更大的压缩比。“预校准-自适应-微调”三阶段框架,动态数据-多专家映射,通道级量化调整,预校准:基于专家路由概率(输入分布)初始化量化缩放因子;自适应:在线调整专家的量化范围(如根据实时输入动态缩放);微调:通过知识蒸馏修复专家间的交互误差。
MoQa 先使用一般的量化方法进行基础量化,再使用 通道级量化动态调整 专家性能以适应新的分布,也就是多阶段的量化方法。
所以第二阶段利用前面得到的联合数据分布 J,按分布的显著程度(如图 5 中 Z 轴的区间)对不同的专家进行了 INT2、INT4、INT6 和 INT8 四种量化方法的区分,进行了专家级混合精度量化,并将此称为基础量化。
基础量化后,在已知的输入数据分布上,混合专家模型可以在量化损失和压缩率之间实现最优权衡。通道级动态量化调整。通道比专家的粒度要小,就是专家 FFN W1 矩阵的列。
类似 AWQ 的发型权重矩阵中极少数通道(约1%)对量化最为敏感,这会影响性能。因此,选择使用这些通道而非整个专家作为 “可调节开关”,这样可以显著降低动态调整的开销。所以作者 首先计算在新输入数据分布下 MoE 权重的梯度 (也就是根据量化误差 loss 计算的梯度,本质上就是 loss,能够有效地反映通道对量化的敏感度),并根据梯度大小筛选出 1% 最敏感的通道及其索引。现在作者要使用这些通道实现量化调整,其具体的方法是将 1% 的敏感通道择出来使用 fp16 进行计算。因为只有 1%,这种开销可以忽略不计。
MxMoE: Mixed-precision Quantization for MoE with Accuracy and Performance Co-Design
作者主要来自,上海交大,上会 AILab,北大,字节,港中文。2505 的工作。
使用的模型主要包括:DeepSeekV2-Lite,Qwen1.5-MoE,Qwen2-MoE,Mixtral-8×7B。
本文明确的就是对混合精度(异构量化)方案进行加速。作者首先认为因为量化对不同网络结构组件参数的影响不尽相同,loss 都有很大差异(下图 a),所以混合精度计算在准确性方面通常优于均匀精度量化。因为 MoE 模型尤其是混合精度增加的复杂性会导致系统开销增加,这是显而易见的,MoE 本来优化就复杂,混合精度计算量和计算延时还都不一样。所以作者直截了当说他们的目标是 在增强 MoE 模型量化的同时,实现有意义的加速 (这话说的,跟我写博客一样敢说话)。
然后,从硬件角度看,硬件在计算矩阵时的状态内存受限和计算受限,这一般可以有 Roofline 定律来描述(上图 b 左图),同时,作者发现不同的量化方法通过 Roofline 定律可以发现其各种量化方法明显的不同之处,A4 A8 两种方法,明显没有遇到计算墙。而 A16 的两种方法,都撞到计算墙了。A8 应该也要在横轴到 180 的时候撞到计算墙了,只是图上没有画了。同时,专家在计算过程中,在不同的 batch 和不同请求下,激活比例不同,激活比例高的专家计算量大,需要用更小的计算带宽,所以是 W8A8 更加友好。激活比例低的专家相对计算量就低,可以使用小的位制带宽,计算时则可以使用高带宽计算,也就是 W4A16。(不过我感觉这里用 W4A8,也未尝不可)。
基于以上两个发现,在实现简单说,作者使用的方法是对 单个 MoE 块进行了更细粒度的划分 ,称为线性块(这里就是 Gate、Proj_Up、Proj_Down 三个矩阵),不同块中的量化敏感度不同,使用的量化方法不同。同时不同的专家间也使用不同的量化方法,如上一段所示。图 3 则是这样设计的一个整体设计,其实就是 不同 MoE 使用不同的量化方法,不同的块也用不同的量化方法 ,各种组合,动态过程中进行的组合,根据离线的统计、硬件信息,输入特点进行各种预测。同时,本文还有很 solid 的 work,编写了相应的 gemm 算子 kernel,以追求更优的吞吐量性能,作者称之为 GEMM Orchestration 矩阵乘法编排。图 2 是论文中对各种低精度 MoE 模块的计算吞吐量的比较。
MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance
作者主要来自后摩科技和东南大学。2505 的文章,也比较新。
面向的量化场景也是的 PTQ 优化。
主要优化的模型:Qwen-MoE-14B、DeepSeek-MoE-16B、Mixtral-8x7B。
首先作者认为,MoE 模型在量化过程中的 精度损失 与 负载不均衡 问题,注意注意,这里的负载不均衡指的是在量化过程中的负载不均衡,也就是不同的专家对于校准数据集的响应不均衡。 量化时的校验数据集很重要,在 MoE 量化时则更为重要 。而现在的 PTQ 方法通常依赖特定领域的校准数据集。所以负载不足的专家自然接收的校准不足,从而导致显著的量化误差。然后作者提出一个概念,叫做样本与专家之间的 亲和度 ,用来描述这种不平衡性。和前面 MoQa 中的 significance 类似,也是从每个专家的角度来看,样本表现出不同程度的亲和度,也就是样本与其分配专家之间的相关性。
那么,一种直观的方法是通过 从多个领域采样数据来构建一个领域平衡的校准集 ,潜在领域的数量几乎无穷无尽,这种直观的方法是不切实际的。另外一个问题是, 采样数据集还有可能与模型的固有分布不一致 。当然,作者的思路还是构建平衡校验集这个思路,但是没有蛮干,而是使用了采样的方法,文中名叫自采样(Self-Sampling),简单说就是利用大语言模型自己的采样能力来构建校准数据。这里我的理解是从固定的起点开始,让大模型自己自回归运行,得到验证集。固定的起点应该是模型自身的词汇表,自回归运行时会产生分支,一般会选择最优的预测分支,直到 EoS。这中间还有一些路径剪枝的优化方法,目标也是忽略低概率分支。以上就是本文中 EBSS (Expert-Balanced Self-Sampling)的大体思路,论文中形式化了部分公式来证明自己的有效性。我认为这种方法思路来源于弱监督无监督学习,自己监督自己生成数据,再通过这样的数据完成自己的量化过程。
(笔者评论:不过,在后续的实验中,没有更多篇幅介绍生成出来的数据集,或者叫做采样出来的数据集更多的特点了,只在图 4 中有一个 ppl 的描述。其实我倒是很关注每次量化时,真实数据和采样生成数据的数量和比例关系)
然后是亲和度引导量化的方法,这个和前面 MoQa 中的 significance 非常类似,不过这里的亲和度得分就是 MoE Gate 输出的数值, 简单说就是量化过程中将门控系数纳入逐层校准 。
另外,本文这个量化优化方法是可以在其他大多数量化基础上完成的(今天介绍的大部分论文都是这样的),文中主要采用了 AWQ 和 GPTQ 作为基准。
EAQuant: Enhancing Post-Training Quantization for MoE Models via Expert-Aware Optimization
这篇作者主要来自华为和北大,2507 的文章,非常新。
主要优化的模型是:OLMoE7B,DeepSeek-MoE16B,Mixtral8x7B。
面向的量化场景是:在 W4A4 和极端 W3A4 量化方法(算是较为激进的量化方法)的 PTQ 优化。优化方法比较偏算法底层,其发现和解决方法,都比较有价值。
作者的发现是路由器的专家选择机制对量化引起的对数几率扰动高度敏感。说人话就是,即使门控分数出现微小偏差,也会扰乱前 k 个专家分配逻辑,由于令牌路由错误而降低模型性能,同时很少被激活的专家在参数校准期间数据覆盖不足,导致量化参数估计不准确和较大的量化误差。这些其实在其他几篇论文中也多被发现和提及。
具体方法一,构建一个统一的通道级平滑向量。我们所熟悉的 SmoothQuant 和 OmniQuant 方法中都指出,激活张量中的少数通道通常会呈现出幅度极大的异常值。SmoothQuant 就是通过合并平滑向量技术来缩放激活张量的动态范围。此外,平滑向量可以合并到前面的归一化层中,不会产生额外的计算开销。作者希望在 MoE 结构中得到一个统一的平滑向量,以提高在不同专家间的泛化能力,也就是无论当前 token 将被路由到哪个本地专家,都能抑制激活中与通道相关的极端值。具体方法则是通过对专家特定要求进行逐通道最大化来实现。(对于这个方法,我是存疑的,这种所谓的泛化能力是否会对具体激活时候那个专家的值域而言显得太大了?)
具体方法二,叫做双目标校准策略。出发点是为了在量化后保持路由器专家选择的准确性,通过 loss 函数的设计策略来控制数值精度和路由分布一致,作者认为传统的均方误差目标仅校准量化前后对数幅度的绝对差异,不够好,而使用 KL 散度最小化专家选择概率中的分布差异。(逻辑上没问题,后续的消融实验也有所证明,之所以对 MoE 有效,我理解可能应当是将没有激活的专家中的部分信息也归纳进来一同计算了)
具体方法三,是为了解决 PTQ 中专家激活不平衡问题,我理解这里的问题应该是量化之后门控结果发生了变化,这可能是因为层间量化误差影响了后续层量化专家的选择。我认为这里的核心方法应该是除了校准专家参数,还需要 在 PTQ 过程中校准非专家参数 。这个解决问题的发现和解决方法,我觉得非常很有见地。
MiLo: Efficient Quantized MoE Inference with Mixture of Low-Rank Compensators
作者主要来自 UIUC,2504 的文章。
主要是针对 INT3 量化场景。
使用的模型是 DeepSeek-MoE(2401),Mixtral - 8×7B。
和前面几篇文章面临的问题是一样的,大部分已有的量化方法,在已有的数据校验集上量化,int3 损失就很大。同时,对于 MoE 模型,INT3 权重量化且批量大小大于 1 的情况下,很难将极端量化的理论节省转化为实际的加速。很多文章确实是这样的,只报告了精度,但是没有报告速度。因为一些硬件的原因,可能低 bit 速度还慢些。
文章中宣称:专家激活频率存在差异(这个其实大家都知道了)。例如,在 DeepSeek-MoE (因为引用的 2401 的 DeepSeek-MoE 论文,所以这个模型是 V1 同期的,)中,同一层中激活频率最高的专家比激活频率最低的专家被激活的次数多11.7倍(人家后续 V2、V3 改进很多)。(文章选择的另外一个模型是 Mixtral - 8×7B,也是一个感觉没有训好的 MoE 模型)
另外一个观察是,INT3 量化能够捕捉到极值,而信息损失主要发生在相对非重要的权重值上。作者认为量化在充分捕捉异常值的同时,牺牲了对中等值的表示作为权衡。
基于这样的发型,作者希望提出一种方法来恢复这些值的信息损失。通过 混合低秩补偿器(lowrank compensation,Exploring post-training quantization in llms from comprehensive study to low rank compensation. AAAI 2024), 增强低比特表达能力,具体说就是将残差矩阵(量化前和量化后的差)进行 SVD 分解,将其中的低秩还原矩阵拿回来补偿以减少量化后的误差。核心方法就是这个了,说的比较简单,不展开了。
Fate: Fast Edge Inference of Mixture-of-Experts Models via Cross-Layer Gate
作者主要来自中山大学、鹏程实验室、华为和港中文。作者团队前面还提出了 Klotski (笔记:聊聊 MoE 负载调度)
面向的场景是,如何把稀疏激活的 MoE 大模型搬到资源受限的边缘设备上,而量化则是文章中的一个点。我认为也挺重要的,就拿过来一起学习一下。
使用的模型是 Qwen1.5-MoE,DeepseekMoE。
因为 Fate 方法是利用相邻层的 gate 输入提前预测下一层会激活的专家,实现高准确率的预取(prefetch),所以针对缓存和加载过程,设计了 定制化的量化策略 ,进一步压缩专家参数体积,提升加载速度。
在 Fate 中,量化使用的是 HQQ 方法,这不是最最重要的。而是围绕什么时间对什么数据采用什么量化方法,做了一套端到端、混合精度的量化、调度协同机制。与前面几个方法不同的是,因为 fate 是 CPU offload 方法,所以 fate 分为 CPU MEM 缓存阶段(统一使用 int4 存储),和实际运算传输阶段。实际运算传输时,又分为 prefill 和 decode。prefill 阶段影响较大,因此会按照受欢迎程度 popular(有点像前面文章的 significance 和 affinity 的概念)排序,将不受欢迎的专家不传 int4 而传 int2 (提前量化好了),受欢迎的还是 int4 传输。decode 阶段一律使用 int4,这是因为在单机场景下,一般 batchsize 为 1,就不区别了。
MoQAE: Mixed-Precision Quantization for Long-Context LLM Inference via Mixture of Quantization-Aware Experts
本文作者主要来自华中科大和平安科技,2506 的文章。
这篇文章是为了在处理长序列数据时,量化压缩 KVCache 的方法,但是是通过量化感知专家实现的。这篇文章其实不是 MoE 架构的优化,而是借用了 MoE 的特点,利用 MoE 方法中的路由器选择最合适的量化比特宽度。有点像 MoBA 用 MoE 门控选择上下文注意力机制类似。笔记:MoBA 与 Native Sparse Attention
#英伟达自动驾驶算法工程师面试
具体职位:规划控制方向,自主记忆泊车-自动开出,职位描述在最后。nv大军压境入局自动驾驶,和其他主机厂、L4创业公司相比最大的区别就是职位划分真的非常细。hr表示nv今年没有校招名额,只有这个实习转正(说大概率可以转正),拿到offer后支持线上实习。笔试之后总共面了5轮通过,笔试3道题,另外每面都有1-2道算法题。
笔试
已经记不太清了,一道打卡题图搜索,一道模拟没做出来,最后一道是leetcode难度中等的动态规划,给定一个数组,每次可以对相邻的两个数进行异或操作,操作次数不限,问操作过后的结果相加最大是多少。问题转化之后和leetcode上一个小偷最多可以偷多少房间类似(不能偷相邻的不然会触发警报)。测试用例第一题过了90,第二题寄了,第三题应该是边界没处理好过了70%。
一面
按流程自我介绍,问了几个项目,着重问了参加比赛的经历,怎么管理和领导团队。单独拎出之前做的一个agv底盘的规划,如何构造MPC的优化问题,用什么求解器,使用了哪些约束,为什么要这样表示避障约束。针对我的回答会稍微再深挖一下,比如软硬约束的区别、常用什么barrier function。知道哪些非线性优化器,GN/LM/共轭梯度的关联和区别,line search和trust region什么时候用。QCQP怎么求解,iLQR和DDP的区别。
coding:手写一个链表,然后把两个升序排列的链表合并,维持升序。实现链表的拷贝构造、复制构造和移动构造。
反问环节问了下工作内容是什么,为什么职位划分这么细,目前主要客户是谁。
二面
简单问了一下项目,面试官说对slam不太懂能不能给他用通俗的语言讲讲之前的做的slam项目。之后着重问MPC和规划,全局规划和局部规划的理解,hybrid A* 知道吗,讲讲大概的流程,除了graph search之外还有什么类型(state lattice),怎么求解tbvp。最后问了对深度学习了解多少,讲了简历里的一个目标检测和关键点检测的项目。
coding:mxn的棋盘,从左上角开始,只能往右和往下走,问走到右下角最多有多少种方式?一开始没多想写了个BFS,面试官提示会超时,于是改成动态规划。面试官说知道记忆化搜索吗?能不能改成这种实现?最后又在图中添加障碍物。
反问:工作中会经常参考paper吗,组内和组间合作是否紧密。
三面
介绍项目,以之前参加比赛做的项目为脉络发散。没怎么问规划的东西,说看我简历上写的对控制很熟就不问了(也有之前面试记录)。应该是主要做深度学习的,问了几个dl相关的问题,尤其是图像。最后问我如何看待规划和决策和耦合,应该统一还是解耦。
coding:找出数组中topk大的数,一开始以为是部分快排,后来他说topk都要找出来,就想到用堆,但是写的时候实现的方式错了,面试官说可以用STL。我说用优先队列,他问stl里可能是怎么实现的,然后在他引导下写完了。又问了堆排序的平均时间复杂度。
四面
先介绍项目,然后从之前做的规划项目里详细问了hybrid A* (估计是因为这个hc就是给泊车的),详细介绍算法每一步的流程,和A* 的区别是什么,怎么生成新的候选点,怎么剪枝。还知道哪些考虑了运动学约束的算法?答了kinodynamic-RRT,问这个算法还能怎么改进(双向生长、rewire、targt orientation guide)。得到初始轨迹以后局部规划怎么设计等。
coding:leetcode题,岛屿数目,之前面美团的时候做过,dfs一下就写出来了。
三面结束之后马上四面,反问的时候问为什么连续面两次(结果面试官说可能是时间安排方便吧,我只能尬笑),又问了下是不是工作中解决的工程问题居多。
五面
技术主管,全英文面。自我介绍完以后主要问了2个项目,一个是嵌入式相关的(多传感器时间同步),一个是参加rm比赛做的目标运动状态估计,这个用了扩展卡尔曼滤波,然后让我讲讲EKF的原理,工程上调参有哪些经验。
最后问了几个实习相关的问题,什么时候能到岗,可以来多久,如果有其他offer会怎么选择。本来以为没有coding了,反问完以后说,我们还是来写道简单的题吧 ,反转链表用递归和迭代实现。那天也不知道干啥脑子抽风了,迭代总想着用2个指针,递归终止条件也没写对,他说没事你可以调试然后我就在那gdb折腾半天也没弄出来。最后面试官说没事你可以结束之后继续写,写好了发给我。
好不容易搞到最后没想到挂在一个简单题上也是有点难绷,本来以为挂了没想到过了一周hr打电话来说通过了, 非常amazing。结果没两天突然传来nv被制裁的消息,mentor打电话说所有招聘被暂缓了,也不知道是不是在池子里被人挤下去的说辞,最后还是无缘核弹厂了,线上实习真的很香啊。
JD
在nv官网投递的,原来的那个职位关闭了,链接是boss上找了个类似的:https://m.zhipin/job_detail
#Talk2DINO
开放词汇分割新SOTA!让分割又快又准还懂人话~
论文标题:Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation
论文作者:Luca Barsellotti等
作者单位:意大利摩德纳和雷焦艾米利亚大学等
论文链接:https://arxiv/pdf/2411.19331
开源链接:https://lorebianchi98.github.io/Talk2DINO/
背景与动机
开放词汇分割(Open-Vocabulary Segmentation, OVS) 是计算机视觉领域的一项基础任务,其目标是根据推理时提供的自然语言概念,将输入图像分割成一系列连贯的区域。与传统分割任务不同,OVS所使用的概念集合通常以自由形式的自然语言提供,这使得相关方法摆脱了仅依赖训练时给定的特定固定类别集合的限制。要完成这一任务,需要对图像像素与自然语言所传达含义之间的语义关联有细粒度的理解。
在OVS领域,以往的研究多采用像素级标注作为监督信息,但近年来,利用最先进的骨干网络所学习到的相关性,以无监督方式解决该问题成为一种趋势。对比性嵌入空间(如CLIP)在需要整体理解视觉和语言模态的任务中表现出良好性能,因此被应用于无监督OVS。然而,基于CLIP的骨干网络虽然具有强大的跨模态能力,但它们主要是为了预测文本和图像之间的全局相似度分数而训练的,这限制了其空间理解能力,进而影响了基于密集预测的任务表现。尽管已有研究通过引入架构修改来解决这一限制,但训练方式带来的空间理解约束仍然阻碍了这些骨干网络在OVS中的有效性,这凸显了探索具有更强感知能力的替代模型的潜在价值。
自监督纯视觉骨干网络(如DINO和DINOv2) 在无需标注数据的情况下,展现出捕捉细粒度和局部空间特征的显著能力。这类骨干网络中的自注意力机制生成的注意力图能够持续定位图像中的相关区域,因此被广泛用于前景目标分割。然而,视觉自监督网络所产生的嵌入空间与文本概念并非固有对齐 ,这使其与OVS任务不兼容。
图1. 概述。我们的方法通过一个习得的映射函数对齐CLIP和DINOv2的嵌入空间。这产生了细粒度的视觉编码,这些编码可以映射到语言,从而提供自然且噪声更少的语义分割。
正是由于现有的视觉-语言模型(如CLIP)在空间定位方面存在挑战,而自监督视觉模型(如DINOv2)虽在细粒度视觉编码方面表现出色却缺乏与语言的整合,两者之间存在明显的差距。为了弥合这一差距,研究人员提出了Talk2DINO方法,旨在结合DINOv2的空间准确性和CLIP的语言理解能力,实现高度本地化的多模态图像理解,从而推动OVS任务的发展。
核心创新
- 提出了Talk2DINO模型,这是首个直接对齐DINOv2和CLIP特征空间以用于OVS的模型。通过使用非线性扭曲函数将CLIP的文本嵌入映射到DINOv2空间,Talk2DINO有效地为DINOv2赋予了语言属性。
- 所提出的模型采用了一种新颖的训练模式,该模式能够选择最相关的视觉自注意力头,并且不需要对骨干网络进行微调,在仅学习少量参数的情况下实现了良好性能。
- 展示了Talk2DINO在无监督OVS中的能力,设计了计算高效的推理管道,其中包含了一种基于DINOv2自注意力的背景清理新方法,提升了分割效果。
核心方法细节
图2. Talk2DINO训练方法概述。我们学习了一个投影函数,用于将CLIP的文本嵌入映射到DINOv2的视觉嵌入空间。给定从DINOv2中提取的密集特征图和注意力图,我们通过计算特征图与每个注意力图的加权平均值,生成N个视觉嵌入。然后,我们计算每个视觉嵌入与投影后的文本嵌入之间的相似度,并应用一个选择头函数来产生全局相似度分数。我们使用最大相似度分数来对齐文本空间和视觉空间。
Talk2DINO的核心方法围绕着将CLIP的文本嵌入空间与DINOv2的视觉嵌入空间进行对齐,并利用DINOv2的注意力机制来提升分割性能,具体细节如下:
基本任务定义与前提
开放词汇分割任务中,设图像,其由基于Transformer的视觉骨干网络提取的密集特征图为(输入补丁大小为P,嵌入空间维度为);设任意文本类别集合为,其由预训练文本骨干网络提取的嵌入为。在多模态设置中,若,图像I和类别的相似度图定义为文本嵌入与每个空间位置的视觉特征的余弦相似度,通过上采样可得到全分辨率相似度图,分割掩码则通过将像素分配给具有最高相似度分数的类别得到。这一过程要求视觉和文本的嵌入空间不仅维度相同,还需具有相同的语义。
CLIP和DINOv2存在对偶性,CLIP等视觉-语言模型能自然适应上述公式,但其在文本特征与空间补丁特征的精确对齐方面存在不足;而DINOv2等纯视觉自监督骨干网络的空间嵌入具有显著的语义和局部一致性,但缺乏与自然语言的有效连接,无法直接用于上述相似度计算。研究表明,CLIP的文本嵌入空间可通过可学习的非线性扭曲和仿射变换投影到DINOv2空间。
增强DINO的语义:CLIP嵌入空间的扭曲与映射
为将文本嵌入映射到DINOv2的视觉补丁嵌入空间,学习了一个投影,该投影通过将两个仿射变换与双曲正切激活函数组合而成,公式为,其中和是可学习的投影矩阵,是可学习的偏置向量。
为学习该非线性投影,利用DINOv2固有的分割能力来确定视觉补丁特征中与应对齐的精确空间子集。首先从DINOv2的最后一层提取N个注意力图(每个对应一个注意力头),每个能突出图像中不同的语义区域。对于每个注意力图,通过对特征图进行加权平均计算出视觉嵌入,其中权重为注意力图经softmax处理后的值,即。然后计算每个与投影后的文本嵌入的余弦相似度,并通过选择函数对不同注意力头的相似度分数进行选择,选取所有注意力头中的最大相似度分数,以促进文本和视觉表示之间的稳健对齐,适应与文本查询对应的最显著视觉特征。
训练过程
为优化文本和视觉嵌入之间的对齐,采用InfoNCE损失,该损失利用一批图像-文本对的相似度分数。对于每个图像-文本对,计算投影后的文本嵌入与最大激活的视觉嵌入之间的相似度分数,其中是从与对应文本最相关的注意力头导出的视觉嵌入,即。
将真实的图像-文本对视为正例,批次内的其余对视为负例,这种对比方法促使模型提高匹配对的相似度,降低非匹配对的相似度。对于一批B个图像-文本对,InfoNCE损失定义为。
背景区域识别:背景清理程序
为提升模型识别背景的能力,提出基于DINOv2骨干网络自注意力头的背景清理程序。给定N个注意力图和M个类别的投影文本嵌入,首先如上述方法计算平均视觉嵌入,然后计算每个与的相似度,得到相似度分数矩阵,并对其进行行归一化(通过softmax操作)。矩阵定义为,其中。
对于每个类别,计算其平均注意力图,公式为,并对进行空间轴上的softmax归一化,再将其值线性重新投影到相似度图的值域范围内。最终每个类别的增强相似度图通过相似度图和背景清理图的凸组合得到,公式为,其中是一个超参数,表示背景塑造在计算分割掩码中的相关性。背景区域的分割掩码则被识别为在所有语义类别中,增强相似度图低于某个阈值的像素集合。
图3. 推理过程。在上半部分,我们计算映射后的文本嵌入与DINOv2补丁之间的相似度,以生成初始相似度图。在下半部分,我们为每个类别生成一个背景清理图,该图源自不同的DINOv2注意力头。我们通过相似度图和背景清理图的凸组合,得到每个类别的最终增强相似度图。输出的分割掩码由最后的细化和阈值处理步骤生成。
实验验证
实验设置
- 数据集:在八个广泛使用的语义分割基准上进行评估,根据是否包含背景类别进行分类。其中,在Pascal VOC 2012、Pascal Context、COCO Stuff、Cityscapes和ADE20K的验证集上进行实验,这些数据集分别包含20、59、171、150和19个语义类别且不包含“背景”类别;还在COCO Objects数据集(包含80个前景目标类别)以及修改后的包含“背景”类别的Pascal VOC 2012和Pascal Context版本上进行了额外实验。
- 实现细节:主要实验采用DINOv2 ViT-B/14作为基础模型,DINOv2 ViT-L/14作为大型模型,均搭配CLIP ViT-B/16文本编码器,使用带有寄存器的DINOv2变体,将输入图像调整为518×518以匹配DINOv2的原始训练分辨率,得到37×37的补丁。在COCO Captions 2014训练集(包含约80k图像)上,使用Adam优化器、128的批次大小、的学习率训练模型100个 epoch。为抵消最终掩码中的不准确之处,采用像素自适应掩码细化(PAMR)进行掩码细化,背景清理中设为5/6,相似度分数的阈值设为0.55以确定“背景”类别,使用掩码细化时PAMR采用10次迭代。
- 评估协议:遵循无监督OVS的标准评估协议,不允许在评估前访问目标数据,使用MMSegmentation工具包提供的默认类别名称,所有模型均使用所有类别的平均交并比(mIoU)进行评估,将图像调整为较短边为448,采用步长为224像素的滑动窗口方法。
主要实验结果
表1. 与无监督开放词汇分割(OVS)模型在Pascal VOC [15]、Pascal Context [30]、COCO Stuff [7]、Cityscapes [11]和ADE20K [56, 57]数据集上的对比。对于每种方法,我们指定了所使用的视觉骨干网络,以及该骨干网络是冻结的还是经过微调的。
表2. 考虑背景类别的情况下,与无监督开放词汇分割(OVS)模型在Pascal VOC [15]、Pascal Context [30]和COCO Object [7]数据集上的对比。对于每种方法,均指定了所使用的视觉骨干网络,以及该骨干网络是冻结的还是经过微调的。我们报告了所有方法在其最佳配置下的结果。
将Talk2DINO与以往无监督OVS的最先进方法在5个不含“背景”类别的基准和3个含“背景”类别的基准上进行比较。比较的竞争对手包括基于原型的方法(如ReCo、OVDiff等)、CLIP改编方法(如MaskCLIP、SCLIP等)、在大规模图像-标题对集合上训练的方法(如GroupViT、TCL等)以及旨在结合CLIP和DINO互补特性的方法(如CLIP-DINOiser、ProxyCLIP等)。
在不含背景的五个基准(Pascal VOC、Pascal Context、COCO Stuff、Cityscapes、ADE)上,无论是基础配置还是大型配置,无论是否使用掩码细化技术,Talk2DINO在所有配置上的平均mIoU均最佳,与所考虑的竞争对手相比有持续的改进。在含背景类别的三个基准上,Talk2DINO在所有考虑的配置中均取得最佳或次佳结果,显著优于通过检索过程构建视觉原型的FreeDA方法,表明直接从CLIP文本编码器到DINOv2的投影训练能在无需计算和内存开销的情况下,在两个嵌入空间之间建立更准确的桥梁。
消融实验
表3. 使用不同视觉骨干网络和不同大小的ViT架构的消融实验结果。
- 不同视觉骨干网络的选择:当改变视觉骨干网络和所采用的ViT架构大小时,与DINOv2不同的骨干网络表现不佳,无法通过可学习的映射与CLIP文本编码器对齐。DINO虽然平均性能第二,但Talk2DINO从DINOv2密集特征的强大语义表示及其自注意力头突出图像连贯区域的能力中显著受益,且该方法在不同ViT大小上均表现出一致且高性能,即使使用ViT-Small骨干网络也有良好结果。
表4. 评估所提架构核心组件对最终性能影响的消融实验。我们报告了使用DINOv2基础模型的结果。
- 核心组件的影响:在投影的影响方面,用线性投影替代所提出的投影会导致性能略有下降,但表明DINOv2和CLIP空间本质上是兼容的;而将所提出的投影应用于DINOv2之上或在两个空间上应用两个投影会导致性能显著下降,证实了所提方法的适当性。在自注意力头的选择和聚合策略方面,在Pascal VOC数据集上,标准平均自注意力的嵌入表现出更好的性能,但在所有其他基准上,选择与文本CLS token最相似的注意力头嵌入的方法最有效,进一步验证了选择方法的稳健性。
表5. 对比使用和不使用背景清理程序的消融实验结果。我们报告了使用DINOv2基础模型的结果。
- 背景清理的效果:背景清理机制和PAMR掩码细化对性能有影响,背景清理对仅包含前景类别的Pascal VOC和COCO Object有积极影响,但对包含通常属于图像背景类别的Pascal Context的性能略有降低,且无论是否使用掩码细化,所提出的背景清理程序的有效性均得到证实。
- 其他分析:模型参数分析显示,Talk2DINO的参数数量少于最新竞争对手FreeDA和ProxyCLIP,同时平均mIoU更高,具有更好的性能与参数数量权衡。DINO寄存器的作用分析表明,不使用寄存器时性能下降与自注意力中的伪影存在直接相关,伪影会限制与标题最相似的自注意力头的选择机制,在ViT-L架构中性能差异最大,而ViT-S中无寄存器的骨干在五个基准中的四个上表现更好。训练CLIP最后一层的效果分析显示,解冻CLIP的最后一层会导致更差的结果,表明CLIP提供的文本表示若在不同管道中训练,可能会受到损害并失去部分多模态理解能力。文本token选择策略分析表明,CLIP的全局训练目标可能无法赋予文本token强大的局部属性,CLIP文本token的平均值在训练和推理中作为CLS token的替代方案,虽略优于对齐单个token,但仍不如CLIP token,说明CLIP token封装了用于与DINOv2补丁对齐的最有用且噪声更少的信息。
图4. Talk2DINO与FreeDA 、ProxyCLIP 和CLIP-DINOiser 的定性结果对比。
总结
本文提出了Talk2DINO,这是一种新颖的开放词汇分割方法,它将DINOv2自监督视觉骨干网络的空间详细嵌入与CLIP的高语义文本嵌入相结合。该方法通过一个轻量级的语言到视觉映射层,在无需对骨干网络进行大量微调的情况下,实现了文本概念与视觉补丁之间的细粒度对齐,并利用DINOv2的自注意力图来增强分割过程,包括新颖的背景清理程序,从而生成更自然、噪声更少的分割结果,有效区分前景目标与背景。
实验结果表明,Talk2DINO通过仅学习最少的参数集合,在多个无监督OVS数据集上展示了最先进的性能,凸显了自监督纯视觉编码器能够生成具有类似于文本表示的语义属性的嵌入,为解决CLIP类模型的空间理解限制开辟了新途径。
不过,该方法也存在一定局限性,例如DINOv2中存在的伪影现象会影响自注意力头的选择机制,进而影响模型性能,且在不同大小的ViT架构上,这种影响程度不同;此外,CLIP文本token的局部属性不足,限制了其与DINOv2补丁的对齐效果。未来的研究可针对这些局限性进行改进,进一步提升模型性能。
#扣子开源全家桶
Apache 2.0加持,AI Agent又一次卷到起飞
两个核心开源产品 Github上star 数共达 9.5K。工具已上桌,开发者们,燥起来吧。
终于,另一只靴子也落地了。
7 月 26 日,新一代 AI Agent 开发平台扣子( Coze )宣布开源两款核心产品:零代码开发平台( Coze Studio )和调试工具扣子罗盘( Coze Loop )。
加上已开源的应用开发框架 Eino,扣子四大核心产品已有其三完成开源 ,从开发到运维,一个不落!
扣子产品矩阵包括扣子空间、开发平台、扣子罗盘及 Eino 框架。Eino已于4月开源,红色部分是这次开源的核心产品。
2025 年,AI Agent 迎来爆发,热度直逼今夏高温。在不少人眼中,它俨然成为大模型真正落地的「最佳实践」。而就在这个关键时刻,扣子果断全线开源,沿用高度开放的 Apache 2.0 协议 ——
一边加柴,一边开门迎客,把这把火烧得更旺,也将开源平台的竞争推到了新高度。
目前,这次开源的两个核心产品 GitHub 的 Star 数量迅速攀升,共达 9.5K,成为智能体开发领域最受关注的开源项目之一。
Coze Studio :https://github/coze-dev/coze-studio
Coze Loop:https://github/coze-dev/coze-loop
Eino:https://github/cloudwego/eino
完整工具链开源,零门槛享受商业级能力
扣子开发平台是一款真正意义上的无代码开发平台。最大的亮点就在于——
不会写代码?完全没关系!只要你会用鼠标,分分钟就能捏出一个能跑的智能体,整个过程直观到飞起:
打开网页画布,拖拖拽拽,像搭积木一样拼出智能体的工作流程。
前端界面、后端逻辑全图形化呈现,1—2 小时轻松搞定一个实用的 AI 应用。
拖拖拽拽,像搭积木一样拼出智能体的工作流程
平台的扩展能力也相当强悍:最丰富的插件市场,搭配知识库、数据库等组件,极大拓展了智能体的能力边界。
拥有最丰富的插件市场
各种资源,一应俱全
支持发布平台也最多:一键上架平台商店,支持飞书、抖音、微信等多平台推送,同时提供强大的 API 和 SDK,便于将智能体无缝集成进你的业务系统。
现在,扣子开发平台的核心引擎全面开源——
模型接入、智能体构建到最终发布,覆盖所有开发所需核心模块。
开发者可以自由使用、魔改、分发,打造真正高度定制化的智能体应用。
开源功能清单(中文版)
「一站式可视化开发」,外加源自成熟商业平台,是扣子开发平台区别于众多 AI 开源项目的突出亮点。背靠数万家企业和数百万开发者的用户基础,充分验证了其核心引擎的稳定性与可靠性。
技术栈方面,扣子开发平台同样亮点十足——
后端采用 Golang,前端采用 React + TypeScript,整体架构基于微服务和 DDD(领域驱动设计)。
在开源语境中,性能和效率往往是最先被拷问的指标。Golang 内核像是一块扎实的基石,确保在面对高并发和复杂调用时,系统依然稳定可靠。
更别说 Golang简洁的语法和低门槛的学习曲线,开发者上手快,维护也省心,再加上它在后端、网络和容器化领域的成熟生态,妥妥一套高效稳定的底层解决方案。
在可读性和维护性方面,React + TypeScript 提供了成熟的组件化开发体验与类型安全保障,既适合新手快速上手,也便于老手精细打磨。
在微服务架构上,通过系统拆解为职责清晰、解耦良好的模块,不仅便于开发者理解和维护,也为开源社区的协同开发创造了理想环境——每位开发者都可以专注于某一具体领域,深耕细作,而不必担心「牵一发而动全身」。
在实操层面,平台提供开箱即用的容器化部署方案,大幅简化环境配置流程,让开发者能将更多精力聚焦在智能体本身的构建上。
有了扣子开发平台,捏个智能体,轻轻松松。但当智能体越来越聪明、任务越来越复杂,仅靠简单「搭积木」已经不够用了。真实场景里,难题接踵而至:
哪些 Prompt 微调真的带来了性能提升?哪些看似改了,其实没变?
尤其是对于拥有复杂工作流的 Agent,靠「提问-答复」的黑箱式调试,就像摸着石头过河——既没法回溯过程,更难精准定位问题。
扣子罗盘,正是在这样的需求下诞生。
它是一整套面向智能体的全生命周期管理工具链,以可视化方式,把智能体开发抽象为四大阶段:开发 - 评测 - 观测 - 优化,每一各环节都有明确抓手,帮你从容应对各种不确定性。
给 Prompt 写作量身打造了 IDE + Git + AB 测试三合一神器,让开发更高效,也更靠谱。
从用户提问开始,到 Prompt 是怎么被解析的、用了哪个模型、调用了哪些工具、每一步花了多少时间、有没有出错……全都详细记录下来。开发者不仅能快速找出问题所在,还能识别性能瓶颈、追踪 Token 用量,真正做到有据可查、有错好改。
一个稳定的智能体,不能靠感觉好,要靠数据说话,效果可量化。评测能力,开箱即用。
这次扣子罗盘开源,更是诚意拉满——
包括提示调试、评测体系、Trace 全链路观测、模型接入等能力统统配齐,相当于把成熟平台的硬核能力一次性下放。开发者零门槛就能体验原本专属商业客户的工具链。
开源功能清单(中文版)
例如,Prompt 开发流程一站式打包,从设计、测试到优化全覆盖,无需另起炉灶,拿来即用。
对 Trace 的上报与查询能力,同样是一大亮点。平台支持自动记录每一条 Prompt 调试的 Trace 数据,实时追踪输入输出、执行路径和耗时明细,让原本黑盒般的 AI 推理过程彻底可见。这对于提升开发效率、加速上线流程,意义不言而喻。
更妙的是,多语言 SDK 同步开源,与商业版完全兼容,只需改几个参数,就能把扣子罗盘集成进自己业务系统,二次开发毫无压力。再加上官方文档齐全、开发指南详尽,整体门槛被拉得很低。
Eino 框架的引入也为模型接入带来了极大灵活性,支持 OpenAI 等主流 LLM,切换模型就像换积木,项目扩展性直接拉满。
上手体验也极其友好。Docker 一键部署几行命令搞定,新手也能几分钟内启动完整调试与评估环境。
总结一下:这次扣子双核心产品开源,堪称给开发社区打了一针强心剂。
开发平台主打上手快,罗盘则解决可观测难题,一次打通从构建到优化的全流程。
关键不是象征性开源,而是把经受过大规模实战验证的能力一次性打包开放:模型接入、Prompt 调试、Trace 观测、跨端部署……全栈可用、可复用。
对开发者来说,等于一开局就站在成熟体系上,轻松起步、深度定制两不误。
Apache 2.0 :把未来留给了开发者
智能体大爆发,竞品几乎全部开源,扣子选择在此关键时刻彻底释放自己的技术势能,把「半条命」交给开发社区,其实并不意外——
三款产品已经构建起一套完整、新的 Agent 开发范式。在这个尚未定型的赛道上,若想让这套范式成为行业的事实标准,必须吸引越来越多的开发者和团队围绕它开发应用、贡献插件、打磨生态。而要在有限时间内快速启动这台飞轮,开源几乎是最优解。
选择以宽松著称的 Apache 2.0,足见扣子的「让利」诚意与生态野心:
- 代码随便用、随便改,不强制开源衍生品;
- 专利授权机制清晰,合规无忧;
- 和主流协议兼容性好,方便各种集成、魔改。
讲真,这几乎把开发者所有顾虑都提前解决了——不用付费、还可以闭源商用、不怕版权雷、不担心数据安全和商业秘密。包袱一丢,落地提速自然水到渠成。
这波操作,很容易让人想到当年谷歌打造 Android 的经典操作:底层保留 GPL,上层切 Apache 2.0,向手机厂商亮明态度——你可以深度定制,闭源商用,商业秘密我不碰。最终换来了生态爆发,坐拥全球手机操作系统半壁江山。
而对于中小企业和个体开发者来说,扣子这波开源更像天降助攻。
传统的 AI 开发平台,尤其是那些功能完备、性能优越的商业版本,往往伴随着高昂授权费用——个人开发者和预算紧张的中小企业,几乎望而却步。现在,扣子直接把 Agent 能力开源给你,零门槛入场,一键白嫖商业级工具链。
而且不是「阉割版」,而是真正把商业版中验证过的核心能力——包括提示词调试、即开即用的评测体系、Trace 全链路观测等——原样端上桌。大家一开局就站在成熟体系上,既能少踩坑,又能快速打磨差异化业务。
值得一提的是,许多企业(特别是大型企业和对数据安全、合规性有严格要求的机构)偏好私有化部署其关键业务系统,包括 AI 应用。
而扣子本身处于基础模型与业务场景之间,是连接两端的关键桥梁:它提供了智能体必需的流程编排、数据接入、任务执行等核心能力。现在它开源了,企业可以部署在自己的服务器或私有云上,完全掌控数据和系统,也就消除了「黑箱焦虑」。
可以说,扣子这波开源,是一次力度空前、诚意拉满的「基础设施放权」——真正把未来留给了广大开发者。
智能体时代的「操作系统」
当然,开源绝非单方面付出,而是一场双向的增益游戏。
在闭源阶段,产品演进主要依赖内部节奏和少数客户反馈。开源之后,全球开发者成为产品的「共创合伙人」——修 Bug、提需求、加插件、造模板,一切都能自下而上「涌现」。社区协同力量,会成为加速产品进化的最强引擎。
选择在 2025 年开源,时机也恰到好处。当下,无代码与低代码平台正成为 AI 应用开发的最热战场,扣子这一整套「开源大礼包」,既是拉新利器,也是生态磁场。一旦社区形成规模——
最多插件的工作流平台,是扣子主导的;智能体开发默认参考的接口和设计范式,是扣子定义的;……
当开发者习惯按你的方式做事,游戏的胜负,其实已经写好了一半。那时的扣子,不再只是字节跳动内部的一套开发工具,而是真正成为「智能体时代的公共底座」。
要知道,开源从来不是放弃主导权,而是迈向更高维度的生态博弈。
这一次,扣子可不是「贵在参与」,而是以「范式设定者」姿态入局—— SDK、Studio、插件市场 …… 「全家桶」一并奉上,毫无保留,直撼现有格局。
一线大厂披挂上阵,无论是国内起步较早的 Dify 还是已打开海外局面的 n8n,也不得不重新审视自身的定位与节奏,一场智能体开发的范式之争如箭在弦,一触即发。
最终,谁的技术规范成为行业共识,谁的接口标准成为开发者默认选项,谁才有资格主导这场最重要的生态重构。
#Core Knowledge Deficits in Multi-Modal Language Models
多模态大模型,真的「懂」世界吗?——揭秘 MLLM 的核心知识缺陷
多模态大模型(MLLM)在高层次视觉理解与推理任务上展现出惊艳能力。然而,如果你仔细观察,就会发现一个的事实:它们在一些看似简单、直观、人类幼儿都能轻松完成的任务中,却频频「翻车」。
比如,「一个玩具被遮住后还在吗?」、「液体倒入不同形状容器后,体积变了吗?」、「两个物体靠近会发生碰撞吗?
这是否意味着 MLLM 的先天认知结构中,缺少那些支撑早期人类学习的基础知识机制?也就是说,它们是否缺乏「core knowledge」(核心认知能力)?
ICML 2025 高分论文(initial score 4443),揭示了 MLLM 的「核心认知盲区」。
来自 UC San Diego 的新研究《Core Knowledge Deficits in Multi-Modal Language Models》(发表于 ICML 2025)对这一问题进行了系统、深入的分析。
论文标题:Core Knowledge Deficits in Multi-Modal Language Models
论文链接:https://arxiv/pdf/2410.10855
研究发现:目前主流 MLLM 广泛缺乏核心认知能力,且该能力不能通过模型规模扩展自然习得。
为此,作者构建了一个创新性的多模态测评体系 CoreCognition,并提出一种独特的 「干预测试」 方法 Concept Hacking,旨在揭示模型是否真的 「理解」 任务背后的核心知识,还是只是 「蒙对了答案」。
构建 CoreCognition:
一种跨模态认知评估基准
「核心知识」概念来自发展心理学,尤其是皮亚杰(Piaget)关于人类认知发展的经典理论。研究指出,人类在婴儿期就已经具备一些对世界最基本、最普遍的认知能力,构成我们理解物体、空间、因果、意图等的基础。研究团队受皮亚杰认知发展理论启发,提出 CoreCognition:一个规模庞大、聚焦「核心知识」的多模态测评体系。其亮点在于:
- 覆盖全面:12 项核心认知概念覆盖了从 感知运动期(如边界感、连续性、物体恒存、空间知觉、知觉恒常性、直觉物理)到 混合期(如视角理解、层级关系、守恒理解)再到 形式运算期(如意图识别、机械推理、工具使用)三个阶段。这种分层设计帮助深入剖析模型在不同认知层级上的表现差异。
- 数据丰富,测试广泛:数据集共包含 1503 个图像 - 问题对,并通过 230 款主流多模态模型 × 11 种 prompt 设计,生成 2530 个评估数据点,有效覆盖不同模型规模与指令理解能力。
- 设计严谨:
1. 判别性强(Discriminativeness):每一道题目都经过精心设计,使得缺乏目标核心知识的模型必然倾向于选择错误答案,从而有效区分模型能力。
2. 混淆最小(Minimal Confounding):问题尽量避免对目标概念以外能力产生依赖,减少与其他核心知识的概念交叉。
3. 无文本捷径(Minimal Text Shortcut):所有问题均设计为必须结合图像和语言信息进行多模态推理,防止模型仅通过语言模式识别猜出正确答案。
- 质量把控严格:所有数据由 12 位具备认知科学、计算机科学或统计学背景的高年级本科或研究生协作完成标注与审核,确保标注质量的一致性与学术严谨性。
数据集设计既参考发展心理学与认知科学,又贴近 AI 实验范式,兼顾理论可靠性与工程可行性,是首次正式将「核心知识」搬进大模型测试框架。
四大关键发现
1. 模型在基础认知任务中存在明显不足:大模型缺乏基础认知,尤其是最简单的认知能力,在诸如边界感、持续性、空间性等简单、直观的任务中,模型性能远低于对更复杂事物(如层级推理、意图理解等)的理解能力。这些本应是「常识」的内容,模型却无法掌握,说明其缺乏对世界基本结构的理解。
2. 模型无法有效利用基础认知支撑高级能力:模型在高层认知上的表现,不一定与低层认知水平直接挂钩。说明模型并未形成稳固的认知体系,模型的高级推理感知并不是建立在基础的认知能力上的。这也能解释为什么模型出现鲁棒性缺陷(即不能持续稳定的正确回答问题)。
3. 增加模型规模并不能显著提升基础认知能力:研究显示模型的基础认知能力无法通过简单扩展规模获得显著提升。尽管模型参数量提升带来了高级推理能力的提升,但对低级认知帮助较小,甚至某些基础能力会出现规模越大越差的反常现象。
4. Reasoning model 并没有表现出明显优势:System-2 reasoning 也不能有效帮忙模型学习或者推理基础认知能力,这说明模型可能在 pretrain 阶段就缺乏基础认知能力。
Concept Hacking:
干预测试揭示「假理解」陷阱
为了进一步验证模型是否真的掌握核心概念,作者提出了 Concept Hacking(概念干预) 方法:通过构造「对照组」(control)与「干预组」(manipulated),故意在测试图文中反转关键特征,但保持其余条件一致。从而区分「真正理解」与「投机取巧」:
- 若在正常与反转任务中均表现良好,说明模型具备真实的认知能力。
- 若仅在正常任务表现好,但反转任务失败,说明模型在依赖虚假的认知捷径。
- 若在正常任务表现差,则表明模型既没有掌握核心知识,也没有建立认知捷径。
实验证明,很多模型在正常图文任务中表现良好,但一旦关键特征被微调,预测结果大幅崩溃,说明其并非真正理解「核心概念」,而是更加依赖浅显易得的捷径学习。
意义与启示
文章揭示多模态大模型(MLLMs)缺乏核心知识,而且这种知识并不能仅靠规模扩展获得 — 模型规模越大,越会在复杂任务上「表面优雅」,但更难在基础认知上实现真正理解。这印证了经典的 「Moravec 悖论」:对人类来说最简单的认知任务,对 AI 却最困难。这对当前以规模为主的发展路径构成了根本性挑战,表明其难以通向类似人类的通用智能。
- 认知科学启示:人类以核心认知为基础构建更高级认知,MLLM 却缺乏这种认知搭建的 scaffold 结构。
- 技术发展挑战:简单地增加参数规模、训练数据,并不能自动带来核心认知能力。
- 未来方向指引:或许需要在模型预训练阶段显式注入物理、空间等常识,主动「灌输」这些核心认知能力;探索认知引导训练机制,以引入「显式概念学习」;开发更多高度控制的认知能力评测。
本文作者介绍:
黎羿江,在约翰斯・霍普金斯大学获得数据硕士学位,现在是加州大学圣地亚哥分校一年级博士生,主要研究方向聚焦于人工智能的学习方向,旨在实现高效和鲁棒的学习,并应用于多模态、交互式以及三维xx环境中。
高清滢,于约翰斯・霍普金斯大学获得硕士学位,目前正在该校攻读计算机科学博士学位。她隶属于约翰斯・霍普金斯医学院旗下的 Wilmer 眼科研究所,Lions 视觉研究与康复中心,以及工程与医学人工智能实验室。她的研究兴趣包括视觉 - 语言模型的可解释性和面向低视力人群的自主导航技术。
赵天维,是约翰斯・霍普金斯大学计算机科学硕士研究生。他的研究兴趣包括从认知科学视角评估、理解与增强多模态模型(特别是其推理能力),以及优化多智能体系统中的规划与协同机制。
汪冰洋,在埃默里大学获得了理学硕士、理学学士和工商管理学士学位。她的研究兴趣包括多模态融合以及从混合模态中高效提取信号。
孙浩然,于 2024 年获得约翰斯・霍普金斯大学应用数学硕士学位。其主要研究方向包括医学数据科学以及机器学习在心脏病学中的应用。
罗得之,是密歇根大学温博格认知科学研究院的大四学生。他曾在伦敦大学学院心理与语言科学系访学,并曾任伦敦大学哲学研究所的人工智能学者。他的研究兴趣为认知科学与人工智能的理论基础,尤其关注意识、自我加工与核心认知。
Hokin Deng ,是卡内基梅隆大学的访问研究科学家。他曾在哈佛大学担任计算机视觉工程师,设计了首套用于单细胞认知实验的实验基础设施。在此之前,他是约翰霍普金斯医院的神经工程师,并在 Meta Reality Labs 担任附属研究科学家。他共同领导了开源项目 「像孩子一样培养人工智能(GrowAI)」,并联合组织了多场聚焦计算机科学、神经科学与哲学交叉领域的研讨会。此前,他曾在约翰霍普金斯大学学习神经科学与哲学。
#硬核「吵」了30分钟
这场大模型圆桌,把AI行业的分歧说透了
什么?2025 年世界人工智能大会(WAIC)第二天,几位行业大佬「吵」起来了。
是的,你没听错!他们「吵架」的热度,堪比盛夏的天气,直逼 40 度高温。
事情的起因是在一场圆桌论坛上,刚聊到模型训练范式,大家就展开了尖峰辩论。
但这场关于训练范式的思想碰撞,很快转移到了模型架构、训练数据、开闭源等尖锐的问题上。每个问题都深入大模型发展的核心要害。
最直观的感受:「这是 AI 行业顶流的公开 battle,我愿称之为今年最硬核『吵架』现场。」台上嘉宾你来我往,台下观众掌声不断。
而这场圆桌论坛,是由商汤科技承办的 WAIC 2025 大模型论坛的「模型之问」圆桌 —— 探讨的是「大模型技术演进与发展之路」。
圆桌主持人由商汤科技联合创始人、执行董事、首席科学家林达华担任主持。嘉宾阵容堪称当前大模型生态的多路代表:包括阶跃星辰首席科学家张祥雨,上海人工智能实验室青年领军科学家、书生大模型负责人陈恺,北京智谱华章科技股份有限公司总裁王绍兰,范式集团联合创始人、首席科学官陈雨强,英伟达全球开发者生态副总裁 Neil Trevett。
可以说这场论坛汇聚了来自基础模型研发、行业落地应用、算力平台等多个关键环节的代表性力量,是一次不同路径、不同视角的深入对话。
在这场 30 分钟的对话中,每一位嘉宾发言的背后,既是对技术路线的选择,也关乎产业未来的走向,值得每一个人深思。
一开场,林达华表示:「大模型技术发展到今天,可以说是在繁花似锦的背后,我们也进入到了一个十字路口。过去大半年的时间里,大模型的技术格局经历了一个重要的范式转变。从最初以预训练为主、监督学习为辅的模式 —— 这一范式由 OpenAI 所开创 —— 逐渐向注重推理能力提升的强化学习范式过渡。这个转变标志着 AI 领域在技术上的进一步演化。」
随着这个观点的抛出,这场围绕大模型的圆桌论坛正式拉开帷幕。
预训练与强化学习
在大模型爆发初期,基本是以预训练为主,比如 OpenAI 发布 GPT-4o 时,当时所有的计算资源都投入在预训练上。很多人认为如果预训练不足,模型能力上限将被锁死。
随着 o1 的发布,OpenAI 提出在预训练好的模型上,用强化学习做后训练(PostTraining),能显著提高模型推理能力。如下图左边显示随着训练时间的增加,模型性能随之提升。这种走势是每个训练 AI 模型的人都熟悉的。
右边表明在「测试时间」增加时,模型的表现也会得到改善。这一发现代表了一个全新的扩展维度 —— 不仅仅是训练时间扩展,还包括测试时间扩展,用到的训练方法主要是强化学习。
o1 的技术博客中展示了一张图表:准确度和测试时计算之间存在对数线性关系,o1 的性能随着训练时间和测试时的计算而平稳提高
在 OpenAI 看来,未来强化学习计算可能会成为主导。
从 GPT-4o 到 o1 范式的转变,不禁让我们思考,原本由 OpenAI 所开创的以预训练为主、监督学习为辅的范式,现在逐渐转向了更加注重推理能力提升的强化学习范式。此外,OpenAI 前首席科学家伊利亚也提出了类似观点,预训练时代即将终结。
随着推理模型的崛起,强化学习越来越得到大家重视。因此一个值得深思的问题被提出,预训练和强化学习我们应该怎么平衡?
张祥雨首先肯定了这套范式的合理性(从预训练到监督微调再到 RL)。对于预训练而言,本质就是压缩语料的一个过程,之后在模型内部形成一个更加紧凑的表示。这个表示对模型学习世界知识和建模非常有帮助。
但与此同时,预训练通常基于 Next Token 预测,这其实是一种行为克隆的形式。而行为克隆传统上被认为存在一些难以规避的问题 —— 比如无论你用了多少数据、模型做得多大,它都很难真正建立起目标导向的推理能力。
因为压缩只是尽可能复现已有内容,而推理本质上是要求模型能找到一条逻辑自洽、通向目标的因果链。因此,RL 应运而生。
张祥雨还指出了未来这条范式的发展方向,他认为如何进一步扩展 RL,使其能够接受自然语言反馈,而不仅仅是像数学、代码这种确定性反馈很关键。
在张祥雨的分享中,我们捕捉到了一个非常重要且值得深思的技术范式拓展,那就是将强化学习进一步延伸到大规模预训练。特别是在推理阶段(即 Test Time)使用强化学习来增强推理性能,这确实是一个非常具有启发性的建议。
陈恺则强调了预训练的重要性。他表示,强化学习之所以能够大放异彩,是因为它依赖于一个强大的冷启动模型。过去,冷启动模型可能依赖于预训练和监督学习(SFT),但现在大家对预训练的重视程度逐渐提高。预训练为强化学习提供了一个良好的基础,使其能够探索多种未来的可能性,从而发挥其应有的作用。
陈恺进一步讨论了强化学习未来面临的挑战,即奖励或反馈机制的问题。这个问题将成为强化学习进一步拓展到更多任务时的一个关键挑战。目前,强化学习主要用于解决一些有明确答案的任务,比如填空和问答题,但实际上,许多有效且有价值的任务并没有唯一确定的答案(这和张祥雨的观点类似)。因此,强化学习需要探索新的奖励和反馈机制,这可能依赖于新的评价标准,或者通过与环境的实际交互反馈来形成奖励体系。
此外,陈恺还表示强化学习也给基础设施带来了新的挑战。尽管强化学习已经取得了一些进展,但从效率上来看,仍然存在较大的提升空间。强化学习需要大量算力,且模型需要不断进行探索和学习。如果未来强化学习开始依赖更多的交互反馈,这对基础设施的要求将会更高,对相关技术和资源的挑战也将更加严峻。
Transformer 架构与非 Transformer 架构
在整个模型研发过程中,训练范式是非常重要的一部分,而训练范式又依托于高效的模型架构。
从 2017 年至今,Transformer 统治 AI 领域已经八年之久。如果从 2019 年的 GPT-2 出发,回顾至 2024–2025 年的 ChatGPT、 DeepSeek-V3 、LLaMA 4 等主流模型,不难发现一个有趣的现象:尽管模型能力不断提升,但其整体架构基本保持高度一致。
然而,随着模型参数飙升至千亿级、上下文窗口拉伸至百万 Token,Transformer 的一些限制开始显现。 比如,其最大的问题是自注意力机制的 O (n^2) 扩展性,当序列长度 n 增加时,计算量和内存占用呈平方级增长。其次,注意力机制需要存储大量中间结果和 KV 缓存,显存很快被占满;第三,Transformer 缺乏显式的长期记忆机制,导致在需要多步推理或跨文档对齐的任务上,小样本泛化能力急剧下降。
对此,业界和学界开始新的探索,他们主要沿着两条技术路线展开。
一是优化现有 Transformer 架构,例如,位置编码从最初的绝对位置发展为旋转位置编码(RoPE);注意力机制也从标准的多头注意力逐步过渡为更高效的分组查询注意力(Grouped-Query Attention),另外在激活函数方面,GELU 被更高效的 SwiGLU 所取代。
另一条则是跳出 Transformer,探索全新架构范式。如 Mamba 系列通过状态空间模型(SSM)实现线性复杂度的长序列建模,展现出比 Transformer 更优的延迟性能与可控推理能力;RetNet、RWKV 等结构则融合了 RNN 的记忆优势与 Transformer 的并行性,力图找到效率与能力的最优平衡点。
值得注意的是,当前的大模型架构发展也呈现出混合设计趋势,如由 AI21 Labs 推出的 Jamba 就是混合架构典型,其结合了经典的 Transformer 模块和 Mamba 模块。
年初发布的 DeepSeek V3 表明,即使是优化现有 Transformer 架构,也可以大幅度降低模型训练和推理成本。这就带来一个值得深思的问题:我们是基于 Transformer 架构进行创新?还是开发非 Transformer 架构?
对于这一问题,张祥雨表示,模型架构并不是最重要的决定因素,架构是为系统和算法服务的。Transformer 架构没有问题。现在流传下来的仍然是最经典的 Transformer 架构。
但现在的问题是,算法开始向 RL 迁移,而我们的应用场景也从推理时代向智能体时代转变。而智能体最重要的特性是自主性,它必须能够主动与环境交互,并从环境中进行学习。
这就意味着,我们的模型架构需要具备类似人类的能力,能够建模一种无限流或无限上下文的能力。因此,张祥雨认为,(在智能体时代)传统模式已经遇到了阻碍,像是传统的 RNN 架构,未来短时间内可能会重新成为下一代主流架构的设计考虑之一。
真实数据与合成数据之争
但我们不可忽视的是,大模型的背后,还有数据。过去,AlexNet 及其后续工作解锁了 ImageNet,Transformer 的兴起解锁了海量的互联网数据。然而今天,我们正面临一个残酷现实:高质量语料正在趋于枯竭。随着已被爬取的内容越来越多,边际新增的优质数据正在减少。
有研究预计,如果 LLM 保持现在的发展势头,预计在 2028 年左右,已有的数据储量将被全部利用完。届时,基于大数据的大模型的发展将可能放缓甚至陷入停滞。与此同时,拥有版权、隐私等限制的数据,更是加剧了垂直领域的发展。
图源:来自论文《Will we run out of data? Limits of LLM scaling based on human-generated data》
在此背景下,合成数据被寄予厚望,国内外很多公司开始采用这种方式。比如 Anthropic 首席执行官 Dario Amodei 曾经表示,对于高质量数据耗尽的困境,Anthropic 正在尝试模型合成数据的方法,也就是使用模型生成更多已有类型的数据。这一策略也在 OpenAI、Meta、Google DeepMind 等公司的新一代模型训练中被广泛应用。
然而,合成数据在一定程度上缓解了数据难题,但它本身也引发了一系列新的挑战与隐忧。2024 年登上《自然》封面的一项研究认为如果放任大模型用生成的数据进行训练,AI 可能会崩溃,在短短几代内将原始内容迭代成无法挽回的胡言乱语。
一边是高质量数据资源日渐枯竭,另一边则是对合成数据的高度依赖与不确定性并存。
这种担忧,也发生在英伟达内部。Neil Trevett 表示,英伟达在图形生成和物理仿真方面也面临数据困扰的问题,尤其是那些无法获取、获取成本高、涉及伦理风险或隐私问题的数据。
圆桌现场,Neil Trevett 给出了英伟达的一个解决思路,利用物理仿真生成模拟场景,用来训练大模型。这种方式尤其适用于构造一些在真实世界中难以采集的边缘案例,比如交通事故场景,或者机器人遇到异常情况时的应对。
不过,Neil Trevett 也强调:不能完全依赖合成数据。用于合成数据的生成模型本身可能存在偏差、误差或盲区,因此需要建立真实世界的验证机制和反馈闭环,比如通过 human-in-the-loop 的方式,来辅助验证训练效果是否真实可用。Neil Trevett 还给出了几个非常有前景的技术路径,包括自监督学习、主动学习、混合式训练流程等。
王绍兰则给出了不一样的观点,他认为对于预训练而言,大家常提到的互联网数据耗尽,其实是一个量的问题,可能更关键的是质的问题。也就是说,当初大模型所依赖的大量互联网数据,它们的质量是否真的足够好?这需要重新审视。接下来应该是进一步提升预训练数据中的质量。
王绍兰还提到所谓数据耗尽并不像大家说的那样夸张,原因是行业数据还沉淀在行业中,没有被用来训练模型。因此大模型想要落地到行业中去,必须用行业数据进行预训练。
关于合成数据问题,王绍兰认为随着大模型场景的不断扩展,一些场景数据是极其稀缺的,甚至是完全不存在的。因此,只能依赖合成数据和仿真环境来补足。
然而,这种做法会带来一系列挑战,如果仿真不够真实,那么生成的数据也会存在偏差,最终会影响模型训练效果。因此,我们不能把合成数据看作一个万能钥匙,它有价值,但不能解决一切问题,背后仍有大量工程上的挑战需要克服。
最后,王绍兰还建议:对于行业中非敏感、非涉密的关键数据,应当考虑在行业内部建立数据共享机制或联盟组织,共同挖掘、整理这些数据,为大模型在各类实际场景中的应用提供更可靠的「弹药库」。这一建议一发出,现场掌声不断。
基础模型与 Agent 向左向右
从来不是一道单选题
进入到 2025 年,我们可以观察到一个很明显的趋势,基础模型的研发速度逐渐放缓,而以 Agent 为代表的应用成为了爆点。国内外厂商陆续推出了自动化执行任务的 Agent 产品,比如 OpenAI 推出的 Operator、深度研究以及 ChatGPT agent、智谱 AI 推出的 AutoGLM 沉思等。
这正是随着大模型进入到应用深水区以来,行业内加速构建商业闭环并着眼产业落地的真实写照。同时,对于一些以 AGI 为终极目标的厂商来说,基础模型的研发同样不会停滞。如何平衡基础模型投入与应用落地之间的关系,成为厂商在战略决策层面的核心议题。
智谱在持续迭代基座大模型 GLM 系列,覆盖语言模型、多模态模型等的同时,也积极推动大模型在各行各业的落地。面对这种双轨布局是否太分散精力的疑问,王绍兰表示两者并不冲突。
一方面,基础模型仍处于快速演进的阶段,行业普遍对当前模型成果感到振奋,但距离 AGI 的目标仍有较大差距。如果类比自动驾驶的分级,当前大模型大致处于 L3 阶段,仅完成了预训练、对齐与基础推理,并刚刚进入到了具备反思与沉思能力的深度推理阶段。未来仍需要继续进化,即使是 OpenAI 即将发布的 GPT-5,与 AGI 仍有距离。他认为,包括智谱在内,对基础模型的探索将持续下去。
另一方面,王绍兰也强调,模型的价值不应只停留在纯理论研究层面。如果不展开模型的商业化落地,它们的价值就无从体现。大模型要「用起来」,直至变成生产力革命的那一天。如今,大模型正通过 Agent 等形态拓展自身应用。同时在落地的过程中,各行各业的领军企业和生态伙伴也要具备大模型思维,积极拥抱这场范式变革。
同样地,第四范式在大模型落地方面也走在了行业前列,尤其是将 AI 技术应用于金融等重点行业。对于如何平衡基础模型的持续研发与行业应用落地,陈雨强首先指出在技术发展极为迅速的当下,要保证自身在行业中的竞争力,其中最关键的是要用好已有的开源或闭源模型。
接着,陈雨强谈到了基础模型能力以及引发的数据问题。当前,已经有超过 30% 的流量来自模型输出而非传统搜索引擎,这也导致面临人为破坏数据等风险。此外,用于评估大模型的工具(如 Arena)虽有价值,但也存在局限。很多普通用户不关心答案是否真的正确,而是像不像好答案,这就导致排版精美的算法在输出结果时得分更高,进一步加剧数据偏差问题。
最后,他提到,在企业落地中,尤其涉及金融等高敏感领域,仍存在诸多挑战。比如在反欺诈场景,基础大模型难以直接处理像每天十亿用户交易记录这样的大规模数据输入。这意味着,大模型的落地要在基础模型能力、数据质量等多个层面持续进行技术突破。
开源模型即使非最强
也能鞭策整个行业进步
除了训练范式、架构的持续进化以及解决数据瓶颈之外,开源与闭源同样影响着大模型技术路径的选择、产业生态的构建以及人工智能的格局。
一直以来,AI 领域便存在着开源与闭源两大阵营。在国内外头部大模型厂商中,OpenAI 在 GPT-3 之后就完全转向了闭源,而以 LLaMA、DeepSeek、Qwen、Kimi 等为代表的开源模型阵营,正不断逼近甚至部分超越闭源大模型的性能表现。
其中,DeepSeek 的开源模型凭借其优异的性能和极低的部署成本,迅速在全球范围内获得了广泛关注和应用,甚至对以英伟达 GPU 和闭源模型为主导的传统 AI 产业链构成了冲击。可以预见,开源与闭源将在未来的 AI 生态中持续展开博弈。
陈恺从自己多年来的开源领域经验出发,探讨了开源如何在大模型时代产生深远影响。就在昨天,他所在的上海人工智能实验室开源了「书生」科学多模态大模型 Intern-S1,并基于此打造了「书生」科学发现平台 Intern-Discovery。
在他看来,一方面,开源不仅重塑行业内不同玩家之间的分工与资源投入方式,还推动了资源的更合理配置。另一方面,尽管开源模型未必是性能最强的,但它能够有效避免重复投入,促使厂商专注于真正需要解决的问题。
更重要的是,对于行业内仍在训练基础模型并以 AGI 为终极目标的玩家来说,开源无疑形成一种实质性压力:如果闭源模型比不过开源成果,其存在价值可能就会受到质疑。因此,开源不一定总能做到最好,却能鞭策整个行业以更高效的方式持续演进。
而作为全球领先的芯片供应商,英伟达高度重视并持续支持全球 AI 生态的发展,并投入很多。特别在开源方面,英伟达为开源大模型训练与部署提供了算力引擎,通过强大的芯片、好用的工具让模型易用性更强。
Neil Trevett 表示,开源的力量毋庸置疑,如其他技术领域一样,开源是推动 AI 行业前进的强大「工具」。然而,开源是否适合每家公司,需要他们根据自身成本效益和竞争策略来判断,比如开源是否能节省成本、是否会削弱自身竞争优势等。因此,他认为,未来行业可能会走向开源与闭源结合的混合模式。
同时,开源也带来了一些新挑战,比如模型分叉、碎片化和滥用,需要行业共同探索治理方式。Neil Trevett 坚信,随着行业的发展,这些都会逐步得到解决。
至此,这场圆桌论坛画上了圆满的句号。从训练范式到架构演进,从数据焦虑到开源闭源之争,再到 Agent 落地与行业融合,这场由商汤承办的「模型之问」圆桌论坛,展现了大模型时代最真实的技术分歧,也汇聚了业界最权威的思考。
这场硬核辩论,或许正是 AI 行业走向成熟的重要一步。
#UV-CoT
无监督视觉推理新突破,偏好优化重塑图像级思维链
本文第一作者是来自南洋理工大学的博士生赵克森,主要研究方向为 Reinforcement Learning in MLLMs. 该论文已被 ICCV 2025 录用。
随着文本领域中思维链(Chain-of-Thought,CoT)推理机制的成功应用,研究者开始将该方法引入视觉理解任务,以提升模型的推理能力和可解释性。
然而,现有模型局限于文本级别的思维链推理,且处理图像的粒度固定,难以根据语义线索动态关注图像中的关键区域。针对上述问题,本文提出 UV-CoT(Unsupervised Visual Chain-of-Thought),一种无监督视觉思维链推理新框架。
该方法以「关键区域→推理过程」的人类视觉理解方式为参考(如下图所示),设计了无监督的数据生成与偏好优化机制,动态聚焦关键区域,实现细粒度推理,显著提升了模型的空间感知与图文推理能力。
论文标题:Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization
论文链接:https://arxiv/abs/2504.18397
项目地址:https://kesenzhao.github.io/my_project/projects/UV-CoT.html
代码仓库:https://github/kesenzhao/UV-CoT
开源模型: https://huggingface.co/papers/2504.18397
背景:有监督训练
需要高昂的人工成本
现有方法采用有监督微调(Supervised Fine-Tuning, SFT)策略训练模型,使用大量有标签的思维链推理数据,由人工标注关键区域及其推理过程。这类方法面临以下挑战:
(1)人工标注成本高,扩展性差:标注关键图像区域和推理路径需要耗费大量人力和时间,尤其在复杂视觉语义理解任务中,难以适应多任务或大规模场景。
(2)训练信号单一,泛化能力有限: SFT 仅利用人工标注的「正样本」(正确区域及回答),忽略其他潜在合理或不合理的区域与推理路径,导致模型在未知场景下的泛化能力不足。
UV-CoT 设计了一套自动化的偏好数据生成与评估流程,结合改进的偏好优化算法 Score-DPO(sDPO),在不依赖人工标注的前提下,通过偏好评分排序引导模型实现无监督图像级思维链学习(如下图所示)。
贡献一:无监督偏好数据生成与评估
UV-CoT 利用目标模型
和评估模型
,为图像 - 问题对生成多样化的中间推理响应,并通过偏好评分构建偏好数据集。主要步骤如算法 1 所述:
- 响应生成:在每个推理时间步 t,使用目标模型
- 通过随机种子生成 n 个多样化的响应(包括边界框和中间推理结果)。
- 响应评估:评估模型
- 综合考虑所选区域的得分
- 及对后续回答的影响
- 。
- 偏好对构建:从响应中随机选择 k 个偏好对(偏好和非偏好思维链),形成偏好数据集。
- 响应选择:保留最高评分的响应链,用于下一时间步的推理。通过动态生成偏好数据,UV-CoT 减少了对高质量标注数据的依赖,能够在无监督数据条件下实现图像级思维链推理。
贡献二: sDPO 与迭代学习
UV-CoT 使用改进的直接偏好优化(DPO)算法 sDPO,通过引入偏好分数差异优化图像级思维链推理,并采用迭代学习策略动态适应模型输出分布。
sDPO 损失函数如下:
相比标准 DPO,sDPO 通过
引入偏好分数的差异,量化偏好和非偏好响应之间的强度,提升对关键图像区域的影响建模。
迭代学习 (如算法 2):将数据集分为 m 个子集,迭代 m 次,每次使用当前模型
生成偏好数据 D_i,并用 sDPO 优化得到下一模型
。 通过动态更新偏好数据,缓解训练数据与模型生成分布的差异,增强训练鲁棒性。
实验亮点
显著性能提升(表 1):在六大基准上,优于有监督的思维链模型 Visual-CoT-7B,远超目标模型 LLaVA-1.5-7B 和其他无思维链模型。
泛化能力强,易于拓展(表 2):在零样本设置下,UV-CoT 平均提升 2.5%,添加额外无标注数据后,平均提升达 5.1%。
胜任高分辨率场景(表 3):在 V* Bench 上,UV-CoT 平均得分 0.402,平均提升 5.5%,尤其在 OCR 任务中提升 8.4%。
不依赖评估模型,边界框生成质量高(表 5):UV-CoT 通过自评估(目标模型作为评估器)表现仍远超目标模型 LLaVA-1.5-7B(+4.8%),接近 12B 模型 OmniLMM-12B(-0.2%)。将 UV-CoT 生成的边界框应用于 OmniLMM-12B 和 LLaVA-1.5-7B 辅助推理,性能分别提升 7.3% 和 4.7%。
偏好数据与思维链推理可视化:
结语
UV-CoT 提出了一种创新的无监督视觉思维链推理框架,通过自动化的数据生成与对比评估机制,成功摆脱了对人工标注的依赖,实现了关键图像区域的自动识别与推理优化。该方法为高效、可扩展的多模态推理提供了新思路,为未来无监督视觉理解研究奠定了坚实基础。
#这届WAIC,无问芯穹发布了三个「盒子」
「算力是智能时代的土壤,其规模与效率决定着数字未来的疆界。」
7 月 28 日,2025 年世界人工智能大会上,无问芯穹联合创始人、CEO 夏立雪发布了无问芯穹全规模 AI 效能跃升方案,并正式推出三大核心产品:无穹 AI 云、无界智算平台与无垠终端智能。该方案是一套面向未来智能基础设施的软硬协同系统,为跨地域智算网络、智算集群与多形态智能终端等全规模场景,统一适配多种异构算力,提供从模型调度、性能优化到应用部署的全链路支持。
发布会现场,夏立雪将这三个产品比作了「三个盒子」,他表示,无问芯穹希望通过提供「打包式」的产品服务能力,在单卡至十万卡算力的全规模软硬件场景中,让每一份算力,都能释放最大的智慧潜能。
1. 两条「加速进路」和一个「价值空间」,让有计算的地方就有智能
夏立雪指出,从传统算法,到 AI1.0、AI2.0 阶段,在 Scaling Law 的推动下,计算资源持续驱动着智能边界的拓展,逼近 AGI 的临界点。然而,有一条人类文明的终极边界始终横亘在 AGI 之路上 —— 资源的有限性。
人类文明,在迎来一个「无所不能」的智慧之前,或将首先触碰到资源总量的红线。
为了解决这个有限资源与无限需求之间的矛盾,无问芯穹提出加速抵达 AGI 临界点的两条进路 —— 提高智能效率、扩充计算资源。一方面突破从计算资源到智能性的转化效率,用更少的计算资源获取更强的智能;另一方面,不段挖掘和唤醒更多的可用计算资源,而这两条路径的交汇之处,即是新的 AGI 临界点所在。
「两年前,我们惊艳于几千卡集群训练而成的 GPT3.5,但今天,一部手机也可以装下与它同等性能的小型 AI 了。」夏立雪指出,资源的稀缺性约束驱动着智能效率的持续进化,而广泛的应用需求,也正牵引着顶尖模型不断从大规模计算中下放到中等算力、小算力场景中。
夏立雪绘制了一个 AI 应用落地的价值空间:人工智能应用落地价值空间 = 场景尺度 × 计算资源 × 智能效率。他表示:「无问芯穹始终致力于以场景尺度、计算资源与智能效率的共振,以有限的资源实现无限的需求,抵达『智无边际、算无虚发』的终极愿景,让有计算的地方,就有『无穹』的智能涌现。」
随后,夏立雪正式揭晓了无问芯穹全规模 AI 效能跃升方案三大核心产品 —— 针对万卡至十万卡全局算力网络的「无穹 AI 云」、针对百卡至千卡级大型智算集群的 「无界智算平台」,以及针对单卡至十卡级有限算力终端的「无垠终端智能」解决方案。他将这一系列产品形象地称之为「大盒子」、「中盒子」和「小盒子」。
2. 「大盒子」:云端算力不仅要连得起来、调得动,还要从「资源」高效向「能力」转化
在大盒子中,无穹 AI 云为超大规模算力集群的利用提供了一个系统性的解决方案,将全局的异构、异域、异属的算力汇聚成一张「智能感知、实时发现、随需获取」云端算力网络,不仅连得起来,还调得出来、调得过去、调得准。实现了更大规模的资源汇聚、融通,以及更高效的算力利用率,支持更广泛的供需匹配和更加开放的生态建设。
无穹 AI 云的底层是一张深度覆盖全国的广域算力网,基于无问芯穹「一网三异」调度架构,目前已成功覆盖「东数西算」国家战略布局的关键节点,汇聚了来自 26 个省市、53 个核心数据中心的庞大算力资源,整合超 15 种主流芯片架构的异构算力池,总算力规模超 25000P。基于强大的广域高性能专线内网互联互通,企业能够按需在不同地域、不同型号的算力资源之间进行实时切换与无缝迁移。
夏立雪指出:「无穹 AI 云不仅可以让宝贵的算力资源实现最高效的流转与利用,还能有效激活处于『非理想状态』的算力资源,将其转化为具备高稳定性、高吞吐量与超低延迟的优质 AI 服务能力。以普通资源释放一流效能,为普惠型 AI 的高质量发展提供坚实支撑。」
无穹 AI 云为伙伴们提供高度标准化和开放化的接口,支持独特的「平台 + 自营」运营模式 —— 不仅向独立智算中心敞开大门,实现无缝集成;也支持企业构建自有运营平台站点,并融入底层算力供给网络。在过去半年里,无穹 AI 云在上海市、杭州市、北京市等地接连落地,以其强大的生态聚合能力、灵活的分布式部署能力以及坚实的供应保障能力,持续驱动着算力服务从单一的资源交易平台向驱动全产业链协同创新的生态引擎升级。
现场更披露了一个振奋人心的数据:无问芯穹服务的全球最大人工智能孵化器 —— 上海模速空间,日均 Token 调用量已成功突破 100 亿大关,累计服务 10 余个智慧场景、支撑 100 多个前沿 AI 创新应用,单应用月活高达数千万。
随后,夏立雪宣布,华为昇腾 910B 加速卡正式上线由无问芯穹与模速空间联合运营的全国首个「算力生态超市」—— 模速空间算力生态平台。
活动现场,上海西岸开发集团有限公司总经理张滋、华为昇腾计算产品线生态首席专家夏勤同夏立雪一起,在全场的见证下协力启动了模速空间算力生态平台 2.0 的发布仪式。这标志着模速空间、华为昇腾、无问芯穹三方共同开启「百亿生态共建」的合作新篇章,迈向 AI 孵化器 - 国产硬件 - 国产平台产业协同的新里程碑。
3. 「中盒子」:国产智算不仅能算优算,更能实现可持续的正向收益
无界智算平台在无穹 AI 云的能力基础之上,强化了满足面向高校科研机构、区域智算中心等 AI 集群的效能提升能力 —— 既助力高校与科研机构,在人工智能的前沿领域勇攀高峰、开拓创新;也赋能 AIDC 智算中心,构筑可持续运营的长远价值。
「目前,无界智算平台已在超过 100 个大型研发场景中多次成功保障了大规模模型训练与推理任务的关键需求,并帮助国产计算集群实现了实实在在的正向收益。」 夏立雪表示。
在无问芯穹与上海算法创新研究院的合作中,无界智算平台以「全链路解决方案」升级服务,帮助上海算创院实现大模型研发效率的飞跃。成功基于 3000 卡沐曦国产 GPU 集群,稳定支撑百亿参数大模型训练长达 600 小时不间断,创造了国产算力模型训练的记录。
如果说与算创院的协同是在科研应用上的共同求索,那么与云南移动的合作,则充分展现了无问芯穹深入地方算力中心,衔接盈利闭环的能力。无界智算平台凭借其全域异构兼容与智能调度能力,构建了弹性灵活的算力服务能力,精准匹配复杂业务需求。高效利用 2000 张华为昇腾 910B 智算加速卡,实现了千亿参数模型的分布式部署与大规模推理,为云南移动锻造了行业标杆级的大规模商业化服务核心竞争力。
总结无界智算平台在算创院和云南移动中的成功实践,夏立雪强调:「我们相信,国产智算不仅能够以优秀的表现完成各种任务,更能为产业链创造收益,最终实现更恒远的价值。」
面向未来,夏立雪重磅宣布了无问芯穹在「大盒子」和「中盒子」协同的重要产品化进展 —— 全球首个跨地域全分布式联合强化学习服务,支持将各地 AIDC 中零散的算力资源,与一个中等体量的算力集群结合起来,完成跨地域的联合强化学习。最小支持单张消费级显卡接入,让每一张闲置 GPU 都能出发更大能量,让中小企业也能训练自己的领域推理模型。
基于这一重要突破,无问芯穹现场正式启动了「AIDC 联合运营创新生态计划」,与三大运营商及 20 余家 AIDC 伙伴一道,以开放联合生态,拓展整合可用的资源,全力以赴国产计算「勇攀智能高峰、长远可持续发展」的双重使命。
4. 「小盒子」:我们不仅要将大象放进冰箱,还要让大象在冰箱中跳舞
智能终端是将 AI 技术突破与我国制造业优势、市场规模优势结合的最佳「反应界面」。在「小盒子」里,无垠终端智能致力于以软硬协同核心技术优势,打造「端模型 + 端引擎 + 端硬件」智能终端一体化解决方案,突破终端设备的物理资源限制,实现极致的算力优化和利用。
在终端模型方面,无问芯穹宣布携手上海创智院共同打造了全球首款端侧本征模型无穹天权 Infini-Megrez2.0,在实现云级 21B 参数智能水平的同时,将内存占用控制在 7B 规模、实际计算量控制在 3B 规模。可以完美地适配当下的各类终端设备,成功打破了终端「能效 - 空间 - 智能」的不可能三角,突破了终端设备的资源局限。
此外,Infini-Megrez2.0 通过巧妙的工程设计,赋予了终端设备更强的能动性 —— 即使在用户无感知的「休眠时段」里,也能持续运行大模型。发布会现场,Infini-Megrez2.0 的研发团队为大家带来了一个令人激动的演示 —— 用户在电脑合盖之前给出语音指令「整理今日会议记录」。电脑合盖后,系统自动调度闲置 CPU 周期执行后台任务,等任务完成后,则自动释放内存并转入待机。唤醒设备时,整理好的会议纪要已完整呈现在电脑上,算力亦能瞬时恢复满血状态,并且全程无联网、无发热。
这意味着,即使 AI PC 操作者合盖休眠电脑,进入离线的移动办公环境,大模型依然可以接力稳定完成任务。算下来,单台设备年均可释放 1000 多小时的生产力,真正实现了「手停脑停,AI 不停」。
无问芯穹
,赞17
无穹天权 Infini-Megrez2.0 推理速度突破,依托于无问芯穹「端模型 + 端引擎 + 端硬件」三位一体协同优化体系。继上半年,无问芯穹与联想合作发布联想智能终端推理加速引擎后,今天,无问芯穹发布了更强大的继任者 —— 无穹开阳 Infini-Mizar 2.0,如果说 1.0 是挖掘硬件更多潜能,2.0 就是将更大的智能装进了「小盒子」之中。不仅以潜能驱动进化,更让端侧智能超越想象。
Infini-Mizar2.0 突破性地实现了端侧单任务异构计算,在 AIPC 场景下将本地模型尺寸上限从 7B 提升到 30B。
而当我们将 Mizar2.0 和 Megrez2.0 强强联合,则能更进一步地实现推理速度的飙升和显存、功耗的极致压缩,在相同资源占用情况下,实现智能水平提升 18%、推理性能提升超 100%。夏立雪说:「如果说 Mizar2.0 推理引擎是成功实现了把大象放进冰箱,那么再叠加上我们的端模型 Megrez2.0,则是实现了让大象在冰箱里跳舞。」进一步地,能装下更大模型,就意味着能为解锁多样的终端智能应用「抢」 出更多的想象空间,推动端侧 Agentic AI 的自主进化。
基于 Mizar2.0 的重大升级,无问芯穹重磅发布了与新华三合作的大模型一体机,以极致的性价比为用户提供开机即用的一体化软硬件整合方案,实现「一次付费,无限次智能」的便捷体验。同时,夏立雪宣布,无问芯穹与苏州异格技术深度合作,以 FPGA 硬件为核心,内嵌无穹开阳推理引擎,推出 FPGA 大模型推理一体机,单机即可驱动百亿参数大模型,且在能效翻倍的基础上,进一步大幅降低大模型推理成本。
无问芯穹正携手上海创智学院、联想、新华三、异格以及爱芯元智等优秀的智能终端上下游机构,未来还将联合更多伙伴,凝力打造下一代现象级新终端。通过更通用、更强大的终端软硬件设备,服务更广泛的场景,最终让 AGI 走进千家万户,惠及每一个人。
One More Thing:上海首个人工智能终端软硬适配优化中试平台现场启动
AI 2.0 浪潮下,端侧智能在中国新质生产力和国际科技竞争力建设中占据重要的战略地位。同时,终端也是人机交互的接口,可以充分释放各类设备里所蕴含的智能潜力,实现数字智能和生命智能的自由交互。
智能终端的未来,拥有无限的可能性,需要人工智能终端产业链的上下游共同探索。因此,在上海市经信委的指导下,无问芯穹将依托上海这一全球科创中心、国际金融枢纽和长三角一体化龙头的独特优势,携手行业生态伙伴,共同建设上海首个人工智能终端软硬适配优化中试平台。
该平台将聚焦人工智能终端产业发展,协同各环节参与者,共同建立跨领域协同创新机制,重点解决共性技术难题,并形成覆盖计算效能、功能实现和交互体验的完整评价体系和「自我造血」的长期产业化能力,最终打造为可持续盈利的投资收益型中试平台。
随后,在上海市经信委的见证下,无问芯穹与上海创智学院、理想汽车、联想集团、江城实验室、信通院、智元机器人、上海英和、中兴通讯、爱芯元智、上海仪电、中科睿芯、岩芯数智、兆芯集成十余家终端行业伙伴代表共同登台,启动人工智能终端中试平台的首期建设。
「有限的是晶体管和带宽,无限的是人类向智能边疆拓荒的勇气。」夏立雪在发布会的尾声中提到,无问芯穹的愿景,始终是「让算力像水和电一样自然流入千行百业与千家万户。」
无问芯穹全规模 AI 效能跃升方案及其三大核心产品的全球首发,标志着无问芯穹在构建 AI 能力服务化基石、打通算力与应用鸿沟的征程上迈出了坚实一步。未来,无问芯穹将继续携手行业上下游优秀生态伙伴,推动全规模 AI 效能的持续跃升,撬动智能时代阿基米德杠杆的崭新支点,以无穹算力,共赴智能未来。
#「幻觉」竟是Karpathy十年前命名的?
这个AI圈起名大师带火了多少概念?
取名大王 Karpathy。
万万没想到,「幻觉」这个词,竟然是 AI 大牛 Andrej Karpathy 命名的。
最近,一位网友在「The Thinking Machine」(一本新书)里发现了这么一段描述:「Karpathy 承认他的(神经)网络有局限性:它只是在模仿言语,而不必真正理解其含义,当遇到它不理解的概念时,它就会『骄傲地』生成一些无意义的内容。Karpathy 将这类错误称为「幻觉」(hallucinations)。 」
这个帖子,Karpathy 本人也看见了,并留言说:「 我相信这是真的,我在我 2015 年写的《RNN 非凡的有效性》(Unreasonable Effectiveness of RNNs)这篇博文中就使用了这个词。而且,据我所能记起的,这个词本身也是我『幻觉』出来的。」
按照 Karpathy 的说法,我们找到了这篇博客,发现里面确实有包含「幻觉」的表述。当时,Karpathy 就已经指出,模型会「幻觉」出网址以及数学题方面的东西。但直到 2022 年 ChatGPT 横空出世,这个词才真正火起来,并作为一个热门领域被研究。
不过,要想知道在 2015 年之前,是否有人使用「hallucination」或「hallucinate」来描述类似现象,可能需要查阅很多文献。
这个有趣的溯源故事再一次证明了,Karpathy 是 AI 圈「实至名归」的取名大师,因为 2017 年的「软件 2.0」、2025 年的「软件 3.0」、「氛围式编程」、「细菌式编程」都是他提出来的,「上下文工程」虽然不是他提出来的,但也因为他的转发评论而出圈。可以说,在推广新概念这块,没有哪个 AI 大牛的影响力可以比肩 Karpathy。
在科研领域,不要小看「命名」的力量。正如 Gemini 所总结的,命名是「创造知识的奠基行为」,精确的命名是用于分类的「地址」、一个可供全球科学家共同对焦的「稳定靶标」。
这十年来,Karpathy 命名的那些概念逐渐受到重视,这也是他对科学做出贡献的一种重要方式。
软件 2.0、软件 3.0
早在 2017 年, Karpathy 就提出了软件 2.0 一词。
来源:https://karpathy.medium/software-2-0-a64152b37c35
在这篇文章中,Karpathy 表示软件 1.0 时代的经典堆栈 —— 用 Python、C++ 等语言编写。它由程序员编写的显式指令组成。通过编写每一行代码,程序员可以在程序空间中识别出具有某些期望行为的特定点。
相比之下,软件 2.0 是用一种更加抽象、对人类不友好的语言编写的,比如神经网络的权重参数。人类不会直接编写这种代码,因为参数数量极其庞大(普通网络可能有数百万个权重),而直接手动调整权重几乎是不可能的。
为了更清晰地类比,文中提到,在软件 1.0 中,由人类编写的源代码(比如某些.cpp 文件)通过编译生成可执行文件,从而完成实际任务。而在软件 2.0 中,源代码通常包含两部分:1)定义预期行为的数据集,2)提供神经网络架构(但具体细节由权重参数填充)。训练神经网络的过程,本质上就是将数据集编译成最终可用的二进制文件 —— 即训练好的神经网络模型。
总结来说,软件 1.0 是经典代码时代,借助 Python 或 C++ 等,要求开发人员精确地理解语法和逻辑,以便逐步指导计算机。
软件 2.0 是神经网络时代,开发人员不再需要手动编写规则,而是通过输入数据来训练模型。这些代码成为模型的权重,通过优化而非明确的指令进行改进。
有意思的是,软件 3.0 也是 Karpathy 提出的新概念,即提示词时代。开发人员、甚至非开发人员,只需用简单的英语描述他们想要什么(例如,构建一个跟踪我日常任务的网站),AI 就会生成相应的代码。
软件 3.0 让会说话就能编程从梗变成现实,Prompt 成了源代码,LLM 成了运行时,而人类第一次用母语直接向计算机下达复杂指令。
来源:https://www.latent.space/p/s3
Karpathy 还强调了软件 3.0 的几个关键特点:
LLM 作为计算平台:将大语言模型比作电力这样的基础设施。训练一个大模型需要巨大的前期投入,就像建设一整套电网;而通过 API 使用它们,则像是按使用量付费。这一类比强调了大模型作为一种可扩展、可访问的计算资源的角色。
自主滑块:Karpathy 借鉴其在特斯拉关于自动驾驶方面的经验,提出了自主滑块的概念。这允许用户调整 AI 的控制程度 —— 从最低限度的辅助(例如,建议代码片段)到完全自主(例如,生成整个应用程序)。根据任务和用户偏好提供灵活性。
氛围编程
氛围编程(Vibe Coding),是 Karpathy 在今年 2 月造出的。
简单来说,氛围编程就是鼓励开发者忘掉代码,进入开发的氛围之中。更简单地讲,就是向 LLM 提出需求,然后「全部接受」即可。
来源:https://x/karpathy/status/1886192184808149383
正如 Karpathy 所言,在氛围编程中,你会完全沉浸在氛围里,顺着感觉走就行,甚至忘了自己其实是在写代码。这种方式之所以可能,是因为大语言模型现在已经强大到足够离谱。Karpathy 还表示,自己在氛围编程中,基本不用碰键盘,和大语言模型聊天,像个懒人一样提出请求,最后选择全部接受就可以了。
即使有出错的地方,直接把错误信息粘贴进去,也不用解释,模型就能自己改好。甚至 LLM 修不了的 bug,让模型乱改几下,问题也会消失。
这种方式已经不能算传统意义上的编程了,你只要看到东西,说出想法,运行程序,复制粘贴,然后程序大致就能跑起来。
这不禁让我们想起在程序员圈子里广为流传的硬核名言「Talk is cheap. Show me the code」。
最早可追溯到 2000 年 8 月,Linux 之父 Linus Torvalds 在 Linux-kernel 邮件列表里的一次回帖。当时有人长篇大论地描述某个设计思路,Linus 直接甩下这句话 Talk is cheap. Show me the code。
如今变成了「code is cheap, show me the talk(Prompt)」。
细菌式编程
「细菌式编程」,即像细菌一样编写代码。
来源:https://x/karpathy/status/1941616674094170287
这种编码方式受到细菌代码(基因组)的启发,具有以下特点:
- 一是小而精简。要知道每行代码都有成本,就像细菌基因组中每个基因都消耗能量,因此保持代码精简能够让自己写的代码「 生存 」得更好。
- 二是模块化,即代码应该被组织成可交换的操纵子群组。
- 三是自包含,代码要能够轻松地通过「水平基因转移」进行复制粘贴。
这种编码风格的核心思想是:如果你的代码块足够小巧、模块化、自包含且易于复制粘贴,那么开源社区就能通过「水平基因转移」—— 也就是开发者之间的代码共享 —— 而蓬勃发展。
Karpathy 还提出了一个有趣的检验标准:当你写一个函数或类时,问问自己 —— 别人能否在不了解你其余代码、不需要导入任何新依赖的情况下,直接「拿走」你的代码并从中获益?你的代码能否成为 GitHub 上的热门代码片段?
这种「细菌式编码」让细菌能够在从极寒到炙热、从酸性到碱性的地球各个角落生存,甚至在太空真空中也能存活,并发展出令人惊叹的多样性。它非常擅长快速原型开发,但也有局限性 —— 无法构建复杂的生命体。
相比之下,真核生物的基因组就像一个更大、更复杂、更有组织的单体仓库(monorepo)。虽然创新性较低,但却是构建复杂生命、整个器官以及协调它们活动所必需的。
Karpathy 的建议是:利用智能设计的优势,两者兼顾。必要时构建真核生物式的单体仓库骨架,但要最大化细菌式 DNA 的使用。这样既能保持代码的灵活性和可复用性,又能支撑起复杂系统的构建需求。
一次转发,带火上下文工程
以前 AI 圈流行提示词工程,上下文工程却很少有人讨论。
其实这一术语并不新鲜,近两年很多智能体构建者一直在关注这个事情,只是一直不温不火的。经过 Karpathy 转发并点评后,迅速火出圈,现在相关帖子浏览量高达 2.2M。
图源:https://x/karpathy/status/1937902205765607626
很多人搞不懂提示工程和上下文工程的区别,之前,LangChain 发表的一篇博客提到了两者的关系:可以将提示工程视为上下文工程的一个子集。
在传统的提示工程中,开发者通常侧重于精心设计提示语,以期得到更好的答案。然而,随着应用复杂度不断增加,单纯依赖提示已无法满足现代智能体的需求。如今,提供完整且结构化的上下文信息比任何巧妙的提示词更为重要。上下文工程就是为此诞生的。
感兴趣的读者可以参考《提示词工程、RAG 之后,LangChain:上下文工程开始火了!》《登上热搜!Prompt 不再是 AI 重点,新热点是 Context Engineering》。
除了这些已经有名字的概念,其实 Karpathy 平时的一些推文也让一些问题得到业内关注,比如他在一个帖子中指出,未来大家会把 99.9% 的内容都交给 AI 去读,这是一种不可逆的趋势,所以从现在开始大家就应该注重文档的「可读性」,转变写文档的方式,比如 Markdown 可能就是一种理想的格式。这种从「为人类优化」转向「为 AI 优化」的提议得到了很多人的赞同。
你还记得 Karpathy 提出或带火的哪个概念?欢迎在评论区留言指出。
#AI下半场的全新评测范式!
EvaLearn:
在三个月前,OpenAI 研究员 Shunyu Yao 发表了一篇关于 AI 的下半场的博客引起了广泛讨论。他在博客中指出,AI 研究正在从 “能不能做” 转向 “学得是否有效”,传统的基准测试已经难以衡量 AI 的实际效用,他指出现有的评估方式中,模型被要求独立完成每个任务,然后取平均得分。这种方式忽略了任务之间的连贯性,无法评估模型长期适应能力和更类人的动态学习能力。
图出自 Shunyu Yao Blog:The second half
什么是更类人的动态学习能力?不妨想象一下,一位学生在做数学题时,通过前面题目的解答经验,逐渐掌握更高效的解题方法,在后续题目中表现越来越好。这种在实践中不断优化策略、提升能力的过程,正是人类智能灵活性与适应性的体现。
而对于 LLM 而言,能否具备类似的 “成长” 能力,关乎其能否真正迈向通用人工智能的殿堂。但长期以来,由于缺乏有效的评估手段,这一重要维度始终隐藏在迷雾之中。
来自复旦大学自然语言处理实验室和字节跳动 Seed 等单位的研究人员,共同提出了一种全新的大模型评测范式:EvaLearn —— 一个评估大模型学习能力与学习效率的开创性基准,为理解模型的类人学习潜力提供了全新视角。
作为首个专注于量化 LLM 学习能力与效率的基准,EvaLearn 以「连续问题求解」为核心,重新定义了大语言模型的评估逻辑。目前该项目开源仅一个月,官方仓库的星标数便突破 400+,让我们来看看这个工作为何广受关注。
- 论文链接:https://arxiv/pdf/2506.02672
- 项目链接:https://github/ByteDance-Seed/EvaLearn
传统基准的局限显而易见:它们将问题视为孤立样本,模型无法从之前的解答中积累经验,自然也无从评估其「学习效率」与「适应能力」。
EvaLearn 从零构建了 648 个具有挑战性的问题,将这些问题组织为 182 个序列,每个序列包含来自同一任务类型的 7 个问题,要求模型按顺序求解 —— 前序问题的经验,将直接影响后续表现的评估。
图 1 EvaLearn 的评估流程
在评测方面,如上图所示 ,EvaLearn 不采用并行评估方式,而是要求模型按顺序解决问题,从而系统地评估大语言模型(LLM)的学习能力和效率。
这 648 个高难度问题覆盖六大核心任务:
- 摘要(Sum):评估模型能否通过利用先前经验提高总结的准确性和覆盖范围;
- 分类(Cla):评估模型从解决一系列分类问题中提升其分类技能的能力;
- 信息抽取(Ex):衡量模型能否逐步提高关键信息提取的准确性和完整性;
- 逻辑推理(LR):测试模型能否从先前错误中学习并提高逻辑推理能力;
- 数学推理(MR):检验模型能否通过利用早期问题的反馈快速掌握数学解题方法;
- 序列推理(SR):评估模型能否通过从历史经验中学习来增强其解决基于序列问题的能力,包括理清事件步骤和推理逻辑。
每个问题都配有一个由专业标注员编写的细致评分标准(rubric),结合 GPT-4o 作为「验证器」,来判断模型生成的答案的正确性。经过大量实验,基于 rubric 的验证器,在评价各种水平的模型时,评估准确率均超过 95%。这实现了高效的自动化评测。
研究团队 EvaLearn 上对九个前沿大语言模型进行了全面研究,总结了几个关键发现:
(1) 模型在不同任务类型中展现出多样的学习能力。大部分模型通常更擅长利用先前经验来解决涉及数学和逻辑推理的任务,而诸如总结之类的任务则更倾向于依赖在预训练期间获取的知识以及模型的固有能力。此外,不同任务的学习效率也有显著差异。
(2) 基于思维链的大语言模型在学习能力和学习效率上通常优于非基于思维链的大语言模型。它们能更好地利用经验解决新问题,并且表现出更高的学习稳定性,更有可能在一系列任务中连续解决多个问题。
(3) 反馈学习(即将来自验证器的评价和反馈作为上下文提供)能让模型借助对先前解决方案的反馈及基于评分标准的评估来优化问题解决,显著提升学习能力与效率。相较于示例学习(指将先前的问题和规范解决方案作为上下文提供),反馈学习的效果更为显著。
(4) 学习能力和学习效率的指标共同提供了对模型学习潜力的全面评估,两种动态能力与静态模型能力没有很强的相关性。即使是静态性能较高的大语言模型,也并非在所有任务的学习能力上都具有明显优势。
评估指标
为了评价模型的学习能力和学习潜力,EvaLearn 设计了一套全面的评估指标体系,从多个维度刻画模型的动态学习能力:
- 整体序列准确率(Acc):连续任务中,模型答对的总题数占总题数的比例,直接反映整体表现,值越高越好。
- 准确率曲线斜率(k):通过拟合各位置的准确率变化曲线,斜率 k 体现学习速度 ,k 越大,说明模型从前期问题中学习越快,后续准确率提升越明显。
- 首次正确位置(P_first):模型第一次答对问题的位置,P_first 值越小,说明越快找到解题思路。
- 连续正确次数(N_consec):用于评估模型学习的稳定性与经验复用能力。模型连续答对的题数,值越高,说明学习稳定性越强,能更好复用已有经验。
- 热身后准确率(Acc_pw-K):该指标重点关注模型在经过一定数量问题的 “热身” 后,积累了一定经验时的准确率表现。它体现了模型在适应任务、积累经验后的实际适应与提升水平,排除了模型初始状态对整体评估的干扰。
大模型在 EvaLearn 上的表现
研究人员们比较两种问题求解范式:并行求解和顺序求解,以研究大语言模型的学习能力和效率。
并行求解(Parallel Solving)
零样本(Zero-shot):模型独立地解决每个问题,无法访问之前问题的任何经验。这种设置与多数现有基准测试方法一致,评估模型在无学习机会下解决复杂问题的固有能力。
少样本(Few-shot):针对每个问题,模型会获得三个来自同一任务的示例(即 3-shot),以指导输出格式和解题方法。每类任务内的问题共享相同的示例。
顺序求解(Sequential Solving)
示例学习(Demonstration Learning):在解决当前问题之前,模型会获得同一序列中之前所有问题及其标准答案,类似于上下文学习。
反馈学习(Feedback Learning):在解决当前问题时,模型可以访问之前所有问题、它们的解答以及针对模型自身前次解答的详细反馈。这些反馈是由评审使用实例级评分标准生成的。本设置评估模型是否能利用自身经验改善随后的表现。系统提示如图 22 所示。
研究者在所有实验中评估了九个最前沿的 LLMs,包括 “思维型” 和 “非思维型” 模型,结果如表 1。
表 1: 反馈学习与零样本并行求解之间的整体准确率差异
研究问题一:
LLMs 能否通过问题序列进行学习?
发现一:
LLMs 在从问题序列中学习的能力存在差异,且这种差异不仅体现在模型之间,也体现在任务类型之间。此外,大多数模型在 “热身阶段” 后表现更佳。
表 1 总结了反馈学习与零样本并行求解之间的整体准确率差异。研究者观察到,有五个模型从顺序学习中获益,有四个模型表现略有下降,思维型模型在表现上变化更显著,例如 OpenAI-o3-mini 在整体上提升了 +10.5%,为提升幅度最大者。这说明某些模型可以有效利用先前的经验来解决同一任务中的问题。
在任务类型方面,大多数 LLMs 在数学推理和分类任务中通过学习获得了提升。但在摘要任务中,大多数模型表现下降(9 个模型中有 7 个下降),这可能是因为摘要任务更依赖模型预训练时获得的知识和指令遵循能力,额外引入的经验反而会干扰模型完成任务。
此外,研究人员还对 “热身后准确率(Acc_pw-K)” 进行了分析,结果发现多数模型在序列后期表现更为出色,特别是思维型模型。这意味着它们能够将早期问题当作练习,不断优化自身,进而提升后续任务的表现,图 3 左侧清晰地展现了这一现象。
图 2 左侧为 Claude-3.7-Sonnet-Thinking 的热身后准确率结果,右侧为 DeepSeek-R1 的逐位置准确率结果
发现二:
学习稳定性在不同任务和模型之间差异显著。 对于某些任务(如摘要),当前的模型更擅长利用其固有知识来解决问题,而不是依赖从先前问题中获得的经验。
图 3 左侧为连续正确解的平均数量(N_consec),右侧为首次正确解的平均位置(P_first)。结果以 OpenAI-o3-mini 为例展示,每个节点代表一个序列。
研究者通过分析 N_consec 指标来进一步研究 LLMs 的学习稳定性。图 2 左侧显示了 o3-mini 的结果。图中每个彩色节点代表数据集中的一个问题序列,节点位置越高表示模型在该序列中连续解答正确的问题越多。
结果表明,这一指标在不同任务之间差异明显,对于大多数模型来说,逻辑推理任务上更难连续做对题目。
在思维型模型与非思维型模型之间,这一指标的表现也存在显著差异。结果发现思维型模型相比非思维型模型通常具有更高的连续正确解答数。这说明思维型模型不仅更能从先前经验中受益提升表现,还能保持更高的稳定性,更有可能连续解答多个相关问题。
有趣的是,在摘要任务中,模型的 N_consec 值较高,但 Acc_pw-K 却明显下降,这表明其在序列后期的问题上表现反而不如前期问题。这意味着在此类任务中,连续解题能力可能更多依赖模型固有的知识和静态能力,而不是从序列中学习到的经验。
发现三:
学习能力为评估模型提供了一个独立于静态性能的新视角,揭示了其潜在的学习能力。
表 2 结果进一步表明,并行解题的高表现不代表学习能力优异。逻辑推理任务中,Claude-3。7-Sonnet-Thinking 的并行表现不及 DeepSeek-R1 与 Doubao-1。5-Thinking-Pro,但通过反馈学习范式大幅提升;o3-mini 则在两种设置下均表现最佳。再如数学推理任务,DeepSeek-R1 零样本表现优于 o3-mini,却未能从经验中有效学习,反而在反馈学习中性能下降。
值得注意的是,静态能力相近的模型可能学习能力迥异:Claude-3。7-Sonnet-Thinking 与 GPT-4o 在序列推理任务中零样本准确率均为 31。7%,但前者提升 14。5%,后者仅提升 0。5%;而在数学推理中,GPT-4o 的学习能力反超前者。这说明学习能力不仅因模型而异,也因任务而变。
这些发现表明,学习能力是评估模型的重要独立维度,与静态性能无关且具有任务差异性。研究者在问题三中进一步分析不同学习范式下的模型表现,为该结论提供了更多佐证。
研究问题二:
大语言模型在从一系列问题中
学习的效率如何?
图 4 所有模型和任务在反馈学习中拟合的逐位置准确率曲线斜率(k)结果
发现四:
不同模型和任务类型之间的学习效率存在显著差异。
总体而言,多数非思维型模型在经验积累中进步更快,思维型模型则表现出更稳定的收益。
图 2 右侧呈现了 DeepSeek-R1 的逐位准确率曲线,图 4 热图则汇总了这些曲线的斜率(k),直接反映模型学习效率。研究发现,多数非思维型模型的逐位准确率曲线斜率更陡峭,这可能与其起始性能较低、更易抓住 “低垂的果实” 有关。相比之下,思维型模型的学习过程更稳定。这表明思维型模型更擅长利用先前问题的信息(包括评判模型反馈),从而实现更高效的推理与更稳定的性能提升。
此外,多数模型在数学推理任务中展现正向学习效率,但在顺序推理任务上普遍出现性能下降,这说明即便在有明确解题路径与反馈的推理任务中,学习效率也会因任务特性产生显著差异,受多重因素影响。
因此,我们可以得出结论:模型的学习效率受静态能力、任务类型与推理方法共同影响:非思维型模型借助经验实现快速提升,思维型模型则以更稳定的方式持续进步。
研究问题三:
不同的学习方式
是否会带来性能差异?
发现五:
不同的解题方式会显著影响模型性能。
模型可通过示例学习积累经验,反馈学习则能进一步强化其学习能力。值得注意的是,学习能力与模型的静态能力并无强相关性。
图 5 呈现了模型在四种解题方法下的表现。研究者发现,对多数模型而言,示例学习的效果通常优于并行的少样本学习。以 Claude-3。7-Sonnet-Thinking 为例,其在五个任务中相较于少样本设置均实现持续提升。这背后的关键原因在于,示例学习让模型能够访问序列中所有先前问题及标准答案,进而从过往经验中有效学习。
图 5 四种求解方法的整体准确率对比,包括两种并行方法(即零样本和少样本)与两种序列方法(即示例学习和反馈学习)
此外,图 6、7、8 比较了模型采用反馈学习与示例学习两种学习范式后在热身后准确率(Acc_pw-K)和斜率 k 方面的差异。结果表明,对于大多数模型,反馈学习比示例学习能获得更高的平均总体准确率和更大的学习效率。
图 6 所有模型和任务中,反馈学习与示例学习的斜率差异(Δk)热图
图 7 反馈学习(上)和示范学习(下)的热身后准确率(Acc_pw-K)结果
值得注意的是,每个大模型在某些任务中都表现出较强的学习能力,但没有任何模型能在所有任务中始终实现稳定的学习提升。这些结果表明,每个模型都有其优势,学习能力与静态表现之间并不强相关。因此,学习能力和效率提供了一个评估模型表现的新视角,有助于理解当前模型与人类能力之间的差距。
发现六:
首个正确解答的位置平均值(P_first)在不同模型和任务之间存在差异,这一指标揭示了模型的学习潜力。
研究人员们还分析了首个正确解答的位置平均值 P_first,发现这一指标对于不同任务之间的模型表现差异很大。例如,在逻辑推理序列中,大多数模型都难以早期解出首个问题,只有 o3-mini 和 Doubao-1。5-Thinking-Pro 能持续取得早期成功。九个模型中有七个在有反馈的情况下,能更早解出问题。
这表明,与仅提供标准答案相比,反馈更能促进模型学习和掌握任务。例如,在逻辑推理任务中,o3-mini 有时在只使用示例学习时无法解出任何问题,但在使用反馈学习后,能在每个序列中至少解出一个问题。因此,P_first 能综合反映模型的静态能力、学习能力和学习速度,从而揭示其学习潜力。
结语
研究人员们提出了 EvaLearn,这是一个新颖的基准测试框架,用于在特定任务中对模型的学习能力和效率进行序列化评估。
EvaLearn 配备了一套全面的评估指标,揭示了在多种任务中,包括依赖思维过程和不依赖思维过程的任务,前沿模型之间显著的性能差异,这些指标从多个角度全面评估了模型的学习表现。EvaLearn 提供了更现实、动态的评估方式,帮助研究人员更好地理解模型与人类之间的差距,推动更强大模型的发展。
此外,研究者发现,尽管某些模型能够有效利用教师模型对先前解答的反馈来提升学习效果,但另一些模型却难以从这类反馈中获益。EvaLearn 为评估大型语言模型的潜力提供了新的视角,是迈向动态评估的重要开创性一步。
#从WAIC上爆火的功夫机器人
看到这家央企的xx智能「真功夫」
还记得那个会「功夫」的机器人吗?
今年 4 月份,一个名叫「功夫 boy」的机器人火出了圈,它的一招一式颇有练家子的味道。有意思的是,眼尖的观众还从中发现了马保国独创的「闪电五连鞭」。打那时起,我们就一直盼着能见到这款机器人。
,赞1101
没想到,在 3 个月后的 WAIC 上,这个愿望实现了。现场的「功夫 boy」已经进行了全新升级,能够完成「分钟级」的武术表演,吸引了很多人围观。
更有趣的是,我们在论坛上还看到了另一个场景:这款功夫机器人与文生视频的人物同步演示武术动作,勾勒出从一幅人工智能从虚拟存在走向物理世界的完整图景。
,时长00:48
回到展区,我们发现它还不是「一个人」来的,旁边还有它的「兄弟姐妹」—— 一个个头稍小、长相更可爱的机器人(TeleBot M1)和一个能让机器人远程控制做出各种动作的遥操作系统。
在技术上,这些机器人很有代表性。
「功夫 boy」能做出那些高难度动作,而且在保持速度的同时又不失平衡,证明它的「小脑」非常发达,足以精确控制身体的每一个环节,即使在机器人扎堆的 WAIC 现场,这种程度的控制也不多见。
小尺寸机器人则更考验硬件研发能力,因为从外形上看,这显然不是从宇树等硬件厂商采购的标准本体。
遥操作系统学名叫「远程全身遥操作系统 TeleHumos」,通常在参观机器人数据生产车间的时候能见到。这个系统做得好不好直接关系到机器人智能水平的迭代速度,毕竟众所周知,大部分xx智能厂商都卡在数据上。但从「驾驶舱」的豪华配置来看(上肢双臂外骨骼,下肢全向行走平台,天翼 5G 公里级通信,还带力觉反馈),这应该不止用于数据采集,有望使机器人在危险的场景中作业,而人类只需要在舒适的地方远程遥操。
,时长00:12
来逛展之前,我们对这些机器人背后的机构 ——中国电信人工智能研究院(TeleAI)有所了解,知道他们由中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授带领,在大小脑的研发上是走在前面的。但完整看下来之后,不得不感叹一句:不愧是央企,技术栈还是太全面了。
再一想,其实他们的王牌优势 ——「通信」还没有在现场完整展示,很容易被逛展的人忽略。但作为从「单机智能」迈向「群体智慧」的神经系统,通信的重要性在未来不言而喻。
说实话,单看这几个展台,就能感受到这家央企在机器人上的野心不小。那么问题来了,他们到底想做什么?深挖之后,我们发现了答案。
TeleAI—— xx智能赛道的「全能选手」
首先上结论:和很多聚焦于单个技术方向的xx智能公司不同,TeleAI 确实有全栈自研的打算,并且已经做得非常不错了。
他们做出这个选择也不难理解。从整个行业的发展轨迹来看,虚拟和现实正结合得愈发紧密。之前做大模型的公司很多都不再甘心只困在屏幕后面,而是想要一个「身体」。这一方面是为了产生更大影响,另一方面也是智能进阶的新突破口。与此同时,做机器人的厂商很多也不再甘心只是做硬件,而是想要给自己的机器人配上大小脑,毕竟谁也不想永远当代工厂,光有躯壳没有灵魂的机器人在市场上也很难有差异化竞争力。这样一来,双方都在向对方的领域渗透,全栈技术几乎成了实力玩家的理想选择。
更关键的是,真正复杂的应用场景下,各个技术模块必须深度协同才能发挥作用,简单的技术拼凑很难应对火场救援、精密操作这些高难度任务。
而且,作为一家央企,TeleAI 本就承担着抢占科技制高点、提升国有企业国际竞争力、推动国有企业产业升级的重任,因此全栈自研对于别人来说是「选择题」,对于他们来说却是「必答题」。而只有把必答题都做好,央企才算真正兑现了国家赋予他们的时代使命。
硬件、软件、数据……
TeleAI 展开了全方位的技术探索
那 TeleAI 在这些必答题上答得怎么样了呢?从公开资料和 WAIC 现场的介绍中,我们发现了很多「亮点」。这些亮点不止增强了 TeleAI 的竞争力,还为整个xx智能行业贡献了新的思路。
自研、不受限的硬件
现在做机器人的公司很多,但真正自研硬件的并不多,大部分都是从宇树、波士顿动力这些厂商采购标准本体,然后在上面跑自己的算法。这种做法当然有好处,省时省力,能快速出 demo。但问题是,你永远受限于别人硬件的能力上限,想要的功能实现不了,算法再优秀也白搭。
TeleAI 显然不想走这条路。从现场展示的情况来看,他们在硬件上下的功夫一点也不比软件少。
如我们所料,展区的小机器人确实不是采购的标准本体,而是从算法到硬件都走了自研路线。从现场来看,它能稳稳地站立和行走,因为内部搭载了自研的多电机协同驱动控制嵌入式硬件系统和运动控制算法。不仅如此,它的上肢还支持个性化定制。对于研发人员来说,这应该是一次非常难得的体验,因为你想要什么功能就能直接在硬件层面实现,而不用迁就别人的设计思路。更重要的是,这些在小尺寸机器人上积累的经验可以很自然地扩展到 TeleAI 即将推出的全尺寸人形机器人上。
为了让全尺寸机器人更加灵活,TeleAI 还自研了一个关键部件 —— 六自由度并联腰部关节。这个听起来很技术的名字背后,其实解决的是一个很实际的问题:怎么让机器人在颠簸的路面上也能平稳行走,同时还能完成需要上肢配合的精细任务,比如端一杯水而不洒出来。他们的方案是在腰部设计一个具有三自由度转动和三自由度移动的全向防摇隔震结构,有效降低上下肢之间的相互干扰,保证行走和操作的误差隔离。
除了机器人本体,TeleAI 在现场展示的全身遥操作硬件平台也很有技术含量。说到遥操作,它的核心是将操作者的动作同步传递给远端设备。它既能给真实场景部署机器人提供安全底线,又能在此过程中收集真实世界的数据。这其实是通往自主操作路上一个非常重要的中间步骤,就像自动驾驶场景中的「安全员」。如果遥操作系统足够完善,自主操作所需的数据飞轮就能很快建立起来。
但现实是,大多数遥操作系统还做不到真正的「遥」。受限于通信基础设施,它们基本只能在室内近距离操作,这就大大限制了应用场景。TeleAI 的创新在于利用自家的 5G 专网和智传网(将 AI 与通信融合起来的一项基础设施)技术,把遥操作的工作范围扩展到了公里级。这意味着什么?在火场、没有氧气的机房这些危险环境中,机器人可以作为人类的「替身」去完成任务,而操作员可以在安全距离之外进行控制。此外,它还能帮忙收集一些实验室很难收集到的负样本。
,时长03:00
从硬件层面来看,TeleAI 的思路很清晰:与其像大多数公司那样采购标准本体然后跑自己的算法,不如从底层开始自研。这种做法的价值不仅仅是为了差异化,更重要的是能为国内机器人硬件行业带来新的技术思路。软硬件一体化往往能通过双方的相互迭代和配合,催生意想不到的创新。
大小脑协同的软件架构
如果说硬件是机器人的「躯壳」,那么大脑和小脑就是它的「灵魂」。不过在软件这块,行业面临的挑战和硬件端又不太一样。
先说大脑。现在做机器人大脑的公司都有一个共同的痛点 —— 数据。训练一个聪明的机器人大脑需要海量的操作数据,但问题是,大家都在用自家的机器人采集数据,结果就是数据和特定硬件强绑定了。用 A 家灵巧手采集的数据,训练出的模型很难直接用在 B 家的夹爪上;即使都是做抓取,不同的机器人本体之间也很难共享数据。这就造成了一个尴尬的局面:虽然整个行业的数据总量看起来不少,但分散到每个具体的机器人平台上,又变得很稀缺了。
这种数据孤岛不仅限制了单个公司的发展速度,更阻碍了通用操作模型的进步。毕竟,如果每家公司都只能用自己那点数据训练模型,那距离真正智能的机器人大脑还有很长的路要走。
TeleAI 显然意识到了这个问题,他们的解决思路是:通过跨本体 VLA 大模型,在统一的隐空间内,对齐不同机器人本体的动作空间。简单来说,不管你的机器人有 20 个自由度,还是只有 7 个,这个模型都能找到一种通用的「语言」来描述它们的动作。
基于这种对齐,模型在训练时就能利用所有不同来源的数据,而不再局限于特定硬件。这样带来的效果是显著的:当需要将模型部署到一个新的机器人平台时,仅需要极少量的样本数据进行微调,就能实现高效的泛化。以下视频中「分钟级」厨房长序列操作任务的执行就是这种泛化性的直观体现。
,时长02:04
再来说小脑。小脑的问题非常直观 —— 很多机器人压根站不稳,更别说做复杂动作了。
你可能还记得机器人马拉松上那些「花式摔倒」的名场面,很多都是小脑出了问题。现在市面上的机器人,要么只会单一的走路步态,遇到不平的地面就懵了;要么虽然能做一些炫酷动作,但稳定性堪忧,动不动就失去平衡。更关键的是,很多机器人的运动控制还停留在预设轨迹的层面,缺乏对环境的感知和自适应能力。
这种状况的根本原因在于,很多团队把小脑当成了一个单纯的控制问题来解决,用传统的控制算法让机器人「按部就班」地执行动作。但真实环境远比实验室复杂,地面有高低起伏,还可能有各种突发状况,这时候僵化的控制策略就暴露出了局限性。
TeleAI 在小脑这块的思路是:既然真实环境这么复杂,那就让机器人学会更多种步态,然后根据实际情况灵活切换。他们开发的统一多步态混合专家模型让机器人掌握了走、跑、跳、蹲、爬等超过 10 种步态能力,更重要的是,机器人能利用视觉传感器感知地形,然后从这个「步态库」中自主选择最合适的方式来应对不同的地面条件。
,时长00:59
但 TeleAI 的野心显然不止于此。他们还向武术、舞蹈这些高难度仿人运动发起了挑战,构建了高动态xx小脑。这块的技术难度要比普通的行走控制高出不少,因为武术动作不仅要求精确,还要保持连贯性和稳定性。
他们的解决方案有两个核心创新:一是通过物理约束驱动的动作预处理,确保从视频中提取的动作对机器人来说是物理可行且稳定的;二是采用了一种动态调整精度的自适应跟踪机制,让机器人先学习长段动作的基本轨迹,再逐步提高模仿的精度。这种由粗到精的学习方式,既保证了训练的稳定性,又确保了最终动作的质量。
正是通过这些技术,TeleAI 成功让机器人实现了分钟级的长序列武术表演,动作兼具稳定性和表现力。同时,他们还开源了这项研究的代码,为整个行业贡献了高效的小脑方案。
TeleAI 的高动态仿人运动相关研究 ——KungfuBot。开源地址:https://github/TeleHuman/PBHC
TeleAI 近期将这项工作进行了升级,首先支持了文生视频接口,由星辰大模型生成人类复杂动作视频,随后由机器人模仿人类行为,实现文生视频人物和机器人高度同步;其次扩展了武术动作的长度,首次实现人形机器人「分钟级」武术动作复刻。
,时长01:15
当然,有了聪明的大脑和灵活的小脑还不够,关键是要让它们能够有效协同。我们发现,TeleAI 在大小脑协同方向也做了一些工作,比如能让机器人在摇晃的公交车上刷卡的全身协同系统 ——ALMI。他们还同步开源了超 80000 条高质量全身协同数据,在算法和数据方面都为行业做出了贡献。开源地址:https://github/TeleHuman/ALMI-Open
高效、贴近现实的xx智能数据平台
说完大脑小脑,还有一个更根本的问题需要解决 —— 数据,各种数据。这可能是整个xx智能行业最头疼的问题之一。
和做大模型的公司不同,机器人公司没法直接从互联网上「薅」数据。你想让机器人学会抓杯子,就得真的找个机器人去抓成千上万次。
很多公司想到了用仿真来解决这个问题,在虚拟环境中让机器人「练习」千万次,然后再迁移到现实中。但仿真环境再逼真,和真实世界还是有差距的。这个 Sim2Real Gap 几乎是每个做机器人的公司都会遇到的拦路虎。
更麻烦的是,即使解决了仿真问题,生成数据的效率也是个大问题。很多公司的仿真平台还停留在手工搭建场景、手动设计任务的阶段,这种方式根本无法满足大规模训练的数据需求。
在这个问题上,TeleAI 的思路很有参考价值,那就是让仿真环境尽可能贴近现实,同时用 AI 来自动化生成数据。
具体来说,他们在自己的数据平台上构建了一个逼真的虚拟世界。平台引入了真实世界的扫描资产,并通过 3D 高速点云技术,在重建场景时保留丰富的几何与语义信息。针对铰链物体等复杂资产,平台会进行物理属性的推理和重建,以满足物理稳定性和适应性的要求。
在搭建好虚拟场景后,一个由大模型驱动的「数据采集智能体」便开始在其中高效地工作。这个智能体可以自动化地执行一系列任务,包括生成多样化的操作任务、推理物体的功能、生成空间约束并自动规划生成机器人的运动轨迹。
开源地址:https://github/TeleHuman/HumanoidGen
为了让仿真数据能够更好地指导现实,平台还引入了「世界模型」作为核心驱动。世界模型本质上是一个可学习的环境模拟器,它能让智能体在其中理解环境动态、预测未来状态,甚至生成想象中的交互轨迹,从而摆脱对真实环境数据的依赖。
TeleAI 团队提出的两阶段双臂轨迹预测流程,通过微调文本到视频模型来预测机器人轨迹,并利用扩散策略生成动作,以应对通用性和数据稀缺性的挑战。
这个虚实结合的数据平台大大加快了 TeleAI 的研发进度,前面提到的小尺寸机器人的导航能力就是依靠该平台合成的数据训练出来的。
而且,这个数据平台其实也体现了 TeleAI 全栈技术思路的一致性。无论是前面提到的硬件自研,还是大脑小脑的协同设计,背后都有一个共同的逻辑 —— 掌握核心环节的主动权。数据作为 AI 的「燃料」,自然也不能例外。当别人还在为数据稀缺发愁时,他们已经能够自动化、规模化地生产高质量训练数据了。
从单机到协作
TeleAI 的机器人不是「孤岛」
有了这些技术积累,一个新的问题浮出水面:机器人要真正走向实用,光靠单机智能够吗?
想象一下这样的场景:机器人需要进入火场救援,或者在核辐射环境中执行任务。这些地方人类无法直接进入,但任务又极其复杂,需要机器人具备强大的感知、决策和操作能力。问题来了 —— 前面提到的那些先进技术,无论是跨本体 VLA 大模型还是高动态xx小脑,都需要强大的算力支撑。但机器人作为端侧设备,不可能背着一台服务器到处跑。
更现实的挑战是,这些复杂环境下的任务往往变化多端,单靠事先训练好的模型很难应对所有突发情况。你需要云端的大模型实时分析情况、制定策略,然后传回给机器人执行。但这就涉及到网络传输问题了 —— 高清视频、各种传感器数据需要实时上传,控制指令需要毫秒级下发,任何延迟都可能导致任务失败甚至安全事故。
从这个角度来看,前面讲的那些技术 —— 无论大脑小脑多聪明、硬件多先进 —— 如果被困在单机模式下,能发挥的作用始终有限。真正的突破在于让机器人不再是一个「孤岛」,而是整个智能网络中的一个节点。
正是基于这样的思考,TeleAI 在机器人技术之外,还在同步布局和研究一个很重要的方向——智传网(AI Flow)。简单来说,这是一套专门为 AI 应用设计的网络架构,能够让智能能力在「端、边、云」之间像数据一样自由流动。
对机器人而言,这意味着什么?复杂的推理任务可以交给云端的大模型处理,实时性要求高的控制任务可能在边缘侧完成,而机器人本体只需要专注于执行层面的工作。更关键的是,基于 5G 专网的通信能力,整个过程的延迟可以控制到极低,完全满足实时操控的需求。
这就是为什么 TeleAI 能够实现公里级的遥操作 —— 他们背后有一张能够支撑实时智能传输的网络。
这种端边云协同不仅解决了算力分配问题,还带来了意想不到的好处。比如,多个机器人可以共享同一个云端「大脑」的计算资源,一个机器人遇到的新情况可以快速共享给其他机器人学习。原本相互独立的机器人个体,变成了一个能够协同作战的智能网络。
从技术发展的角度来看,这种思路其实很符合当下 AI 领域的整体趋势 —— 从单点突破走向系统协同。TeleAI 的智传网技术,本质上是为xx智能提供了一个更大的「舞台」,让机器人的智能上限不再受制于本体的物理限制。这种将 AI、xx智能与通信网络深度融合的能力是他们的独特优势。
央企进军xx智能的「另一种打法」
当我们再次看到「功夫 boy」行云流水般的武术表演时,或许应该透过现象看本质。这不仅仅是一场技术秀,更是中国xx智能产业厚积薄发的一个缩影。
从实验室的算法研究,到硬件平台的自主研发,再到数据、算力、通信等基础设施的协同,TeleAI 正在证明一件事:xx智能的未来,不在于单打独斗的技术突破,而在于生态级的协同创新。因此,虽然他们选择的技术路径投入更大、周期更长,但一旦形成闭环,便能积蓄起无与伦比的长期发展动能。
在整个xx智能行业中,TeleAI 也是最适合走这条长期路线的团队,因为中国电信本身有很多现成的场景,需要借助xx智能去实现无人化、自动化,例如算力中心的自动化巡检、运维、部件更换、清洁等。所以只要把能力搭建起来,TeleAI 的机器人就有很多场景可以去部署。
长期来看,作为央企旗下的实验室,TeleAI 全栈自研能力的提升也是国内xx智能行业自主能力的保障 —— 他们在关键节点提供可控备份,并向产业链持续输送可复用的技术模块。
这种深度整合的发展路径,或许正是中国在全球xx智能竞赛中最大的差异化优势。当技术能力与应用场景、基础设施形成有机统一时,真正的产业变革才会到来。
#让Qwen3-0.6B拥有视觉
保姆级教程来了!
最近Huggingface团队发布了超小多模态模型SmolVLM2,可以做到端侧1GB显存推理。在怀着惊喜试用后发现,虽然模型有极其强大的视觉文本理解能力,但是模型却无法理解中文,这对中文技术社区并不是非常友好。
刚好前段时间做SwanLab硬件检测适配时有一台未到期的沐曦曦云C500服务器,因此萌生了把当前中文小模型扛把子Qwen3与SmolVLM2直接微调拼接的想法。
本教程将介绍一种模型拼接的思路,将SmolVLM2的视觉模块(0.09B)与Qwen3最小的模型(0.6B)进行对齐微调,最终使得Qwen模型具备一定的视觉理解能力。
- GitHub:https://github/ShaohonChen/Qwen3-SmVL
- SwanLab:https://swanlab/@ShaohonChen/Qwen3-SmVL/overview
⚠️关于算力的注意:本教程涉及VLM微调训练,对算力要求较高,需要40G及以上的GPU显存才能运行本教程的训练代码。
1. SmolVLM2的背景知识
首先,我们先回顾一下SmolVLM2模型的构建方案,SmolVLM2模型的整体包括三大块:视觉模型层,特征映射层和大语言模型层,见下图:
SmolVLM2的架构图
这个设计是现在比较常见的VLM方案。这个设计是现在比较常见的VLM方案。核心设计思想就是让视觉模型的输出特征与经过embedding的文本特征直接拼接后输入到语言模型(LLM)当中,没有交叉注意力等模块。
相比于早期LLaVA等架构,这种最大的优点就是可以最大程度复用已有的语言模型。以Qwen2.5-VL为例,其3B、7B、72B模型大小指的只是LLM部分,并没有包含Vision模块,实际上3B模型的参数量接近4B,视觉模块大概0.4B左右,三个不同大小的VLM使用的是统一的视觉模型。
对于一些较大的VLM来说,构建视觉模型时绝大多数的训练都集中在特征映射模块和视觉模块,只在最后阶段为了最终效果进行整体微调时才会调整语言模块。保证了VLM的语言能力。
下面简述一下各个模块的细节:
- 视觉模型层:SmolVLM2-256M版本用的是Google的SigLip模型,一个基于ViT的视觉模型,选用的是最小的SigLip-93M的版本,HF论文里没具体写是直接用的SigLip的参数还是他们从零构建的(有注意到的读者可以评论留言下)。在SmolVLM2代码中对应的是
SmolVLMVisionTransformer
类 - 特征映射层:就是一个简单的MLP,不过SmolVLM2中为了降低图像分辨率还做了一个Pixel shuffle来降低图像分辨率,进一步减少视觉的Token占用,减少了文本长度。HF团队在论文里提到对于参数量较小的VLM来说使用Pixel shuffle还能提升性能。但可训练参数其实就是一个单层的神经网络,这个模块的核心作用就是做特征对齐,将视觉特征从768维(SigLip的维度)映射到576维(SmolLLM2的维度)
- 大语言模型:SmolVLM2-256M模型使用的文本模型是SmolLM-135M版本。可能是由于模型较小,HF团队在论文中说到训练时仅采用两阶段训练:大规模图文训练+针对视频任务的专门微调。为了保障模型的文本能力HF团队在训练数据中参杂了大概14%的纯文本微调数据。不过考虑到视觉模块本身参数量(93M)大小接近于文本模型(135M),因此笔者推测相比于冻结文本模型,数据平衡在这之中会起到更关键的作用。
HF团队在原文中还提到了许多影像小模型VLM性能的trick,感兴趣的读者可以进一步参考SmolVLM2的论文
2. 模型拼接和微调思路简介
正所谓顶级食材(模型)只需要最简单的烹饪。模型拼接的思路非常简单直接,基本就三步:
- 调整SmolVLM2的“上下文控制格式”,使得其与Qwen3兼容。
- 将模型的文本部分直接从SmolLM2换成Qwen3-0.6B,包括其文本tokenizer和词嵌入、文本模型、以及模型最后输出的语言模型头(LM Head)。
- 需要重新初始化特征映射层的MLP,从768->576的单层神经网络改成768->1024的单层神经网络即可。
整体架构和对图文对前后处理依旧保持SmolVLM2的流程不变,具体改动见下图:
将Qwen3-0.6B替换SmolVLM2的语言模型部分
笔者接下来详细介绍下为了实现“拼接”,具体改动的地方,供之后有类似的任务的读者参考。
3. 模型拼接实现和关键代码讲解
第一处改动:SmolVLM2的Tokenizers部分
首先需要改动的就是需要改动的是SmolVLM2的Tokenizers部分,这里面主要是涉及两个问题:
- 第一个问题是要将SmolVLM2用于指示图像位置的特殊令牌(Special Token)加入到Qwen3的Tokenizer当中,这么做的目的是防止SmolVLM2的图像Token
<image>
被切分为<
、image
、>
三块。幸运的是,Qwen3本身在Tokenizers中预留了未来用于多模态的特殊特殊令牌<|image_pad|>
。因此读者直接使用了<|image_pad|>
代替了<image>
。用于在文本中预留图像特征的插入点。 - 第二个问题是:SmolVLM2的chat_template和Qwen3的chat_template差别极大。chat_template的作用是通过格式化文本让模型清楚知道不同Token所代表的背景信息。用最近比较流行的话来说就是“上下文工程”(Context Engineering)。
这里我列举了一下Qwen3、SmolVLM2、Qwen2.5-VL在聊天场景下的上下文,供读者参考。
Qwen3聊天上下文格式
以给一张图片,问题是“你的名字是什么?”,模型回答是“我的名字是Qwen”为例子。模型的上下文如下:
<|im_start|>user
你的名字是什么?<|im_end|>
<|im_start|>assistant
<think>
</think>
我的名字是Qwen<|im_end|>
注意Qwen3上下文是没有预留图像位置的,但相比于一般的LLM和VLM多了一个用于插入模型思考过程的<think><think>
,以及包含额外的函数调用控制文本。为了便于读者理解,读者在在下面举了一个函数调用的例子。这些函数调用上下文用于控制模型调用外部函数、API或者MCP接口和接收其返回的信息。
考虑到篇幅限制,本文就不粘贴带函数调用、推理、思考等一系列上下文的信息了(笔者打印了下发现实在太长了)。感兴趣的读者可以在Qwen3的官方文处了解详细设计
- Qwen3函数调用案例:https://qwen.readthedocs.io/zh-cn/latest/framework/function_call.html#the-example-case
可以说正是这些复杂的上下文信息让模型有可能实现推理、调用函数等多样化的能力。包括多模态理解任务也需要先对上下文进行设计。
SmdwadwdoVLM2聊天上下文格式:
以给一张图片,问题是“How many dog in there.”,模型回答是“There are Three dogs.”为例子。三种不同模型的上下文如下:
<|im_start|>User:<fake_token_around_image><row_1_col_1><image>...<image><fake_token_around_image><row_1_col_2><image>...<image><fake_token_around_image><row_1_col_3><image>...<image>...<fake_token_around_image><row_4_col_4><image>...<image>
<fake_token_around_image><global-img><image>...<image><fake_token_around_image>How many dog in there.<end_of_utterance>
Assistant: There are Three dogs.<end_of_utterance>
Assistant:
看起来非常乱,是因为有大量的<image>
占位符。<image>...<image>
之间是许多的<image>
,笔者为了文章观感删掉了大量的占位符。注意模型的回车、空格均为上下文的一部分,在进行推理时需要严格遵守缩进关系。
但是我们仍能找到熟悉的内容,如User:
,Assistant:
等用于提示模型用户的输入与模型应当输出的位置。这些关键词和Qwen类似。
读者注意到了除了<fake_token_around_image>
,<image>
等用于指示图像的词,还出现了<row_1_col_1>这种位置指示符,这是因为SmolVLM2为了防止降采样对图像分辨率影响,专门使用了image splitting
技术,简单来说就是将全局图和高清的局部图共同输入到模型当中(见下图image splitting
模块),感兴趣的读者可在文末找到HF的技术报告了解详细技术。
SmolVLM2的完整推理流程,可以看到在图像输入前使用image splitting
进行了预切分
本博文的拼接模型Qwen3-SmVL模型
相比于Qwen3,SmolVLM2少了很多上下控制的
为了尽可能保存或者说预留Qwen3的思考、函数调用等能力,笔者最终选择将SmolVLM2对于图像特征的排列插入到Qwen3的上下文格式当中。最终上下文格式如下:
<|im_start|>user
<vision_start><row_1_col_1><|image_pad|>(图像插入的地方)<|image_pad|><vision_start>
(用户提问的地方)
<|im_end|>
<|im_start|>assistant
<think>
</think>
(模型回答的地方)<|im_end|>
<|endoftext|>
可以看到读者尽量保持了与Qwen3的风格和复用特殊令牌。这样能够使得后续拼接的Qwen3-0.6B模型不至于受到上下文差异过大带来的性能损耗。实际上在设计微调上下文时应尽量与模型先前训练的任务接近,以减少微调带来的性能损失。
transformers实现模型上下文格式控制的代码并非python语言,而是一种前端文本格式控制的语言Jinja。这个语言的变量作用域设计简直可以说是有魔法在里面。配合上Qwen3功能丰富且复杂的上下文策略,让笔者花了2个小时用于修改chat_teamplate。这里笔者不赘述如何修改chat_template,感兴趣的读者可以去文末代码链接寻找chat_template.jinja
文件,笔者专门将chat_template模版拿出来,并且做了格式化方便读者阅读。未来有时间了笔者专门写一篇模型上下文控制与jinja语言的博客。
第二处改动:替换SmolVLM2的SmolLM2模型为Qwen3-0.6B
替换模型这块没什么复杂的,主要是需要处理Transformers比较复杂的嵌套逻辑。Tranformers通常建议模型将预训练模型backbone和下游任务分开来。改动逻辑图如下:
替换smolvlm2的文本模块和语言模型头
以Qwen3为例,预训练Backbone模型为Qwen3Model,仅仅包含embedding层、各个Decoder层,最后输出的是所有输入token的hidden state。负责下游任务的Qwen3提供了包括:用于因果语言序列生成的Qwen3ForCausalLM,也就是大家常用的语言生成。
负责句子分类的Qwen3ForSequenceClassification,使用最后一个生成的token输入到一个单层MLP做序列级分类,做句子情绪分类等可以用这个下游模型;Qwen3ForTokenClassification用于做Token级分类,比如语言实体抽取任务可以使用这个下游模型。
Qwen3ForQuestionAnswering则是专门做抽取式问答任务的模型,核心思想是输入(问题,参考文本)让模型从参考文本中找到与问题最相关的一段,这类任务由于RAG系统的出现没那么流行了,未来笔者专门出一个系列的教程阐述除了因果语言序列生成以外的任务则怎么微调。
关键代码如下
from transformers import (
AutoProcessor,
AutoModelForImageTextToText,
AutoTokenizer,
AutoModelForCausalLM
)
# 替换text模型和head
smolvlm2_02B_model = AutoModelForImageTextToText.from_pretrained(
"model/SmolVLM2-256M-Video-Instruct",
torch_dtype=torch.bfloat16,
_attn_implementatinotallow="eager",
).to(device)
qwen3_06b_model = AutoModelForCausalLM.from_pretrained(
"model/Qwen3-0.6B", torch_dtype=torch.bfloat16
).to(device)
smolvlm2_02B_model.model.text_model = qwen3_06b_model.model
smolvlm2_02B_model.lm_head = qwen3_06b_model.lm_head
...
接下来比较复杂的是替换所有的关键变量,比如模型内用于在文本序列中为图像特征预留的占位符image_token_id
,用于指示停止生成的eos_token_id
,和计算loss值会用到的vocab_size
,Qwen的词表大小为151936,远远大过SmolVLM2的词表49280。具体代码如下:
...
# 替换词表大小
smolvlm2_02B_model.vocab_size = qwen3_06b_model.vocab_size
smolvlm2_02B_model.model.vocab_size = qwen3_06b_model.vocab_size
smolvlm2_02B_model.config.vocab_size = qwen3_06b_model.vocab_size
smolvlm2_02B_model.config.text_config.vocab_size = qwen3_06b_model.vocab_size
smolvlm2_02B_model.model.config.vocab_siz = qwen3_06b_model.vocab_size
smolvlm2_02B_model.model.config.text_config.vocab_size = qwen3_06b_model.vocab_size
# 替换图像token
smolvlm2_02B_model.image_token_id = 151655
smolvlm2_02B_model.model.image_token_id = 151655
smolvlm2_02B_model.config.image_token_id = 151655
smolvlm2_02B_model.model.config.image_token_id = 151655
# 替换模型生成停止符
smolvlm2_02B_model.generation_config.eos_token_id = 151645
···
上面的代码可以看到在替换各个变量时需要将嵌套模型的变量一起替换掉,笔者之前训练时就因为仅仅替换了SmolVLMForConditionalGeneration
而忘记替换SmolVLMModel
中的image_token_id
,导致语言模型接收不到图像特征,最后表现出来就是loss下降的极快且低,grad_norm看起来也学到位了,一推理效果特别差,附上错误训练的损失图:
SwanLab记录训练结果展示:蓝色为错误训练的完整微调loss图,可以看到损失下降很快,然而实际推理会发现模型并没有图像理解能力。冻结语言模型头(红色)后发现grad_norm为零且loss不收敛,正确的应该是黄色
笔者最早没发现改动错误,先做完整微调(蓝色曲线)后发现损失下降很快达到了0.1以下,结果实际一推理发现模型完全没有图像理解能力,就补了一个冻结语言模型只微调视觉模型的实验(红色曲线),结果发现损失完全没下降,才定位到了视觉特征传入有问题。后续修复后正确的损失下降过程见黄色图像。
第三处改动:构建和替换特征映射层
这个相对较简单,只需要重新构建一个维度对齐的SmolVLMConnector
即可。Qwen3的hidden_dim是1024,SigLip的hidden_dim是768,因此构建一个768➡️1024映射的SmolVLMConnector
即可。代码如下:
···
# 构建配置并且创建连接器
@dataclass
class VisionConfig:
hidden_size: int = 768
@dataclass
class TextConfig:
hidden_size: int = 1024
@dataclass
class ConnectConfig:
scale_factor: int = 4
vision_config: VisionConfig = VisionConfig()
text_config: TextConfig = TextConfig()
new_connector_config = ConnectConfig()
# 替换 SigLit 到 LLM 的 connector 层
new_connector = SmolVLMConnector(new_connector_config).to(device).to(torch.bfloat16)
smolvlm2_02B_model.model.connector = new_connector
···
4. 微调数据集构建
笔者最初计划寻找中文多模态数据集,但发现相关的资料比较少。因此决定先用英文的多模态数据集凑合一下。之后再考虑通过数据合成的方式将部分数据翻译为中文。关于数据合成和配比的问题将在之后的博客讨论。
the_cauldron数据集logo
这里为了方便本项目直接使用HuggingFace团队整合的多模态数据集the Cauldron数据集,Cauldron翻译成中文类似于煮东西的“釜”,不知道HF团队是不是玩“炼丹”的梗。这个数据集整合了50个视觉微调任务数据集的训练集,用于微调Huggingface发布的多模态模型Idefics2模型。这50多个数据集都被处理成了一致的格式(见下图),共有1,880,992条数据,完整下载约169G,非常方便使用。
数据集样本展示
不过可惜数据集的文本都是英文内容,且绝大多数数据集的回复非常短,只有一个词,这也给后面模型训练带来了麻烦。本篇博客暂时不讨论关于数据构建和配比的问题,后续有时间了专门做相关的实验。本博客先以为Qwen3模型带来视觉能力为核心目标。
数据集的下载链接如下,国内推荐用modelscope下载:
- HuggingFace Hub:
https://huggingface.co/datasets/HuggingFaceM4/the_cauldron - ModelScope:
https://modelscope/datasets/AI-ModelScope/the_cauldron
笔者在实际测试时发现“mimic_cgd”, “localized_narratives”, “okvqa”, “ocrvqa”, “clevr_math” 这几个子数据集加载有点异常,建议使用此数据集训练的读者手动处理下,社区也有用户反馈这几个数据可以在原始来源处额外下载,未来笔者将会补全这几个数据集重新上传一次完整版的the Cauldron数据集。
5. 微调方法与代码实现
冻结模型参数微调
整体微调方法采用了CLM模型通常的Teacher Forcing的学习方法,损失就是标准的交叉熵损失。考虑到此次本教程的目标是先确保模型具备中文多模态能力(优化模型性能等之后撰写其他博客),因此为了实验效率,在对齐微调阶段采用冻结视觉模型与文本模型,仅微调特征映射器和语言模型头的方法。
冻结模型参数的核心代码如下:
def freeze_model(qwen_smvl):
for _, param in qwen_smvl.model.text_model.named_parameters():
param.requires_grad = False
for _, param in qwen_smvl.model.vision_model.named_parameters():
param.requires_grad = False
return qwen_smvl
冻结后训练参数、模型总参数、与占比如下:
trainable params: 12.00M || all params: 662.87M || trainable%: 1.81
文本长度,损失掩码和截断策略
文本长度
由于视觉特征需要占据大量的文本长度,笔者简单测试了下the_cauldron图像占0.8K到1.3K左右的token。而数据集中大多数文本token数在200-500左右,极少情况会有3-4K的情况。因此笔者统一采用2K的文本长度,超出部分截断处理。
这里有一个不同于文本微调的细节要注意,文本截断长度不能小于图像token,否则会导致模型在进行特征拼接时报错(当然图像特征如果被截断了,这条训练数据也就没意义了)。因此对于显存不足64G的同学如果需要适当缩短文本长度(不建议低于1.5K),最好连同图像分辨率也缩小些。在后面的博客我们会专门增加对减少图片token占用的研究。
同样由于文本长度受限,且图像特征没法截断,我们也没使用“packing dataset”的方法提升模型的训练效率。
考虑到部分数据集存在多张图片的情况,考虑到本次训练仅采用2k的文本长度(与之对比HF在训练SmolVLM-256M版本采用的是8K的文本长度,2.2B版使用了16K的文本长度)。针对单条数据中存在多张图片的情况仅仅选用第一张。
损失掩码
在采用Teacher Forcing的学习方法时,文本微调中损失掩码有两种策略:
- 对包含“用户问题”和“模型回复”的完整文本进行微调优化
- 仅对“模型回复”部分进行微调优化
这两种策略的对比如下图:
两种微调掩码策略的差异,通常建议选择“仅微调模型回答部分”以增强泛化性
通常来说使用“仅微调模型回复部分”的策略模型更容易泛化(这点与HF在SmolVLM2的论文提到的trick)。然而笔者为了提高训练效率选择了完整文本微调。可以在后续博客中增加消融实验做进一步对比。
值得注意的是,在进行完整文本微调时,需要单独屏蔽Image Token以防止对图像占位token计算损失,影响模型表现。
关键代码如下:
def data_collate_fix2k(examples, processor, device, max_length=2048):
batch_text = []
batch_image = []
for example in examples:
images = example["images"][:1] # 只允许一张图,不然显存压力太大
batch_image.append(images)
image_num = len(images)
chat_texts = example["texts"][0]
messages = [
{
"role": "user",
"content": [{"type": "image"}] * image_num
+ [{"type": "text", "text": chat_texts["user"]}],
},
{
"role": "assistant",
"content": [{"type": "text", "text": chat_texts["assistant"]}],
},
]
text = processor.apply_chat_template(
messages, enable_thinking=False, add_generation_prompt=False
)
batch_text.append(text)
batch = processor(
text=batch_text,
images=batch_image,
max_length=max_length,
return_tensors="pt",
padding="max_length",
truncatinotallow=True,
)
labels = batch["input_ids"].clone()
labels[labels == processor.tokenizer.pad_token_id] = -100
labels[labels == processor.image_token_id] = -100
batch["labels"] = labels
return batch.to(device, dtype=torch.bfloat16)
微调超参数设置
学习率
由于仅仅针对特征映射层(connector)进行训练,且conntector由于要对齐Qwen3的维度因此参数为随机初始化(理论上可以采用一些独特的初始化策略提升性能,但考虑到模型较小因此笔者没关注初始化策略)。因此学习率设置为lora中较为流行的1e-4学习率策略。
为了保障有效收敛,学习率衰减基本是必备的trick,采用的是社区比较流行的cosine学习率衰减,衰减至0。warm up为整体步长的10%(在超过1000k step的情况下固定为50)。
batch size
Batch size通常来说越大越好,然而由于VLM模型的文本长度太大,因此采用每卡1 batch和4梯度累加(grad accelerate),在8卡训练中等效32 Batch size。
训练参数设置代码
training_args = TrainingArguments(
seed=42,
data_seed=42,
max_steps=200,
# num_train_epochs=1, # 训练1个epoch 约1k steps
per_device_train_batch_size=1,
gradient_accumulation_steps=4,
dataloader_pin_memory=False,
warmup_ratio=0.1,
learning_rate=1e-4,
lr_scheduler_type="cosine",
weight_decay=0.01,
logging_steps=5,
eval_strategy="steps",
eval_steps=0.125,
save_strategy="steps",
save_steps=0.125,
save_total_limit=8,
optim="adamw_torch",
bf16=True,
output_dir=f"./model/freeze_except_connector_cocovqa",
overwrite_output_dir=False,
report_to="swanlab",
run_name="freeze_except_connector_cocovqa",
remove_unused_columns=False,
gradient_checkpointing=False,
)
训练环境
微调代码基于 沐曦曦云C500通用GPU 实现,显存为64G。
各位读者在尝试本项目代码时可以采用Nvidia显存40G以上的显卡运行本教程。
训练环境的话除了安装GPU对应的驱动和pytorch外,本教程需要额外安装Huggingface全家桶,如下:
torch # 推荐版本>=6.0
torchvision
transformers>=4.53.0
accelerate
datasets
num2words # SmolVLM2需要
额外补充一句,如果采用沐曦GPU训练的话,需要在沐曦官方文档处寻找沐曦版torch的安装方式进行下载。其他HF环境和NV基本一样。附赠一个沐曦查看GPU的命令:
mx-smi
效果如下:
=================== MetaX System Management Interface Log ===================
Timestamp : Sat Jul 12 14:58:51 2025
Attached GPUs : 8
+---------------------------------------------------------------------------------+
| MX-SMI 2.1.12 Kernel Mode Driver Version: 2.12.13 |
| MACA Version: 2.29.0.19 BIOS Version: 1.22.3.0 |
|------------------------------------+---------------------+----------------------+
| GPU NAME | Bus-id | GPU-Util |
| Temp Pwr:Usage/Cap | Memory-Usage | |
|====================================+=====================+======================|
| 0 MetaX C500 | 0000:0e:00.0 | 0% |
| 36C 69W / 350W | 5680/65536 MiB | |
+------------------------------------+---------------------+----------------------+
| 1 MetaX C500 | 0000:0f:00.0 | 0% |
| 38C 70W / 350W | 4986/65536 MiB | |
+------------------------------------+---------------------+----------------------+
| 2 MetaX C500 | 0000:10:00.0 | 0% |
| 37C 69W / 350W | 4986/65536 MiB | |
+------------------------------------+---------------------+----------------------+
| 3 MetaX C500 | 0000:12:00.0 | 1% |
| 37C 71W / 350W | 4986/65536 MiB | |
+------------------------------------+---------------------+----------------------+
| 4 MetaX C500 | 0000:35:00.0 | 0% |
| 37C 70W / 350W | 4986/65536 MiB | |
+------------------------------------+---------------------+----------------------+
| 5 MetaX C500 | 0000:36:00.0 | 1% |
| 36C 68W / 350W | 4986/65536 MiB | |
+------------------------------------+---------------------+----------------------+
| 6 MetaX C500 | 0000:37:00.0 | 0% |
| 39C 73W / 350W | 4986/65536 MiB | |
+------------------------------------+---------------------+----------------------+
| 7 MetaX C500 | 0000:38:00.0 | 0% |
| 38C 71W / 350W | 4986/65536 MiB | |
+------------------------------------+---------------------+----------------------+
+---------------------------------------------------------------------------------+
| Process: |
| GPU PID Process Name GPU Memory |
| Usage(MiB) |
|=================================================================================|
| 0 3496691 python3.10 4066 |
| 0 3496692 python3.10 102 |
| 0 3496693 python3.10 102 |
| 0 3496694 python3.10 102 |
| 0 3496695 python3.10 102 |
| 0 3496696 python3.10 102 |
| 0 3496697 python3.10 102 |
| 0 3496698 python3.10 170 |
| 1 3496692 python3.10 4154 |
| 2 3496693 python3.10 4154 |
| 3 3496694 python3.10 4154 |
| 4 3496695 python3.10 4154 |
| 5 3496696 python3.10 4154 |
| 6 3496697 python3.10 4154 |
| 7 3496698 python3.10 4154 |
+---------------------------------------------------------------------------------+
训练代码实现
在构建训练代码时,笔者使用HuggingFace Transfomers框架的Trainer类来完成训练代码。Trainer类实现的训练逻辑基本能完成大部分微调任务。这里唯一需要提到的是笔者使用了Qwen3-0.6B而非通常此类任务该使用的Qwen3-0.6B-Base模型,Qwen3-0.6B相比于Qwen3-0.6B-Base模型经过了指令遵从微调、对齐等,能实现聊天问答功能。
通常来说对经过微调的模型进行持续训练会一定程度带来性能损失,然而此次微调时笔者冻结了LLM参数,因此需要选用经过微调的模型来实现多模态问答能力。
笔者在训练过程中使用的是bfloat16精度,相比于float16来说bfloat16增加了尾数位数,训练过程中精度会更高些。
在前期进行方案验证阶段笔者采用的是cocoqa数据集,并且进行200steps的微调训练。在确定方案可行后笔者计划使用完整数据集进行微调训练,然而考虑到训练数据量仅仅只有整个模型的12M,因此笔者按参数量与训练Token的比值为1:10采样数据集,即总共从数据集中采样出60K条数据用于实际训练(文本长度按照2k计算,实际上有padding部分因此实际参与token数小于120M)。笔者认为参与训练的数量是足以令模型收敛的,后续实验也证明了模型确实能达到我们所期望的效果。
训练关键代码实现
代码比较长是因为增加了断点续训的能力
################
# 开启训练
################
last_checkpoint = None# load last checkpoint if available
if (
os.path.isdir(training_args.output_dir)
andnot training_args.overwrite_output_dir
):
last_checkpoint = get_last_checkpoint(training_args.output_dir)
if last_checkpoint isNoneand len(os.listdir(training_args.output_dir)) > 0:
raise ValueError(
f"Output directory ({training_args.output_dir}) already exists"
)
print(
f"Checkpoint detected, resuming training at {last_checkpoint}."
)
# Init Trainer
trainer = Trainer(
model=qwen_smvl,
args=training_args,
train_dataset=raw_data["train"],
eval_dataset=raw_data["test"],
data_collator=collate_fn,
)
trainer.train(resume_from_checkpoint=last_checkpoint)
qwen_smvl.save_pretrained(training_args.output_dir)
完整代码见代码及数据集链接汇总,或者直接由完整项目GitHub地址。
6. 微调训练&结果展示
代码准备与环境安装
可以在GitHub仓库地址处找到实验的完整代码。使用git clone后使用如下命令安装环境
pip install -r requirements.txt
数据集和模型下载
笔者附上自动下载脚本,注意该脚本使用魔塔社区完成模型与数据集的下载
bash download_resource.sh
小批量微调训练
为了进行快速验证,笔者首先使用cocoqa数据集并且进行了200steps的训练,所有参数与前文所述一致。通过运行实验命令如下,推荐使用8卡进行训练,在8张沐曦GPU卡上预计需要使用20min
# 单GPU训练
CUDA_VISIBLE_DEVICES=0 python train.py ./cocoqa_train.yaml
# 8GPU训练
accelerate --num_process 8 train.py ./cocoqa_train.yaml
注意,本项目使用 SwanLab 进行训练日志记录与分析,如果未登陆SwanLab需要使用swanlab login
进行登陆。运行后看到如下结果即代表实验成功开启:
成功训练后可以看到SwanLab链接
下面是笔者完成小批量微调训练的训练损失、测试损失结果图
SwanLab训练可视化分析结果,可以看到最后训练损失和测试损失都收敛在0.65左右
模型在完成训练后会自动使用一张狗狗图片配合问题“图中有什么动物?”让模型根据图片进行推理,推理结果如下:
SwanLab记录了模型训练好后的推理结果,可以看到模型能正常理解和回复中文
当时看到模型对着三只狗的图片回答“兔子”时笔者一时认为炼丹失败了,当然如果实际炼丹失败后模型是不会输出动物类型的,而是输出一些乱码或者告诉用户并没有看到图片。识别错误的原因实际上是由于训练步数过少导致的。后续加大训练步数与数据量后模型能正常识别出狗狗并且能准确的说出有三只狗。
附上三只眼神忧伤的狗子,难道长得很像兔子吗?
PS: 作者公开了在SwanLab上的训练结果,感兴趣的读者可以自己查看,SwanLab也支持Clone作者的训练日志,大家可以在自己训练时clone笔者的项目去做对照。
完整微调训练结果展示
运行实验命令如下,推荐使用8卡进行训练,在8张沐曦曦云C500 GPU上预计需要使用1.5h
# 单GPU训练
CUDA_VISIBLE_DEVICES=0 python train.py ./full_train.yaml
# 8GPU训练
accelerate --num_process 8 train.py ./full_train.yaml
下图展示了使用完整微调数据对比于小批量训练,可以看到全量数据微调时loss变得更为抖动,这是由于数据类型的丰富给模型的学习带来了一定的挑战。
红色为完整训练loss,黄色为小批量训练结果
进一步对比完整训练和小批量训练的训练和测试损失,可以看到完整训练的模型训练损失达到了0.61,远低于仅仅使用cocoqa模型的效果,评估损失也远低于前者,维持在0.58左右。
红色为完整训练loss,黄色为小批量训练结果
这里值得一提的是,由于我们选用的测试集比较小(仅有64条数据),因此训练损失和测试损失的差距并不能直接理解为过拟合的证据。实际上在大模型训练上,如果数据集足够大的情况下,通常可以认为训练损失等同于评估损失。
此外,模型通过分析1k步之后的训练损失、平均梯度范数(Grad Norm)变化。此时训练任务已过半,且学习率开始快速衰减。如下图,可以看到学习率快速衰减的情况下模型损失并没有明显的进一步下降,这说明模型已经实现了充分训练。
1k step之后模型的训练损失变化
在训练效率方面,可以看到我们仍没有充分榨干GPU的性能,当然这也是由于多模态任务的网络本身架构上比较复杂,其中包含许多对图像、文本的拼接工作,这也导致了GPU性能没法完全利用。
SwanLab对沐曦C500训效率自动记录
同样在完成训练后使用狗狗图进行了测试,这次模型能理解图片、中文以及给出正确的回复。更为关键的是模型完全保留了Qwen3-0.6B原有的全部能力,包括函数调用、推理等。在此基础上,仅仅增加了0.09B参数量的情况下为模型带来了图像理解能力!
同样的图片与问题,更大的数据量和更充足的数据使得模型能够正确给出回复 模型推理与效果分析
后续教程,可以关注swanlab公众号等待更新。
7. 代码及数据集链接汇总
微调用The Cauldron数据集下载链接:
- HuggingFace Hub:
https://huggingface.co/datasets/HuggingFaceM4/the_cauldron
- ModelScope:
https://modelscope/datasets/AI-ModelScope/the_cauldron
Qwen3-0.6B模型下载:
- HuggingFace Hub:
https://huggingface.co/Qwen/Qwen3-0.6B - ModelScope:
https://modelscope/Qwen/Qwen3-0.6B
本实验完整代码GitHub链接:
- 完整项目GitHub地址:
https://github/ShaohonChen/Qwen3-SmVL
本实验SwanLab日志:
- SwanLab训练过程查看:
https://swanlab/@ShaohonChen/Qwen3-SmVL/overview
参考资料
- Huggingface SmolVLM2技术报告:https://arxiv/pdf/2504.05299
#谁是Adam?
2025审稿爆年度最大笑话!Hinton也曾被拒稿
LLM真是把审稿人害惨了!NeurIPS 2025评审结果公,全网都被「谁是Adam」爆梗淹没。更离谱的是,有人的审稿建议中,残留了AI提示的痕迹。
这几天,NeurIPS 2025的评审结果,陆续出炉了!
让人措不及防的是,「Who's Adam」明晃晃地出现在了一位作者的审稿建议中,成为近来学术圈最大的笑柄。
究竟是大模型不懂,还是审稿人疏忽了?
这么低级的错误,让AI圈内人直呼:离了大谱!
网友辣评:审稿人会使用LLM,你就偷着乐吧;如果不使用GPT审稿,他们可能连领域内的基本常识都不了解!
「Who's Adam」依旧在发酵的同时,NeurIPS还有更离谱的事发生了。
得克萨斯农工大学计算机系任助理教授涂正中(Zhengzhong Tu)称,自己的审稿建议中,提示词没有删干净。
不过,研究科学家Damien Teney表示可能只是复制错地方了。
研究LLM迁移学习的博士生Dylan也发现自己提交的论文,可能没有被认真对待。
审稿人只是让AI总结了内容,并做了接收与否的决定。
或许,是时候该反思学术界的游戏规则了。
NeurIPS评审爆猛料,全网吵翻了
这届NeurIPS评审,全网吐槽满天飞。
近年来,论文评审的质量一直在下降。原因主要有两种:
其一是,论文数量的增加,大模型加速迭代,协助研究者、初创公司撰写论文,产出效率大增。
其次,优秀的研究人员更专注于模型开发和创业,而非论文评审。
正因如此,才闹出了「Adam是谁」的大笑话。
在AI领域,Adam是深度学习中最常见的优化方法之一,论文被引次数高达220991。
对此,著名机器学习研究员Dan Roy张口大骂,「NeurIPS评审现如今就是垃圾」!
从事AI系统工作的Hanchen Li开玩笑:是不是英文名改成Adam,明年就能被NeurIPS引用了?
审稿人告急,还有DDL
另一方面,能够出现如此荒谬的评审,还与NeurIPS的规定相关——
参与审稿的AI研究员必须在截止日期前完成,否则他们自己的论文直接被NeurIPS拒掉。
有的人就是赶在DDL前,匆忙审稿。
由于审稿人手不够,今年,NeurIPS组委会亲自招募更多的审稿人。
纽约大学助理教授Ravid Shwartz Ziv嘲讽道,「NeurIPS真正的创新之处:领域主席们(AC)在不知不觉中运营着史上最大规模的LLM基准评测」。
另一位网友吐槽道,这是NeurIPS评审的新低点。
会议审稿质量在下降,这大家都知道,但这次NeurIPS评审太离谱了。
Vlad Lialin看到一条神评论:「什么是前向传播」。他认为如果不解决审稿问题,那NeurIPS论文将毫无可行度,跟无人评审的论文没什么两样。
高级机器学习工程师、Keras 3合作者Aakash Kumar Nain表示如果不对认真处理类似问题,他以后不会对学术会议的质量抱有任何希望。
一位亚马逊工程师挖出了,2015年Hinton和谷歌团队一篇关于「蒸馏」技术被NeurIPS拒收的论文。
而如今,「蒸馏」成为当前最火的训练策略。Distilling the Knowledge in a Neural Network这篇被引数超26000次。
从事多模态研究的Weijian Luo,在NeurIPS 2023上发表了学术生涯中的前4篇论文。
NeurIPS这对他意义重大,但这次的审稿质量之低令他沮丧。
他表示是时候认真解决文章评审问题了。
微软研究员Sahar Abdelnabi称NeurIPS的评审意见充满敌意、毫无根据、完全不具建设性,比用LLM生成评审意见还要糟糕。
她建议NeurIPS学习安全会议,加入善意评审指南。
审稿人和作者,双双糊弄?
评审结果不尽人意,你以为只是审稿人的问题吗?
有的研究人员需要一个亮眼的成绩单,利用LLM大量产出论文,何尝不是一大问题呢?
有审稿人爆料称,「自己审了5篇论文,体验简直糟糕透顶」。
- 第一篇明显是LLM生成的。篇幅过短,参考文献失效,既无实验也无理论支撑,还充斥大量低级错误。越读越觉得不知所云
- 有两篇根本是同一篇论文!有人把相同内容改了两个标题重复投稿
- 其中一篇略有新意,但使用了奇怪的数据集——后来发现完全是他们公司内部未公开的私有数据,完全无法复现结果
- 只有最后一篇还算像样
研究过AI+经济的Affaan Mustafa,对学界发生到底发生了什么,非常疑惑。
一方面,为了获得好评,投稿论文注入了系统提示词;另一方面,NeurIPS使用系统提示词来审稿并为论文打分。
这两端都充满了AI生成的垃圾内容。
Rebuttal最佳指南
不论是什么结果,评审意见出了之后,下一步就是Rebuttal阶段了。
那么,作者们如何做,能够为自己赢回更多的胜率呢?
此前,AI初创CEO Devi Parikh写过一篇指南,提供了18种技巧,涉及的案例非常丰富,属于必收藏的系列。
接下来,一起看看都有哪些能实际帮助到的Rebuttal策略吧。
1. 逐条列出审稿人意见
用一个顺手的电子表格来整理每位审稿人提出的具体评论、问题或疑虑。
将所有内容并列一处,有助于我们识别共同关注点,并避免意外遗漏。请尽快完成这一步,以便及早确定是否需要进行新的实验(如果会议允许)或分析。
2. 集思广益,罗列可能的回应
在表格中为每位作者预留一列,用于回应各审稿人的意见。在此处用草稿形式写下所有想法,无需顾及文采或篇幅。说服力和简洁性是通过做减法来实现的。
3. 撰写Rebuttal草稿
将表格中达成的共识,转化为Rebuttal草稿中的具体回应。写作时力求简洁,但暂时不必担心篇幅限制。要覆盖到每一个要点,删减和调整优先级可以留到后面处理。
4. 审查和修改
重读最初的审稿意见和你们整理的表格,确保所有问题都得到了回应。优先处理主要的疑虑,并着手删改以满足篇幅要求。
鉴于此,我们必须清楚,是为谁而写,目标又是什么。
审稿人和领域主席(AC),是最主要的目标。
- 对于审稿人:澄清疑虑、回答问题、纠正误解、Rebuttal不准确的评价,并真诚地努力采纳反馈、改进你的工作。
- 对于AC:说服他们你已做出真诚的努力;呈现一份有代表性的审稿意见摘要;帮助他们判断审稿人的疑虑是否已得到解决;指出不公正的审稿行为;并最终,帮助他们做出决定。
根据作者的经验,研究界的大多数新成员只关注(1),而忽略了(2),下面是一个实操案例:
一定要开门见山。
首先对评审意见进行总结性概述,重点突出审稿人对个人工作的积极评价。
虽然Rebuttal主要针对需要回应的负面意见,但切勿让评审委员会在审阅过程中忽略研究的优势。
NeurIPS 2025评审结果如何?来评论区聊聊。
参考资料:
https://x/2prime_PKU/status/1948549824594485696
https://x/_vztu/status/1948875694122975351
https://x/gabriberton/status/1948726822897701065
https://x/pratikramesh7/status/1948397645128507573
#2025 WAIC云帆奖得主名单揭晓
共青年之智,铸AGI未来
星辰汇聚,扬帆远航:2025 WAIC 云帆奖颁奖典礼暨云帆青年挚友之夜共筑 AI 创新枢纽
2025年7月27日,在星光熠熠的世界人工智能大会(WAIC)期间,一场专为全球顶尖 AI 青年打造的荣耀盛会——2025 WAIC 云帆奖颁奖典礼暨云帆青年挚友之夜于上海隆重举行。本次活动由上海人工智能实验室、xx、全球高校人工智能学术联盟联合主办,并得到东方菁汇、长三角国家技术创新中心、真格基金、中国联通等机构的大力支持
大会汇聚了2025 WAIC 云帆奖得主、召集人、评委、候选人,以及全球 AI 技术产业领袖、学术新锐和顶尖投资人等 150 余位产学研资核心力量,共同见证并激扬着中国 AI 青年力量的蓬勃脉动。
活动现场,公布了今年的 WAIC 云帆奖「璀璨明星」和「明日之星」新晋得主名单并举行了颁奖典礼。
上海人工智能实验室主任、首席科学家,清华大学惠妍讲席教授 周伯文(左一),中国新一代人工智能发展战略研究院执行院长 龚克(右三),上海市人才工作局副局长、二级巡视员 郭磊(右二),xx创始人兼 CEO 赵云峰(右一)在大会现场为「璀璨明星」颁奖。
蚂蚁集团CTO 何征宇(左一),北京大学智能学院博雅特聘教授、副院长 陈宝权 (左二),上海人工智能实验室党委副书记兼纪委书记 王平(右二),东方菁汇集团总裁 余立越(右一)在大会现场为「明日之星」颁奖。
值得关注的是,本届云帆奖组委会创新性地设立「提名奖」,旨在进一步完善云帆社区人才体系。活动现场,公布了 2025 WAIC 云帆奖「璀璨明星提名奖」和「明日之星提名奖」名单并举行了颁奖典礼。
长三角国家技术创新中心信息技术首席专家 刘国权(左一),真格基金管理合伙人 戴雨森(右一)在大会现场为「璀璨明星提名奖」颁奖。
上海联通党委委员副总经理 刘彤(左一),ICT 产业观察家,黄大年茶思屋科技网站总编 张群英(右一)在大会现场为「明日之星提名奖」颁奖。
接下来,让我们走近每一位新晋 WAIC 云帆奖得主,了解他们的卓越成就与前沿探索。
,时长01:40
2025WAIC 云帆奖新晋得主介绍
2025 WAIC 云帆奖「璀璨明星」
(按姓氏拼音排序)
陈建宇,本科毕业于清华大学精仪系,后于 UC Berkeley 取得博士学位,师从美国工程院院士、机电控制先驱、MPC算法奠基人 Masayoshi Tomizuka 教授。拥有10年以上机器人与人工智能研发经验,具备稀缺的软硬件全栈规划能力。与团队在机器人与 AI 领域的国际顶会和期刊上发表 70 多篇论文,并入围 RSS 2024、L4DC 2022、IEEE IV 2021、IFAC MECC 2021 等国际会议优秀论文奖。 凭借卓越的学术与创业成就,上榜福布斯中国“30Under30”。
高阳,本科毕业于清华大学,后获加州大学伯克利分校博士学位,师从xx智能泰斗Pieter Abbeel,研究涵盖xx智能、机器人交互、强化学习等领域。学术上,他在NeurIPS、ICML 等顶级会议发表多篇论文,谷歌学术引用超 5000 次。今年与上海人工智能实验室等团队联合推出的 OneTwoVLA,实现推理与动作无缝切换,显著提升模型泛化与常识能力;EfficientZero 系列为目前全球样本效率最高强化学习算法,获 OpenAI 联合创始人肯定;EfficientImitate 大幅提升模仿学习效率;ViLa 和 CoPa 模型性能突出。创业方面,他联合创立千寻智能,聚焦通用人形机器人及xx大模型,成立一年完成多轮融资,跻身行业领跑阵营,推动技术突破落地。
何聪辉,清华大学博士,上海人工智能实验室青年科学家,上海交通大学兼职博导,入选国家级青年人才,现负责浦江书生系列大模型的数据体系建设。何聪辉的主要研究方向为面向大模型的高效数据学习,在 AI 顶会发表论文 100 余篇,谷歌引用 8600+,曾获高性能计算应用领域最高奖“戈登•贝尔”奖,并创建国内最大的开放数据平台 OpenDataLab,开源智能文档解析工具 MinerU,累计 GitHub 星标数突破4万。
刘邦,现任蒙特利尔大学和 Mila 研究所副教授、加拿大 CIFAR 人工智能讲席教授。研究自然语言处理、多模态与xx学习及 AI for Science 等。他已发表论文与教程 100 余篇,荣获 2024 云帆奖、蒙特利尔大学研究卓越奖及 George Walker 最佳博士论文奖等。他深耕基础智能体研究,联合 MetaGPT 发起 Foundation Agents 开源组织,率先构建材料科学大模型与智能体推动新材料智能设计,成果广泛应用于产业。
乔畅,本、博毕业于清华大学自动化系,拟于8月入职清华大学精密仪器系助理教授。研究兴趣为智能光子学,聚焦人工智能与光学交叉创新:在 AI for Optics 方面,设计融合光学成像模型的神经网络架构,突破光学显微成像的时空带宽极限,研制xx智能超分辨光学显微成像仪器;在 Optics for AI方面,研究立体集成智能光计算架构与芯片,解决人工智能发展的算力和功耗瓶颈。
王翔,中国科学技术大学特任教授、博导,国家青年人才。研究兴趣:信息推荐与挖掘、大模型、可信人工智能等,在国际顶会和顶刊上发表论文 70 余篇,谷歌学术引用 2 万余次。2025年获得人工智能国际顶会 ICLR 杰出论文奖,2023年获国际基础科学大会前沿科学奖,2024年获 ACM SIGIR 青年学者奖和吴文俊人工智能自然科学一等奖,2024年入选《麻省理工科技评论》 MIT TR35 榜单、AI 100 青年先锋。
吴翼,现任清华大学交叉信息院助理教授,博士毕业于 UC Berkeley ,前 OpenAI 研究员,同时也是上海期智研究院 PI,蚂蚁研究院强化学习实验室首席科学家,边塞科技创始人。研究方向为强化学习,多智能体学习和通用智能体。曾获得 NIPS 2016 最佳论文奖,和 ICRA 2024 最佳展示奖候选。代表作包括 OpenAI 捉迷藏项目,多智能体强化学习学习领域最高引算法 MADDPG/MAPPO 算法,开源智能体强化学习框架 AReaL 等。人生乐趣包括研究 AI/RL,喝奶茶以及吃遍全世界。
谢伟迪,上海交通大学长聘轨副教授,教育部 U40,国家级青年人才(海外),上海市海外高层次人才计划获得者,上海市启明星计划获得者,科技部科技创新 2030 —“新一代人工智能”重大项目青年项目负责人。 博士毕业于牛津大学视觉几何组( Visual Geometry Group,VGG ),导师为Professor Andrew Zisserman 和 Professor Alison Noble,是首批 Google-DeepMind 全额奖学金获得者,China-Oxford Scholarship 获得者,牛津大学工程系杰出奖获得者。主要研究领域为计算机视觉,医学人工智能,共发表论文超 100 篇,包括 Nature Communications,NPJ Digital Medicine, CVPR,ICCV, NeurIPS, ICML, IJCV 等,Google Scholar 累计引用超 16000 次,多次获得国际顶级会议研讨会的最佳论文奖和最佳海报奖,最佳期刊论文奖,MICCAI Young Scientist Publication Impact Award Finalist (5/6000);Nature Medicine,Nature Communications 特邀审稿人,计算机视觉和人工智能领域的旗舰会议 CVPR,NeurIPS,ECCV 的领域主席。
张宸,致力于研究智能处理器架构与芯片系统,包括 FPGA 和 GPU 等,深度挖掘人工智能计算的底层硬件基础与信息表达机制,通过张量计算建模、数据信息压缩、处理器架构和电路设计优化等手段,为高算力、高能效 AI 硬件的设计提供理论支持和技术路线验证,突破 AI 处理器的算力、带宽和能耗瓶颈。
张嘉恒,本科毕业于上海交通大学 ACM 班,之后在加州大学伯克利分校(UC Berkeley)获得博士学位,师从 Dawn Song 教授。张嘉恒博士的研究聚焦于零知识证明(ZKP)、可验证计算与人工智能安全,特别关注 ZKML(可验证机器学习)在AI模型隐私保护与可信验证中的应用。他致力于构建既保障数据隐私、又提升模型可信性的加密机制,涵盖从决策树到Transformer等多种模型。其研究强调技术实用性,服务于 AI 审计、合规验证及关键基础设施安全,推动人工智能系统在高安全需求场景下的可靠落地。
赵恒爽,香港大学助理教授,国家优青,研究兴趣包括计算机视觉、机器学习和人工智能。在顶级会议和期刊上发表论文 100 余篇,研究成果被引 43,000 余次,单篇一作被引 18,000 余次。曾获得多次国际学术竞赛冠军,世界人工智能大会明日之星、璀璨明星和青年优秀论文奖,CVPR 最佳演示荣誉奖,AI 100 青年先锋,AI 2000 计算机视觉最具影响力学者,担任 CVPR/ICCV/ECCV/NeurIPS/ICLR 等会议的领域主席。
2025 WAIC·云帆奖「明日之星」
(按姓氏拼音排序)
陈天龙,于2024年秋季加入北卡罗来纳大学教堂山分校计算机系担任助理教授。在这之前(即2023-2024年),他于麻省理工和哈佛大学担任博士后研究员。陈天龙博士分别于2023年和2017年获得了德州大学奥斯汀分校电子&计算机工程的博士学位和中国科学技术大学(少年班学院)的应用数学和计算机双学士学位。他的主要研究方向是建立准确、可靠和高效的机器学习系统他近期的研究方向主要聚焦于:(1)重要的机器学习问题包括多模态学习,大语言模型,稀疏神经网络、鲁棒性、可学习的优化算法、和图网络;(2)交叉学科的科学难题比如生物工程、疫苗药物研发和量子计算陈天龙博士曾先后获得了 Amazon Research Award, Cisco Faculty Award, AAAI'25 New Faculty Highlights, NAIRR Pilot Award, UNC Accelerating AI Award, CPAL Rising Star, AdvML Rising Star, IBM Ph.D. Fellowship, Adobe Ph.D. Fellowship, Graduate Dean's Prestigious Fellowship。
陈小康,现任 DeepSeek AI 多模态组研究员。2024年博士毕业于北京大学,师从曾钢研究员,同年获评北京大学优秀毕业生。他的研究领域包括多模态理解大模型和多模态理解与生成统一模型,在 IJCV、CVPR、ICCV、ECCV 等顶级会议期刊发表论文三十余篇,谷歌学术引用一万余次。他在博士期间和 IEEE Fellow 王井东老师合作的视觉自监督预训练方面的工作 CAE 在百度公司的多个业务中落地应用。他在 DeepSeek 主导完成的多模态大模型项目 Janus-Series 和 DeepSeek-VL2 在 GitHub 获得两万余次星标、其中他作为第一作者完成的 Janus-Pro 项目发布首月即在 Huggingface 开源平台上获得上百万次下载,曾在 Huggingface 和 GitHub 的 Trending 榜单排名第一,在国外推特论坛上相关的帖子获得数千万次浏览和数万次转发。他在 Janus-Series 中提出的解耦视觉编码的思想被学术界和工业界广泛使用。
崔淦渠,博士毕业于清华大学计算机系,研究方向为大语言模型的对齐与强化学习技术。在 ICML, NeurIPS, ACL, KDD 等国际人工智能顶级会议与期刊上发表论文十余篇,谷歌学术引用超 11000 次。获清华大学优秀博士论文、清华大学优秀毕业生等荣誉。代表作包括偏好对齐数据 UltraFeedback, UltraInteract,密集过程奖励算法 Implicit PRM, PRIME 以及对强化学习熵机制的研究。
傅朝友,入选中国科协青年人才托举工程。研究方向为多模态智能,已发表论文 20 余篇,谷歌学术引用 4 千余次,作为 Owner 的 GitHub 开源项目累计获得 2 万余次 Stars。代表性工作包括 VITA 多模态大模型系列(一作 VITA-1.0&-1.5,通讯Long-VITA、VITA-Audio,3千GitHub Stars),MME 多模态评测基准系列(一作MME&Video-MME,引用千余次)和 Awesome-MLLM 多模态社区(Owner,1万余次GitHub Stars)等。获中科院院长特别奖、IEEE Biometrics Council 最佳博士学位论文、北京市优秀博士学位论文、中科院优秀博士学位论文、小米青年学者-科技创新奖、南京大学紫金学者、CVPR-2023 杰出审稿人等。
龚睿昊,博士毕业于北航计算机学院,师从刘祥龙教授,现担任商汤科技副总监。研究方向为高效机器学习系统,在 TPAMI、ASPLOS 等期刊会议发表论文 40 余篇,谷歌学术引用 4300 余次,成果被 AMD、英特尔等二十余国内外知名机构的开源框架集成。主导的压缩部署系统多次登上 GitHub 趋势榜,被来自斯坦福大学、微软等机构项目公开致谢。3次获 IEEE LPCV 和 IEEE UAV Chase 国际比赛冠亚军。担任多个 CV/AI 期刊会议的客座编辑和学术研讨会主席。
顾家远,博士毕业于美国加州大学圣迭戈分校,师从苏昊教授。他的研究方向为xx智能和三维视觉,在计算机视觉、机器学习、机器人等国际顶会上均有发表,获得过 SIGGRAPH 2025 和 ICRA 2024 的最佳论文奖。
李彦玮,现任美国字节跳动Seed研究科学家,2024年博士毕业于香港中文大学,师从贾佳亚教授。研究聚焦于视觉语言基础模型(VLM),尤其是物理世界中多模态交互与推理。其在人工智能与计算机视觉顶会/顶刊发表论文 20 余篇,包括多篇会议 Oral 及 Highlight,Google Scholar 引用 5000 余次。其担任多个顶会的领域主席和审稿人,近期成果包括 Seed 1.5-VL、LLaVA-OneVision、Mini-Gemini、LLaMA-VID、LISA 等。
龙霄潇,南京大学智能科学与技术学院副教授,南京大学紫金学者,入选国家高层次青年人才。2018年本科毕业于浙江大学,2023年博士毕业于香港大学。长期从事三维重建与生成、神经渲染、世界模型等空间智能技术研究,近五年来在 T-PAMI、CVPR、SIGGRAPH 等期刊会议上发表第一作者与通讯作者论文 20 余篇,谷歌学术引用 3000 余次。带领学生获得2025年 ICRA ManiSkill-ViTac 视触融合操控挑战赛冠军。
骆昱宇,现任香港科技大学(广州)助理教授、博士生导师,数据智能与分析实验室负责人。研究方向为 Data-centric AI,AI+Databases,LLM Agents。在顶级国际会议和期刊如 SIGMOD、VLDB、ICML、NeurIPS、ICLR、TODS 上发表论文 40 余篇,智能问数(Text2SQL)等成果落地于华为、国家电网和蚂蚁金服等企业。入选 2023 年福布斯中国 30 位 30 岁以下精英榜,获 CCF-A 类会议 SIGMOD 2023 最佳论文系列奖、华为火花奖、清华大学特等奖学金、清华优博等荣誉。
唐相儒,研究用于自动化科学发现的多智能体系统,尤其是生物医学方面,比如细胞机制理解、医学诊断、分子设计等方向。以一作/共同一作在 Nature Biotechnology、Nature Communications、ICLR、ACL 等期刊/会议发表多篇学术论文。组织 ICML 2025 与 ICLR 2024 智能体研讨会、ISMB 2024 LLMs 教程。曾获 IJCAI 2024 AI4 Research Workshop 最佳论文奖,ICML CFAgentic Workshop 最佳论文 Runner‑Up 奖。
王靖博,上海人工智能实验室青年科学家,研究方向包括人型角色控制与物理仿真、人形机器人运动控制以及xx智能等。2023年博士毕业于香港中文大学多媒体实验室,已在 CVPR、ICCV、ECCV、NeurIPS 等顶级会议和期刊发表论文数十篇,并获得多篇 oral 和 spotlight,Google 学术引用超过 8400 次。曾获得包括 COCO在内的多个视觉理解挑战赛冠军,其研究成果入选 ECCV 十大影响力论文及 ESI 高被引论文。
于力军,谷歌深度思考的高级研究科学家,致力于 Gemini 和 Veo 项目的研发。他的研究主要围绕视频生成、多模态大模型的统一训练、强化学习等展开。他获得了卡内基梅隆大学博士学位,北京大学双学士学位等。他曾获得 ICML 最佳论文奖及系列国际挑战赛冠军,并被评为 Siebel 学者和百度学者。
张林峰,上海交通大学助理教授,研究方向为高效人工智能。2024年博士毕业于清华大学交叉信息研究院。研究方向为高效人工智能。他曾获微软学者、北京市优秀毕业生,清华大学优秀博士论文,担任 ACL ARR、NeurIPS 等会议的领域主席,代表作自蒸馏被引用超过一千次。
郑楚杰,通义千问研究员,Qwen3、QwQ 系列开源模型核心贡献者。2025年博士毕业于清华大学,师从黄民烈教授。研究方向为大模型推理、对齐与强化学习。在 ICLR、ICML、ACL 等国际会议发表论文 10 余篇,谷歌学术引用量 5000 余次,长期担任 ACL、EMNLP、NAACL 等会议领域主席。
周煊赫,上海交通大学计算机学院长聘轨助理教授,主要研究智能数据分析、ML/LLM 数据底座、自治数据库系统(AI4DB)。在 SIGMOD、VLDB、NIPS、TKDE 等 CCF A 类会议和期刊上已发表论文数十篇,包括近五年 VLDB、ICDE 高被引论文,入选卡耐基梅隆大学、康奈尔大学等高校课程。谷歌学术引用量两千余次。曾获 ACM Jim Gray 博士论文提名奖(大陆首位)、VLDB 2023最佳工业论文亚军奖(第一作者)、通信学会科学技术一等奖、CCF 优博、微软学者、字节跳动奖学金、清华特奖等荣誉。代表性工作 OpenMLDB 已经落地第四范式先知(AIOS)平台并在金融、电商、能源等百余个真实场景中实现规模化应用。
#Wan2.2
aLI再开源,全球首个MoE视频生成模型登场,电影级美学效果一触即达
继上周开源三连发之后,aLI昨晚又放出了新模型。
这次是全球首个开源的 MoE 架构的视频生成模型 Wan2.2,最大的亮点是具备了电影级美学控制能力。
该模型遵循 Apache 2.0 开源协议。
- 官网地址:https://wan.video/welcome
- Hugging Face 地址:https://huggingface.co/Wan-AI
- ModelScope 地址:https://modelscope/organization/Wan-AI
我们先来看两个示例:
提示词:A purely visual and atmospheric video piece focusing on the interplay of light and shadow, with a corn train as the central motif. Imagine a stage bathed in dramatic, warm spotlights, where a corn train, rendered as a stark silhouette, moves slowly across the space. The video explores the dynamic interplay of light and shadow cast by the train, creating abstract patterns, shapes, and illusions that dance across the stage. The soundtrack should be ambient and minimalist, enhancing the atmospheric and abstract nature of the piece.
提示词:A man on the run, darting through the rain-soaked back alleys of a neon-lit city night, steam rising from the wet pavement. He's clad in a drenched trench coat, his face etched with panic as he sprints down the alley, constantly looking over his shoulder. A chase sequence shot from behind, immersing the viewer deeply, as if the pursuers are right behind the camera lens.
对于 Wan2.2 的开源,评论区的网友也是称赞有加。
而实现这样的效果,Wan2.2 主要得益于以下几大技术创新:
一是,MoE 架构创新。
Wan2.2 首次在视频扩散模型中引入了 Mixture-of-Experts(MoE)专家混合架构。
通过在时间步之间引入多个专门的强大专家模型来分担去噪过程,Wan2.2 实现了在不增加计算成本的前提下,大幅扩展了模型整体容量。
二是,数据规模跃升。
相比 Wan2.1,Wan2.2 的训练数据量大幅提升:图像数据增加 65.6%,视频数据增加 83.2%。
数据量的扩展显著增强了模型在运动表达、语义理解和美学表现等多维度的泛化能力,在所有开源与闭源视频模型中的表现均属顶尖。
三是,电影级美学控制能力。
Wan2.2 融入了特别筛选的美学数据集,并标注了光影、构图、色彩等细粒度属性,使得模型在生成时能够更精准地控制电影感风格,支持用户按需定制审美偏好。
四是,高效高清 Hybrid TI2V 架构。
Wan2.2 同步开源了一款 50 亿参数模型,采用自研的 Wan2.2-VAE 编码器,压缩率达到 16×16×4。该模型支持文本生成视频和图像生成视频两种模式,生成分辨率高达 720P、24fps,并可在消费级显卡(如 4090)上流畅运行。
该模型是当前市场上最快速的 720P、24fps 生成模型之一,可同时服务工业界与学术界的多种需求。
目前,用户可在 Hugging Face 和aLI魔搭(ModelScope)社区下载使用。
#Data Whisperer
不靠海量数据,如何精准喂养大模型?免训练数据选择法,10%数据逼近全量效果
本文第一作者王少博为上海交通大学博士生,现于aLI Qwen 团队实习,此前有 CVPR 满分一作论文。通讯作者为其导师、上海交大助理教授张林峰。本文其他作者来自上交 EPIC Lab、NTU、NUS、微软、上海 AI Lab、港科大(广州)等。
从未微调目标数据集,一个预训练模型竟能自己筛选出「黄金训练样本」?
上海交通大学等团队提出 Data Whisperer —— 首个免训练的注意力驱动数据选择框架。它直接利用预训练模型的上下文学习(ICL)能力,无需额外微调打分模型,仅用 10% 数据就能让微调效果逼近全量数据!
就像一位精通教学的导师,看一眼题库就知道该让学生重点练什么题。
- 论文标题:Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning
- 论文链接:arxiv/pdf/2505.12212
- GitHub 地址:gszfwsb/Data-Whisperer
- 关键词:数据选择、上下文学习、小样本泛化、结构对齐
精调大模型,数据挑对才关键
模型说:「别给我扔几百万条数据了,你先告诉我哪些题值得看!」
传统的数据选择方法:
- 要先训练个打分模型;
- 要调一堆启发式参数;
- 要花一堆时间还不一定好用;
而 Data Whisperer 就像摸鱼同学中的学霸 —— 不看全书也能稳拿高分。
方法机制:只靠模型自身,打分挑数据
Data Whisperer 是一种以大模型自身为评估器、完全免训练的数据子集选择方法。
1. ICL 少样本构建
- 随机采样若干「示范样本」和「查询样本」,构建 ICL 提示;
- 让待精调的大模型尝试回答这些查询任务;
- 根据回答质量,给每个「示范样本」打一个分。
2. 引入注意力感知权重
- 为了让「题目权重」更加合理,Data Whisperer 不只看输出结果;
- 它利用 Transformer 的注意力权重,度量每个示例对模型推理的「影响力」;
- 最终打分由模型输出与注意力贡献共同决定,更稳定、更合理。
这种打分机制是完全无需训练、无需人工标注的!
Data Whisperer 不是「拍脑袋选题」,理论也站得住脚!
在传统精调中,模型通过梯度下降显式更新参数,比如注意力权重的关键值(Key)矩阵 W_K 和数值(Value)矩阵 W_V:
其中
是通过反向传播学到的参数更新。
而在 ICL 过程中,虽然模型参数固定不变,但通过上下文中的示例(demonstration tokens)对注意力进行加权,使得模型在预测时行为发生了「类精调」式的变化:
这里的
并非真实权重更新,而是通过注意力机制 「模拟出的权重调整」。这正是 Data Whisperer 利用的核心。
也就是说,ICL 就像是在不动参数的前提下,用「语言上下文」在行为上更新了模型。
精调谁还全训?我 10% 数据照样打赢!
让我们看看 Data Whisperer 的「压轴战绩」:
- GSM8K 数学题:10% 数据打出 72.46%,还比全量数据(71.39%)更高;
- DialogSum 总结任务:用 Qwen 模型达到 43%,比最强 SOTA 方法高出 2.5 个点;
- BioInstruct 任务也同样提升显著。
别人还在选题,我已经开始精调了
Data Whisperer 引入了一个新的效率指标:Selection-to-Tuning Ratio(STR),即选择过程耗时与全量精调耗时之比。
在该指标下,Data Whisperer 以 STR ≈ 0.03~0.2 的水平,大幅领先现有所有方法。相比之下,许多传统方法(如 Nuggets)STR > 1,意味着「选题还不如直接精调快」。
Data Whisperer 用极低成本完成了模型适配所需的「预判题型」工作。
小模型选题,大模型精调,谁用谁知道!
Data Whisperer 支持弱模型作为「选题器」,强模型作为「学习者」的弱选强训(weak-to-strong)机制。
例如,使用 Qwen-2.5-3B-Instruct 选题、再用 Qwen-2.5-7B-Instruct 精调,最终性能几乎不降,却带来更低计算负担。
Data Whisperer 成功实现了从小模型到大模型间的「知识前置迁移」,适用于资源受限场景下的精调任务。
演示题和查询题怎么配?精细搭配才能挑好!
Data Whisperer 进一步分析了 ICL 中示例(n_d)与查询(n_q)数量对选择效果的影响。
结果显示,n_d=10、n_q=5 是稳定优选配置。在此之后增加样本数量,效果提升趋于饱和。
这表明 Data Whisperer 对输入规模具有良好的鲁棒性,不是靠堆样本,而是真挑核心。
哪层注意力最好用?
Data Whisperer 的注意力打分依赖于 Transformer 的层级结构。作者分别测试了浅层、中层、深层注意力用于打分的效果。
结果发现,中间层(如 Layer13)提供的语义信息更稳定,选题效果更佳,符合语言模型内部语义聚合的层次分布规律。
Data Whisperer 巧妙借力模型结构,使「注意力」真正发挥了「注意」的功能。
模型偏好什么题?简单好懂才是王道
进一步的分析中,作者使用 GPT-4o-mini 对被选中样本的困惑度(perplexity)进行了评估。
发现 Data Whisperer 倾向选择困惑度较低的样本,说明模型更喜欢「简单题」,也符合 Sorscher 等人在小样本学习中的「易例优先」理论。
对比分析:到底比哪些方法强?
Data Whisperer 在所有主流数据选择方法对比中均展现出领先效果:
- GraNd:基于梯度;
- EL2N:基于预测误差;
- CCS:注重多样性;
- Nuggets:需要额外精调打分器;
- STAFF:组合打分策略。
Data Whisperer 在准确率、效率、稳定性三个维度全面领先,尤其在低预算(1%、5%、10%)场景中优势明显。
Data Whisperer 的秘诀:ICL 就是精调的「影子」
Data Whisperer 并非经验规则,而是基于理论支撑。
论文从注意力机制视角出发,分析了 ICL 过程中上下文样本对模型输出的影响,实质上等价于一种隐式的参数更新。
ICL 调整注意力权重 ≈ Fine-Tuning 调整参数矩阵
两者都是为了「让模型在未来输入中表现更好」。
这一结构上的对应性解释了 Data Whisperer 能有效选出训练子集:它无需调模型参数,就能「预训」出训练效益。
启示与未来方向
Data Whisperer 所倡导的是一种新范式:结构感知、推理驱动的数据选择方法,为 LLM 训练过程引入「自解释、自判断」的机制。
值得注意的是,字节 Seed 最新的工作 (https://arxiv/abs/2505.07293),也用了类似 few-shot 和 attention 结合的方法。
接下来值得探索的方向包括:
1. 将方法迁移至法律、医疗、工程等复杂结构任务;
2. 引入人类反馈或语言理解偏好,进一步增强「任务对齐」能力;
3. 结合 prompt 工程,控制示例顺序以提升效果;
4. 与合成数据方法融合,构建任务驱动的多源样本库。
总之,Data Whisperer 并不是简单优化效率的技巧,而是揭示了一个事实:
- 任务对齐不必依赖人类标签、不必堆数据量。
- 结构化的推理机制与任务映射,本身就可以引导模型学习方向。
未来的大模型训练也许不再是「知道做什么」,而是「知道问什么」。
#JoyAI
从数字人到「有温度的」机器人,xx把 AI 深度应用的路线图「摸透」了
xx大模型品牌全新升级:JoyAI,Enjoy AI!
业界广为流传的说法是,大模型的上半场战事主要集中在找到模型训练的有效方法,从架构到参数、从单一语言到多模态大模型、从基础大模型到行业大模型……「卷生卷死」。而下半场的主流叙事则是找到可行方案,让模型切切实实地解决人们生活和工作中的实际问题。
无疑,现在已然进入下半场。比起在模型参数、性能的陡峭曲线上攀登,讲好大模型落地应用的新故事,似乎有更多的张力与想象力。
悄然之间,一场新的、围绕该如何让大模型技术更广泛、更深入地走进实际生活场景的突围赛拉开序幕。
而这种趋势,在今年的 WAIC 大会上彰显得更为明显。观众非常直观的一个感受是,相较于以往几届,不管是参展的技术、产品,还是各大论坛的讨论话题,这一届更为「务实」:各大厂商纷纷发力,秀起了大模型的触角是如何深入到产业更深的毛细血管处。
xx也是其中一家。
此次大会上,xx宣布旗下大模型品牌全新升级为「JoyAI」,跟千行百业一起「Enjoy AI」
xx集团高级副总裁、xx探索研究院副院长何晓冬表示,两年前xx大模型发布,彼时大模型主要聚焦语言。如今,经过两年发展、AI 技术不断突破,大模型走向更广阔的多模态领域,视频、图像、语音等等。期间,xx大模型也在持续进化。
据介绍,全新升级后的「JoyAI」拥有从 3B 到 750B 的全尺寸模型,涵盖语言、语音、图像、视频、数字人等多种模态,通过动态分层蒸馏、跨领域数据治理等创新技术,可实现「大而精」,将大模型推理效率平均提升 30%,训练成本降低 70%,轻巧部署,极速响应。
而 JoyAI 广泛应用更为直观的展示就在WAIC现场。从能高情商交互的人形机器人到企业高定的时尚数字人主播,从重塑企业工作流程的智能体搭子到低门槛、高可用的智能编码助手,每一个应用都在释放一个信号:xx「JoyAI」大模型正在加速让 AI 从实验室走向产业深度应用,且「无处不在」。
显然,xx AI 已然迈进「深水区」。
6 亿消费者和百万商家,xx AI 加速多场景深度应用落地
在谈及 JoyAI 大模型的落地应用进展时,何晓冬提到一组数据。随着模型迭代能力提升、场景不断开拓,JoyAI 大模型已经在xx超过数百个场景广泛应用。
在刚刚过去的xx「618」期间,大模型调用量,相较于去年「11.11」同比增长超过两倍以上,约为 130%,百万级别的商家已经开始受益于xx AI 应用,xx数字人服务的平台商超过两万家,深度融合大模型的xx智能客服,累计咨询服务量超过 26 亿。
如果说在WAIC看到了xxJoyAI 大模型在落地应用上的广泛度,那这组数据直接言明了在产业上的纵深度,名副其实进入深度应用阶段。
摩根士丹利数据预测,到 2030 年,中国核心 AI 产业可能发展成为价值 1400 亿美元的市场。这意味着,在这片广阔的土壤中,AI 不再仅仅停留在辅助、镶边工具阶段,而是数量上大批量走向产业关键处,质量上高效解决问题,甚至带来显著收益。
一个典型的代表就是数字人。
从「小助手」到「C 位主播」,数字人真正实现「高商业可用」
数据显示,基于JoyAI,xx数字人率先成为大模型走向大规模应用的突破口,超 2 万家品牌常态化使用。而取得这样的成果,xx也只用了一年多的时间。
或许大家还记得去年 4 月份,xx集团创始人刘强东的虚拟数字人形象「采销东哥 AI 数字人」在全网进行多场直播,引起热议的盛况。热闹的背后,xx的数字人技术也得到了认可,之后团队不断收到商家投递而来的橄榄枝,连高奢品牌商都来主动寻求合作。
等到 2024 年xx「11.11」期间,数字人直接带动安踏直播间 GMV 突破 2000 万,公域成交 GMV 达 140 万 +,转化率 32.06%。
变化在悄无声息地发生着,直播间的数字人不再是吸睛博眼球、解乏逗乐的噱头,而是径直走向镜头中心,坐上「C 位」,带来扎实收益。
今年,xx数字人再一步进化,基于通用数字人大模型 2.0,xx新推出的高商业可用数字人,支持精品音色微调和更精准的声唇对齐,情感丰富的音色韵律,自然拟人的大姿态动作,适配场景的带货话术,让数字人表现力更丰富。
通俗来说,就是数字人的动作更为自然,更为适配主播人设,从体育达人到美妆博主、从高奢走秀到快消吃播,无论多么复杂、多变的商业直播场景,这批数字人主播都能够轻松应对。
「这款精华对油皮干皮都友好,夏天油皮轻轻挤两下……」「材质上甄选优质牛皮革,耐磨耐刮……」「这款坚果颗粒饱满,嚼起来很香……」
这样的数字人主播「带货」场景,在今年JINGDONG「618」期间常常上演,各大品牌直播间的数字人主播不仅在口头介绍产品,还能够上手测试,少了「AI 味」,多了人性化,俨然与真人主播没区别。
数据也显示,JINGDONG「618」期间,JINGDONG数字人带货水平超越市场上 80% 的真人主播。
值得注意的是,JINGDONG数字人背后的底层技术:「多模态交互式数字人关键技术及产业应用」,获得了中国智能科学技术最高奖 —— 吴文俊人工智能科学技术奖特等奖,这也是本年度唯一特等奖。
其实不止是数字人,如今大模型技术不断从单一模态走向多模态,走向真实世界,市场上各种人形机器人、AI 眼镜等智能终端产品层出不穷。JINGDONG也坚信,大模型将在实体世界中产生巨大价值。
为此,JINGDONG发布了一个全新的品牌 —— 附身智能平台 JoyInside。
JoyInside,为终端交互注入「有温度的灵魂」
据官方介绍,JoyInside 是一个具有海量知识、高情商、言行一致、长期记忆的大模型平台。基于该平台,可以将角色大模型驱动的对话智能体植入智能硬件载体,比如机器人、机器狗、玩具等,赋予这些硬件「灵魂」和「智慧」,提升产品竞争力和用户粘性。
可以设想这样一个场景:你新买了一个小玩偶,一般情况下,你只是把它摆在家里,时不时抱一抱、摸一摸,欣赏一下可爱的外表。可是假如有一天你可以和它对话,周末宅家想点外卖却不知道吃什么时问它的建议,它告诉你,你昨天吃了麻辣烫,或许可以再点一份,但要记得告诉商家少放辣;工作焦头烂额也想不出好的创意,向它倾诉,它告诉你,别着急放轻松,好的 idea 往往在不经意间来到……
听上去是不是很酷?
而这就是JINGDONG JoyInside 与热门潮玩品牌 Fuzozo 芙崽在做的事情。通过接入 JoyAI 大模型,Fuzozo 芙崽可以实现高精度的情绪感知与拟人化反馈,言行高度一致,还具有长期记忆,从相知、相交到相伴,用户可以为自己「养成」一个贴心玩伴。
JINGDONGJoyAI
,赞242
之所以能够实现这一功能,主要依托的是 JoyInside 背后的四大优势:
高情商对话体验:海量知识库支持,长期记忆能力,快速精准响应,让每次交流如沐春风;
多元场景适配:从娱乐教育到工业制造,从个人需求到企业应用,全方位覆盖多种场景;
海量角色选择:支持角色定制,涵盖人设塑造,声音风格个性化,打造专属于您的独一无二 AI 伙伴;
言行高度一致:准确理解对话过程动作意图,并驱动动作精准执行。
不仅是 Fuzozo 芙崽为代表的陪伴场景,据了解,目前已经有数十家企业正式接入了 JoyInside,涵盖了多种形态的xx智能体,包括以元萝卜 AI 下棋机器人为代表的教育场景,以及产业应用端的众擎人形机器人、云深处的四足机器狗等。
教育领域,元萝卜 AI 下棋机器人接入 JoyInside 后,集成知识辅导、英文对话等能力,通过沉浸式互动激发学习兴趣,人均对话轮次提升 148%。
而当下大火的人形机器人赛道,众擎人形机器人、云深处的四足机器狗在植入 JoyInside 驱动的 AI 角色后,不仅能完成基础动作指令,还能驱动机器人生成与语义内容高度协调统一的动作,显著提升产品表现力与竞争力。
大模型与xx智能是当下最火的两个领域,其中xx智能作为承载大模型技术的最佳终端载体,身价仍在持续水涨船高。有数据显示,2024 年,中国xx智能市场规模已经达到 8634 亿元,预计 2025 年中国xx智能市场规模有望达到 9731 亿元。
而今年也被称为xx智能量产元年,越来越多的机器人开始走向工厂,走向家庭。
何晓冬也表示,未来每家可能拥有一台人形机器人,机器狗数量或将增长三倍,机器人形态将更加多样,甚至出现大机器人带小机器人的场景,行业发展空间广阔。
面对这一广阔蓝海,包括xx、美团、aLI巴巴、腾讯在内的各大厂也在纷纷布局xx智能赛道。
最近的消息是,xx前不久密集投资了 4 家xx智能企业,包括已经接入 JoyInside 的众擎机器人,以及智元机器人、千寻智能、逐际动力。
而如今又官宣机器人「大脑」般存在的 JoyInside,可见,xx正通过「自研 + 投资 + 生态共建」的布局来深度切入xx智能领域。
据了解,xx现面向广大机器人、AI 玩具、智能硬件品牌开放附身智能招募计划,JoyInside 限时免费接入,不仅仅是大模型能力支持,还提供完整端到端的「软件 + 硬件 + 内容生态」一体化方案。现支持 SDK、盒子(即插即用模块)、API 三种灵活对接方式,xx还大力投入营销渠道与资源,持续陪跑品牌,共同打造下一款 AI 爆品,驱动新消费升级。
除了数字人和 JoyInside 这两个活跃在聚光灯下的领域,xx全新升级的 JoyAI 大模型,已然深入零售、物流、医疗、工业等诸多领域、数百个细分业务场景。
比如物流领域的仓内无人机、无人车等智能物流设施;工业场景下,AR 眼镜可以辅助产业工人精准质检并推荐维修方案;零售体验台前,系统自动个性化推荐商品、瞬间生成海量商品广告素材…… 即便是在那些不起眼,甚至不为人所注意的角落里,xx已经在用技术重塑生产力。
xxAI 走向深度应用的背后,完善的供应链和广阔的产业场景优势
「落地」「深度应用」是 2025 年 AI 的主线任务,业界普遍认为时候到了,大模型技术不能再停留在实验室,要走出去,走向更广阔的产业界。
而不管是从具体的数据还是一个个鲜活的案例来看,一个明显的事实是,xx AI 已经进入「深度应用」阶段。
但如果扒开仔细看,不同于很多先卷技术再卷应用的路线,xx的模型似乎本身就是「生」于产业、「长」于产业的。
比如,用 ChatGPT 引爆大模型时代,高举高打向着「AGI」进攻的 OpenAI,如今也在思考模型落地的方式方法。而xx早期既没有全力去卷基础大模型,也不是专门聚焦某一垂类大模型,从 2023 年开始推出大模型开始就是在走一条相对独特的道路:既做「大」也做「小」,力求通过 70% 通用数据和 30% 供应链原生数据,面向行业有实际需求的场景落地。
这既是由xx独特的供应链和产业场景决定的,同时也解释了为什么xx可以如此快速就进入「深度应用」阶段。
有数据显示,xx自 2017 年全面向科技创新转型以来,截至今年一季度,研发投入已累计达 1456 亿元,而这些研发都是直接面对内部供应链的各个环节、各大场景中的实际业务需求进行的。因此,xx大模型的技术演进路线图,也是xx在产业上落地应用的路线图,两者齐驱并进。
数据显示,目前xx内部已部署超 2 万个智能体,承担了企业超过 18% 的工作内容,覆盖外卖员招聘、财务管理等多个业务环节。
与此同时,各类大模型应用也深入到xx零售、物流、医疗等细分垂直的业务场景,为超过数十万的商家、快递员提供支持,明显提升了工作效率与服务体验。
而反过来,xx多年耕耘,积累了数量庞大、优质的行业数据,而这些数据则是来自xx内部零售、健康、物流、金融等数百个真实场景打磨过的。对于大模型来说,场景是「土壤」,数据是「养料」,基于此训练出来的大模型在推向行业界时,实用性更强。
所以,在xx AI 已经全面渗透内部业务后,xx已经试着将 AI 的技术积累和能力向外释放。
此次 WAIC 期间,xx正式宣布开源 JoyAgent 智能体。
据了解,成长于xx自身业务系统的 JoyAgent 智能体, 既能高效解决通用问题,又能应对复杂商业流程,提供精准决策支持,主要具备三大核心特性:
100% 开源:xx云 JoyAgent 智能体,整体开源了智能体产品能力,开发者可以快速部署,拥有专属的企业级多智能体产品;
高可用性:平台预置了多种子智能体,支持 html、ppt、markdown 多种文件交付样式,搭配高并发 DAG 执行引擎,可以真正实现开箱即用,用户还可本地独立部署,使用更灵活;
更强性能:JoyAgent 智能体历经xx内部大规模场景锤炼,超 2 万个智能体实践,产品可靠性得到验证,在 GAIA 榜单准确率超过 75%,已超越众多行业知名产品。
不管是个人开发者、初创公司,还是企业级开发者,都可以「拿来即用」,帮助企业智能化升级。
实践是检验真理的唯一标准,好的 AI 不应该只停留在实验室里,要走出来,扎根于产业才知道好不好用。
而xx通过数字人、JoyInside 附身智能、JoyAgent 智能体平台等技术产品与平台,一方面是在展示自身实力,同时也是在将内部场景验证的能力转化为外部商业解决方案,形成生态扩张动能,促进整个产业加速走向更为智能化的未来。
正如何晓冬所言:「大模型的能力光谱在变、参数尺寸在变,不变的是让产业用好大模型,只有深耕产业,让大模型在产业里跑起来,才是最有价值的事情。」
#siiRL
开启RL Scaling新纪元,siiRL开源:完全分布式强化学习框架,支持超千卡规模高效训练
还在为强化学习(RL)框架的扩展性瓶颈和效率低下而烦恼吗?当模型和集群规模达到上千块 GPU 时,传统的中心化控制器架构难免会遇到性能瓶颈、内存溢出甚至系统崩溃。
事实上,当前最顶尖的基础模型,从 DeepSeek-R1,到 o3-pro, Gemini 2.5-pro 和 Claude-4,其卓越的推理能力都离不开大规模强化学习的加持。这充分表明,RL Scaling 已经成为大模型领域迈向更高智能的 “军备竞赛” 核心,是大势所趋。而 xAI 最近发布的 Grok 4,更是将这一趋势推向了新的高度,他们直接在其拥有的 200,000 块 GPU 大集群上,以前所未有的 “后训练规模” 来运行强化学习,旨在精进模型的推理能力。
Grok 4 和其他顶尖推理模型的成功共同揭示了一个明确的事实:解决强化学习的扩展性瓶颈,已不再仅仅是一个工程挑战,而是解锁下一代 AI 高级推理能力、实现更强通用智能的关键所在。因此,对 RL Scaling 的投入和研究,是未来 AI 发展的重要方向和核心战略。
现在,来自上海创智学院的研究团队正式推出 siiRL,一个支持大规模高效强化学习训练的 RL 框架!
siiRL 的核心在于其创新的 多控制器 范式和 全分布式 架构,它将数据加载、计算和数据流转等任务均匀地分散到所有工作节点,从根本上解决了传统 RL 框架中由单一控制器引发的性能瓶颈。
线性扩展:全分布式架构带来近乎线性的扩展能力,已在 1024 GPU 规模下成功验证 。
性能再飞跃:彻底消除单点瓶颈,实现最高达到 7 倍 的端到端训练吞吐提升 。
极致灵活:基于 DAG 的工作流定义,将算法逻辑与物理资源解耦,让算法创新和实验迭代快如闪电,并且能够更灵活的支持多智能体协同训练。
跨硬件平台兼容:siiRL 现已正式支持华为昇腾(Ascend)NPU,为用户提供在不同的硬件平台上进行 RL 训练的高性能选择。
开箱即用:全面开源,轻松部署。
- 论文链接: https://arxiv/abs/2507.13833
- 代码链接: https://github/sii-research/siiRL
传统 RL 框架为何遭遇瓶颈?
解构单控制器之痛
图 1:传统单控制器架构瓶颈。所有数据操作(初始加载、中间数据流转)都需经过中心控制器,导致严重的通信开销和扩展限制 。
在主流的强化学习框架中,系统通常采用一种混合或单一控制器架构,即由一个中心化的控制器节点来调度整个执行逻辑和管理数据流 。无论是初始的数据集加载,还是各计算阶段间海量中间数据的收集与分发,所有数据都必须流经这个中心节点 。
这种设计在小规模下尚可运行,但一旦扩展到数百乃至上千 GPU,该中心节点就会因巨大的 I/O 和通信开销而成为系统的性能瓶颈 。更糟糕的是,海量数据很容易压垮中心节点的内存,导致系统崩溃(OOM),从根本上限制了系统的可扩展性和稳定性 。此外,固化的算法流程也大大增加了研究者进行算法创新的难度 。
siiRL 的高效秘诀:全分布式架构
为了彻底解决上述痛点, siiRL 创新性地采用了 全分布式架构 和 多控制器范式,移除了中心节点,将数据与计算的调度权下放到每一个工作单元 。
图 2:siiRL 架构概览
siiRL 的整体设计包含三大核心组件:
a. DAG Planner (DAG 规划器):用户可以通过配置文件灵活定义一个代表完整 RL 工作流的 有向无环图(DAG) 。DAG Planner 负责接收这个逻辑图,并将其自动解析、分解为一系列线性的执行任务,分发给每个 Worker 。这种设计将算法逻辑与物理执行完全解耦,赋予了研究者极大的灵活性 。
b. DAG Worker (DAG 工作单元):作为框架的基本执行单位,每个 DAG Worker 绑定到一个 GPU,并独立执行由 DAG Planner 分配的任务链 。它通过动态函数分发机制,将 DAG 节点定义(如角色、类型)与具体的计算函数实现解耦,使得框架极易扩展 。
c. Data Coordinator (数据协调器):它负责管理整个数据生命周期,确保数据在全分布式系统中的高效、正确流动 。
i. Distributed Dataloader:在初始加载阶段,每个 Worker 只加载自己所需的数据分片,通过并行加载的方式从源头避免了单点瓶颈 。
ii. Distributed Databuffer:在阶段转换时,当并行策略(如数据并行度)发生变化,Databuffer 会自动完成跨节点的数据重组与分发,确保数据流无缝衔接 。
图 3:Distributed Databuffer 示意图。当数据并行从 2(生成阶段)变为 4(训练阶段)时,Databuffer 自动将数据重新切分并分发给正确的 Worker 。
效果验证:速度与扩展性双丰收,
性能依旧强劲!
我们在涵盖 7B 到 72B 的多种模型尺寸和算法上,将 siiRL 与当前最主流的开源框架 verl 进行了全面对比。实验结果证明了 siiRL 架构的巨大优势。
在 PPO 和 GRPO 算法的端到端训练中,siiRL 的性能全面超越基线。尤其是在数据交互量更大的 GRPO 算法下,siiRL 实现了高达 2.62 倍 的吞吐提升 。值得注意的是,在训练 72B 模型时,基线框架在 32 卡配置下便遭遇了 OOM 错误,而 siiRL 则能轻松完成任务。
图 4:使用 PPO (上) 和 GRPO (下) 算法的端到端吞吐对比。siiRL(蓝色)在所有模型尺寸和 GPU 规模上均大幅领先基线框架 verl(红色) 。
扩展性评估:千卡规模下的近线性扩展
得益于全分布式设计,siiRL 在扩展至 1024 个 GPU 时仍表现出近乎完美的线性扩展能力 。如下图所示,在训练 32B 模型时,从 64 卡扩展至 512 卡,系统依然保持了 80.5% 的线性扩展效率 。由于基线框架在同等规模下无法运行,我们转而测试其所能支持的最大训练批次大小,在此条件下,siiRL 在 VLM 设定下实现了惊人的 7 倍 速度提升。
图 5:siiRL 在 VLM 任务上的扩展性评估,展示了从 32 到 1024 GPU 规模下的近线性扩展能力 。
图 6: siiRL 和基线框架在基线框架支持最大训练批次下对比实验,7B 模型训练吞吐提升最高达到 7 倍。
数据密集型场景:优势愈发明显
在长上下文这类数据密集型任务中,siiRL 的优势愈发凸显 。随着上下文长度从 8k 增加到 64k,siiRL 相对于基线的领先优势从 1.48 倍扩大到 2.03 倍 。这充分证明,数据通信量越大,siiRL 的全分布式数据流设计的效率提升就越高 。
图 7:长上下文性能评估。随着上下文长度增加,siiRL(蓝色)的性能优势愈发显著 。
收敛性验证:性能提升,精度无损
为了确保性能提升不以牺牲模型精度为代价,我们进行了收敛性对比实验 。结果表明,在完全相同的超参数下,siiRL 和基线框架的奖励值与熵值曲线几乎完全重合 。这意味着,siiRL 在将训练总耗时大幅减少的同时,保证了与基线完全一致的训练效果 。
图 8:收敛性对比。siiRL 与基线框架的训练曲线趋势一致,证明其优化不影响模型最终精度 。
未来计划:
我们基于 DAG 的灵活设计,为构建复杂的 “多智能体系统” 奠定了天然且坚实的基础。展望未来,我们计划将多智能体支持作为系统的核心特性进行重点拓展,这包括支持更复杂的智能体交互工作流,扩展对多智能体强化学习(MARL)算法的兼容性,并实现更丰富的智能体与环境的交互机制,从而将我们的框架打造为一个功能全面的多智能体研发平台。
总结:
开启大规模强化学习新纪元
本文介绍了 siiRL,一个为解决大规模 RL 训练中的扩展性和灵活性挑战而设计的全新框架 。通过创新的全分布式架构 和用户自定义的 DAG 驱动流程,siiRL 不仅彻底解决了传统单控制器设计的瓶颈问题,实现了千卡规模的近线性扩展和高达 7 倍的吞吐提升,还极大地增强了框架的灵活性,加速了算法的创新迭代周期 。
我们相信这项工作为大规模强化学习研究铺平了道路,提供了一个更高效、更灵活、真正可扩展的解决方案 。欢迎大家试用 siiRL,共同迈向大规模 AI 的未来!
上海创智学院 AI Infra 团队介绍
siiRL 诞生于上海创智学院产学研一体化人才培养模式。
- 团队成员包括来自国内 31 所顶尖高校的博士生和一线大厂丰富产业经验的导师,含万卡集群建设者、中国第一批 CUDA 开发者、国产芯片优化专家、互联网大厂机器学习平台负责人等。
- 全链路开源:从硬件到框架,代码 100% 开放。
- 团队核心目标:让大模型跑在中国芯,让 AGI 基石全球共享。
发布者:admin,转转请注明出处:http://www.yc00.com/web/1754440470a5161644.html
评论列表(0条)