Qwen2.5
9月19日,阿里发布了最新的开源模型Qwen2.5系列。
最新发布Qwen2.5系列中,还有编程专用Qwen2.5-Coder和数学专用Qwen2.5-Math。所有开源模型为稠密、decoder-only,提供多种规模版本。
- Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 以及72B;
- Qwen2.5-Coder: 1.5B, 7B, 以及即将推出的32B;
- Qwen2.5-Math: 1.5B, 7B, 以及72B。
除了3B和72B的版本外,所有的开源模型都采用了 Apache 2.0 许可证。此外,还开源了 多模态大模型Qwen2-VL-72B,这个版本相比上个月,其性能有所增强。
Qwen2.5模型整体优点如下:
- 模型训练数据集使用了18万亿个token:这使得Qwen2.5在多个数据集上获得效果更好,在MMLU数据集上达85+,同时在编码(HumanEval 85+)和数学(MATH 80+)方面的能力有了很大的提高。
- 最长支持128K上下文输入,最长输出8K token文本
- 支持超过29种语言:包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。
- 新推出两个专业化模型,用于编码的 Qwen2.5-Coder 和用于数学的 Qwen2.5-Math
最近,各家厂商开始在小语言模型(SLM)发力。在我们的一般认知中,SLM模型对比LLM模型,其效果会差距很大,但是这个差距再慢慢缩小。即使是只有 30 亿个参数的模型现在也能提供极具竞争力的结果。
从上图可以看出来:在 MMLU 中得分高于 65 的新模型越来越小,突显了语言模型知识密度的加速增长。 Qwen2.5-3B 模型更是以最低的参数量,达到了这个分数值。
Qwen2.5-Math模型 VS o1大模型
Qwen2.5系列最让人关注的其实是Qwen2.5-Math,它具有较为强大的数学推理能力。目前实测了一下Qwen2.5-Math模型的效果,在效果上和o1大模型差不多。
这个模型是特定针对数学能力进行推理。但是Qwen2.5-Math模型看起来并不打算蹭o1大模型的热度,林俊旸表示,它像猕猴桃而非草莓,意味着有显著不同,且无基于过程的深度推理能力。
到底Qwen2.5-Math效果怎么样,可以直接拿数学题目给他进行测试。从我测试的效果来看,这个模型的做题思路来看是对的,但是在数字比较大小的时候还是会出错
这里那了2024年高考数学题目给它解答:
先来看看正确的答案是:7/15
由于它支持图片输入,因此直接用图片进行问答:
一开始整个解答过程没有什么错误:它先定义了a,b,c三个作为前三次抽到的号码,然后可以得到
发布者:admin,转转请注明出处:http://www.yc00.com/web/1755053719a5233716.html
评论列表(0条)