Ilya错了?Scaling另有他用,ViT大佬力挺谷歌1000亿数据新发现

新智元报道编辑:KingHZ【新智元导读】谷歌发布了1000亿文本-图像对数据集,是此前类似数据集的10倍,创下新纪录!基于新数据集,发现预训练ScalingLaw,虽然对模型性能提升不明显,但对于小语种等其他指标提升明显。让ViT

Ilya错了?Scaling另有他用,ViT大佬力挺谷歌1000亿数据新发现

新智元报道

编辑:KingHZ

【新智元导读】谷歌发布了1000亿文本-图像对数据集,是此前类似数据集的10倍,创下新纪录!基于新数据集,发现预训练Scaling Law,虽然对模型性能提升不明显,但对于小语种等其他指标提升明显。让ViT大佬翟晓华直呼新发现让人兴奋!

预训练Scaling Law到尽头了?

ViT大佬翟晓华(Xiaohua Zhai)并不这样认为,至少在多模态模型上并非如此。

他公布了最新的关于多模态Scaling的最新见解,而训练数据达到了1000亿的规模!

什么长尾任务的新发现让他兴奋?

一句话就是,Illya所说的「Scaling Law」即将终结,不太对。

新研究通过实验表明,1000亿数据规模对已有基准测试提升可能非常小,但显著影响了一些「非主流」的小众探索领域。

让大牛翟晓华眼前一亮点是:泰卢固语(Telugu)表现显著提升,即使仅占数据集的0.036%!

数据集中语言的长尾分布:左二表示泰卢固语的比例

图1总结了通过数据扩展实现的文化多样性和多语言性的提升。

图1:数据扩展所实现的文化多样性和多语言性的提升

左图显示了将数据规模从100亿扩展到1000亿训练数据,在文化多样性和多语言能力方面的提升比其他指标更加显著。

右图给出了数据规模影响的示例说明。最左边的两个是以为西方中心的指标,扩展数据到1000亿时,收益不大;而最右边的两个则展示了文化多样性和多语言能力的提升。

这让OpenAI的工程师Lucas Beyer不禁发帖质疑下列流传甚广的观点:

预训练scaling结束了 10-40亿图片足够了

他认为这类观点都是些缥缈的「神话」,而此类论断之所以甚嚣尘上,是因为忽视了下列提醒:

-你一叶障目,目光短浅 -不要只盯着美国可疑的评估指标 -拓展到1000亿预训练图片,会极大促进模型的文化和语言包容性

2023年,还在谷歌的Lucas Beyer见到实验结果时,就燃起了对泰卢固语的兴趣:

新研究的主要贡献如下:

1. 数据规模对于构建真正包容的多模态系统至关重要。

2. 质量过滤器(例如基于CLIP的过滤器)虽然通常用于提高整体数据质量,但可能会不经意限制数据集的多样性。

3. 发布了史无前例的1000亿视觉-语言数据集,并实证研究了数据集的潜力。

论文链接:.07617

Scaling Law的信仰:数据规模x10

视觉-语言模型(VLMs)的进展,与大规模数据集的可用性密切相关。

在过去,模型的发展,就是「大力出奇迹」:数据规模越大,模型误差越小,性能越高。

数据规模与模型性能之间的关系通常遵循幂律:

发布者:admin,转转请注明出处:http://www.yc00.com/web/1748361752a4768905.html

相关推荐

  • Ilya错了?Scaling另有他用,ViT大佬力挺谷歌1000亿数据新发现

    新智元报道编辑:KingHZ【新智元导读】谷歌发布了1000亿文本-图像对数据集,是此前类似数据集的10倍,创下新纪录!基于新数据集,发现预训练ScalingLaw,虽然对模型性能提升不明显,但对于小语种等其他指标提升明显。让ViT

    1天前
    40

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信