Ilya错了?Scaling另有他用,ViT大佬力挺谷歌1000亿数据新发现
编辑:KingHZ
【新智元导读】谷歌发布了1000亿文本-图像对数据集,是此前类似数据集的10倍,创下新纪录!基于新数据集,发现预训练Scaling Law,虽然对模型性能提升不明显,但对于小语种等其他指标提升明显。让ViT大佬翟晓华直呼新发现让人兴奋!
预训练Scaling Law到尽头了?
ViT大佬翟晓华(Xiaohua Zhai)并不这样认为,至少在多模态模型上并非如此。
他公布了最新的关于多模态Scaling的最新见解,而训练数据达到了1000亿的规模!
什么长尾任务的新发现让他兴奋?
一句话就是,Illya所说的「Scaling Law」即将终结,不太对。
新研究通过实验表明,1000亿数据规模对已有基准测试提升可能非常小,但显著影响了一些「非主流」的小众探索领域。
让大牛翟晓华眼前一亮点是:泰卢固语(Telugu)表现显著提升,即使仅占数据集的0.036%!
数据集中语言的长尾分布:左二表示泰卢固语的比例
图1总结了通过数据扩展实现的文化多样性和多语言性的提升。
图1:数据扩展所实现的文化多样性和多语言性的提升
左图显示了将数据规模从100亿扩展到1000亿训练数据,在文化多样性和多语言能力方面的提升比其他指标更加显著。
右图给出了数据规模影响的示例说明。最左边的两个是以为西方中心的指标,扩展数据到1000亿时,收益不大;而最右边的两个则展示了文化多样性和多语言能力的提升。
这让OpenAI的工程师Lucas Beyer不禁发帖质疑下列流传甚广的观点:
预训练scaling结束了 10-40亿图片足够了
他认为这类观点都是些缥缈的「神话」,而此类论断之所以甚嚣尘上,是因为忽视了下列提醒:
-你一叶障目,目光短浅 -不要只盯着美国可疑的评估指标 -拓展到1000亿预训练图片,会极大促进模型的文化和语言包容性
2023年,还在谷歌的Lucas Beyer见到实验结果时,就燃起了对泰卢固语的兴趣:
新研究的主要贡献如下:
1. 数据规模对于构建真正包容的多模态系统至关重要。
2. 质量过滤器(例如基于CLIP的过滤器)虽然通常用于提高整体数据质量,但可能会不经意限制数据集的多样性。
3. 发布了史无前例的1000亿视觉-语言数据集,并实证研究了数据集的潜力。
论文链接:.07617
Scaling Law的信仰:数据规模x10
视觉-语言模型(VLMs)的进展,与大规模数据集的可用性密切相关。
在过去,模型的发展,就是「大力出奇迹」:数据规模越大,模型误差越小,性能越高。
数据规模与模型性能之间的关系通常遵循幂律:
发布者:admin,转转请注明出处:http://www.yc00.com/web/1748361752a4768905.html
评论列表(0条)