Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science

本文是LLM系列文章,针对《Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science》的翻译。释放大型语

本文是LLM系列文章,针对《Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science》的翻译。

释放大型语言模型在数据科学预测表格任务中的潜力

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 方法
  • 4 实验
  • 5 结论

摘要

在数据科学领域,缺失值的分类、回归和插补等预测任务通常会遇到与表格数据相关的挑战。本研究致力于将大型语言模型(LLM)应用于解决这些预测任务。尽管LLM在理解自然语言方面很熟练,但在处理结构化表格数据方面却达不到要求。这种限制源于他们在基础训练期间缺乏对复杂表格数据的了解。我们的研究旨在通过编译一个由指令注释的表组成的综合语料库,并在这个丰富的数据集上执行Llama-2的大规模训练,来缓解这一差距。此外,我们还研究了将训练模型应用于零样本预测、小样本预测和上下文学习场景的实际应用。通过广泛的实验,我们的方法显示出对现有基准的显著改进。这些进步突出了调整LLM训练以解决数据科学中与表格相关的问题的有效性,从而在利用LLM增强表格智能方面建立了一个新的基准。

1 引言

2 相关工作

3 方法

4 实验

5 结论

这项研究开始弥合大型语言模型(LLM)及其在处理结构化表格数据方面的应用之间的差距,结构化表格数据是数据科学的主要内容,但在LLM研究中尚未得到充分探索。通过在Kaggle和其他以表格为中心的来源的精选数据集上对Llama-2模型进行预训练,我们在分类、回

发布者:admin,转转请注明出处:http://www.yc00.com/web/1754376412a5153406.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信