GPT进化论
在有了Transformer之后,模型具备对一个长序列预测next token的能力,也就诞生了接下来的GPT-1,2,3等等。
GPT-1
GPT全称为Generative Pre-Training, 其本质是一个无监督的预训练模型。这个基模型可以根据上文context推理next-token。其下游任务,例如文本翻译,情感分类等都需要增加了诸如有监督微调,奖励模型和RLHF(增强学习)等微调手段,使得GPT模型可以在相应的下游任务发挥作用。所以GPT1提出了LLM的一个基本开发范式就是分两步走:
1.pretrain:在无监督大数据集,推理next-token产生基模。
2.finetune:在有监督小数据集,根据任务微调模型,产生下游模型。
其实预训练+微调的方式在cv领域由来已久,但是nlp领域很难做。原因在于nlp缺乏大量高质量标注,且文字信息比图像更加难以被计算机理解。这两个问题在Transformer横空出世后都得到了解决。之后的LLM应用,包括ChatGPT也是基于这一思想的产物,只不过它的微调过程较为复杂。
小结GPT 1这篇文章( Improving Language Understanding by Generative Pre-Training),它的key contribution可以概括如下:
- 利用Transformer架构实现了LLM的基本框架——pretrain+finetune。大数据预训练,再通过小数据微调align大模型的"knowledge"。
- 抽象出了一个NLP的base task——next-token prediction,并认为这种模型实际上在训练过程中隐式的学习到了文章的结构和逻辑关系。
- 无监督数据训练。
但是,GPT-1也有一定的缺点。一是上游base model的知识align到下游任务的时候,仍然需要额外的训练进行finetune,这种对齐方式较为低效且成本较高。二是模型表征能力不足,很多任务表现其实比不过很多传统方案训练出的模型。
GPT-2
除了finetune到下游任务,GPT-2提出了一种更为高效的alignment的方式--prompting。
例如我们现在需要gpt这个base model去做一个常见的任务:read
发布者:admin,转转请注明出处:http://www.yc00.com/web/1754772388a5200220.html
评论列表(0条)