第二篇：大模型技术进化之GPT-1,2,3

admin•2025-09-17 03:26:31•网站建设•阅读21

GPT进化论在有了Transformer之后，模型具备对一个长序列预测next token的能力，也就诞生了接下来的GPT-1,2,3等等。 GPT-1 GPT全称为Generative Pre-Training, 其本质是一个无监督

GPT进化论

在有了Transformer之后，模型具备对一个长序列预测next token的能力，也就诞生了接下来的GPT-1,2,3等等。

GPT-1

GPT全称为Generative Pre-Training, 其本质是一个无监督的预训练模型。这个基模型可以根据上文context推理next-token。其下游任务，例如文本翻译，情感分类等都需要增加了诸如有监督微调，奖励模型和RLHF（增强学习）等微调手段，使得GPT模型可以在相应的下游任务发挥作用。所以GPT1提出了LLM的一个基本开发范式就是分两步走：

1.pretrain：在无监督大数据集，推理next-token产生基模。
2.finetune：在有监督小数据集，根据任务微调模型，产生下游模型。

其实预训练+微调的方式在cv领域由来已久，但是nlp领域很难做。原因在于nlp缺乏大量高质量标注，且文字信息比图像更加难以被计算机理解。这两个问题在Transformer横空出世后都得到了解决。之后的LLM应用，包括ChatGPT也是基于这一思想的产物，只不过它的微调过程较为复杂。

小结GPT 1这篇文章（ Improving Language Understanding by Generative Pre-Training），它的key contribution可以概括如下：

利用Transformer架构实现了LLM的基本框架——pretrain+finetune。大数据预训练，再通过小数据微调align大模型的"knowledge"。
抽象出了一个NLP的base task——next-token prediction，并认为这种模型实际上在训练过程中隐式的学习到了文章的结构和逻辑关系。
无监督数据训练。

但是，GPT-1也有一定的缺点。一是上游base model的知识align到下游任务的时候，仍然需要额外的训练进行finetune，这种对齐方式较为低效且成本较高。二是模型表征能力不足，很多任务表现其实比不过很多传统方案训练出的模型。

GPT-2

除了finetune到下游任务，GPT-2提出了一种更为高效的alignment的方式--prompting。

例如我们现在需要gpt这个base model去做一个常见的任务：read

发布者：admin，转转请注明出处：http://www.yc00.com/web/1754772388a5200220.html

第二篇模型技术 GPT

admin

网站建设
Kubernetes 网络模型架构详解：组件通信、网络入口与出口
个人名片🎓作者简介：java领域优质创作者 🌐个人主页：码农阿豪 📞工作室：新空间代码工作室&am
admin
1月前
210
网站建设
Windows11 Copilot助手开启教程(免费GPT-4)
Windows11上开启Copilot助手教程+踩坑指南 Copilot介绍 Copilot开启步骤 1、更新系统 2、更改语言和区域 3、下载 ViVeTool 工具 4、开启Copilot 使用 Copilot介绍 Windows C
admin
1月前
140
网站建设
【人工智能】【好物推荐】大模型统一接入路由器OpenRouter，为开发者提供了一个便捷的平台，通过统一接口快速接入多种大模型，降低了开发成本和难度。
一、OpenRouter简介 OpenRouter是一个大模型API路由器，旨在将各种AI模型和服务集成到一个统一的接口中，简化模型的集成和部署过程。OpenRouter为开发者提供了一个便捷的平台，通过统一接口快速接入多种大模型，降低了
admin
1月前
210
网站建设
金仓数据库KingbaseES技术实践类深度剖析与实战指南
一、语法兼容及迁移实战（一）语法兼容的多元魅力在当今多元化的数据库应用环境中，金仓数据库管理系统KingbaseES凭借其卓越的语法兼容能力脱颖而出。它采用的融合数据库架
admin
1月前
170
网站建设
设计模式行为型策略模式（Strategy Pattern）与常见技术框架应用解析
策略模式（Strategy Pattern）核心思想是将算法的实现从使用该算法的类中分离出来，作为独立的对象，通过接口来定义算法家族&#xff0
admin
1月前
150
网站建设
Auto-GPT来啦，手把手教你安装更稳定的stable的Auto-GPT，实现两个AutoGPT合作执行任务，AutoGPT代理同时执行任务
进入Auto-GPT项目 https:githubSignificant-GravitasAuto-GPT 在安装之前，你需要确保本地已安装好 Python 开发环境。 Auto-GPT 具体安装步骤如下&
admin
1月前
120
网站建设
如何安装Auto-GPT
如何安装Auto-GPT 记录一下如何安装Auto-GPT 文章目录如何安装Auto-GPT前提克隆项目进入项目目录安装所需的依赖重命名 .env.template 文件填写API_KEY创建auto-gpt.json文件运行 Auto-G
admin
1月前
180
网站建设
autogpt环境搭建 Auto-GPT环境搭建
下载与环境配置项目地址：https:githubSignificant-GravitasAuto-GPT git clone https:githubSignificant-GravitasAuto-GPT.gitc
admin
1月前
150
网站建设
LSB隐写技术
LSB (Least Significant Bit) 隐写技术是一种将隐藏信息嵌入到图像或音频文件中的方法。这种方法的基本原理是利用像素或样本点的最低有效位 (LSB) 来存储隐藏信息。具体来说，对于图像文件来说&
admin
1月前
170
网站建设
[每周一更]-(第117期)：硬盘分区表类型：MBR和GPT区别
文章目录1. **支持的磁盘容量**2. **分区数量**3. **引导方式**4. **冗余和数据恢复**5. **兼容性**6. **安全性**7. **操作系统支持**8. 对比国庆假期前补一篇在一次扫描机械硬盘故障的问题&
admin
1月前
190
网站建设
一文彻底搞懂 MCP：AI 大模型的标准化工具箱
MCP 最近在 AI 领域引发了广泛关注，特别是在海外各大社区中，大家热烈讨论，热度相当高。我打开了 Google Trends，这是一个专
admin
1月前
210
网站建设
20.5 2025大模型显卡选型终极指南：天梯榜+闭坑攻略，这样选省50%预算！
2025大模型显卡选型终极指南：天梯榜+闭坑攻略，这样选省50%预算！大模型核心硬件选型指南：显卡性能天梯榜关键词：大模型训练显卡选型、Tensor Core性能、显存带宽、FP16算力、性价比分析显卡选型三维评估体系大模型训
admin
1月前
170
网站建设
私有化AI部署秘诀：如何挑选适合的大模型GPU
随着人工智能技术的迅猛发展，选择合适的硬件对于大模型的训练和推理变得至关重要。本文将深入探讨大模型所需的硬件，特别是GPU（图形处理单元）和CPU&am
admin
1月前
180
网站建设
百度文心大模型 4.5 开源深度测评：技术架构、部署实战与生态协同全解析
声明：本文只做实际测评，并非广告 1.前言 2025 年 6 月 30 日，百度做出一项重大举措，将文心大模型 4.5 系列正式开源&#xff
admin
1月前
180
网站建设
51c大模型~合集106
我自己的原文哦~ https:blog.51ctowhaosoft13115290 #GPT-5、 Opus 3.5为何迟迟不发新猜想：已诞生，被蒸馏成小模型来卖「从现在开始&a
admin
1月前
210
网站建设
【电子数据取证技术】第一章概述
电子数据取证技术第一章电子数据取证技术概述01 网络犯罪及其主要特点1.1 计算机犯罪与网络犯罪1.2 常见的网络犯罪形式1.3 网络犯罪的特点02 电子数据的概念2.1 电子证据与电子数据2.2 电子数据的常见类型2.3 现行法律对电子
admin
1月前
190
网站建设
文生图中从扩散模型到流匹配的演变：从SDXL到Stable Diffusion3(含Flow Matching和Rectified Flow的详解)
前言在此之前，本博客内已经介绍了扩散模型、SD等相关的原理及其对应的详细推导很明显，OpenAI的首个视频生成模型sora极大程度的提高了大家对文生图、文生视频的热情&#xff0c
admin
1月前
170
网站建设
360 AI助手引领混合大模型新时代
在8月1日举行的ISC.AI2024第十二届互联网安全大会·人工智能峰会上，360创始人周鸿祎发布了一款具备颠覆性意义的新产品——“AI助手”。这一产品不仅接入了16家国内主流大模型厂商，还在多项
admin
1月前
240
网站建设
深度学习：模型训练过程中Trying to backward through the graph a second time解决方案
1 问题描述在训练lstm网络过程中出现如下错误：Traceback (most recent call last):File "D:codelstm_emotion_analysetext_analy
admin
1月前
210
网站建设
Passthrough技术简介
原文地址：https:wwwblogszhuguihuaarchive201211032752841.html 如有侵权请联系删除目前，Intel和AMD都在处理器架构中提供了对
admin
1月前
170

发表回复

评论列表（0条）

暂无评论

第二篇：大模型技术进化之GPT-1,2,3

发表回复

评论列表（0条）

联系我们

400-800-8888

第二篇：大模型技术进化之GPT-1,2,3

相关推荐

发表回复

评论列表（0条）

联系我们

400-800-8888