从 GPT 到 Claude:万字解码主流大语言模型架构演进史
引言:超越“炼丹”,大模型背后的硬核架构
自 ChatGPT 横空出世以来,大语言模型(LLM)已经从实验室走向了千行百业。我们在惊叹 AI 能够写诗、写代码、做推理的同时,往往容易忽略支撑这些神奇表现的底层基石——模型架构。
在很多人看来,大模型的训练就像是“炼丹”,只要数据够多、算力够大,丢进一个黑盒子里就能跑出奇迹。然而,现实并非如此。从 2017 年 Transformer 的提出,到 GPT 系列的“大力出奇迹”,再到如今以 Claude 3、GLM 为代表的架构创新与工程优化,大模型的底层架构正在经历一场极其精密且快速的演化。
本文将带你拨开迷雾,深入剖析从 GPT 到 Claude 等主流大模型的架构演进史。我们将探讨那些关键的架构创新(如 RoPE、SwiGLU、MoE、GQA),并通过实际的代码片段,让你直观感受这些改变世界的技术细节。
一、一切的起源:Transformer 与它的“偏科”
2017 年,Google 发表了那篇著名的《Attention Is All You Need》,正式提出了 Transformer 架构。这是大模型时代的滥觞。
原始的 Transformer 采用的是 Encoder-Decoder(编码器-解码器) 架构:
- Encoder(编码器):负责阅读输入文本,提取特征,生成隐藏状态。它是双向的,能同时看到上下文。
- Decoder(解码器):负责根据编码器的输出逐字生成结果。它是**单向(自回归)**的,只能看到当前词和历史词,不能“偷看”未来。
随着研究的深入,大模型的发展出现了三个截然不同的“流派”:
- Encoder-only 流派(以 BERT 为代表):只保留了编码器。极其适合文本分类、信息抽取等“理解型”任务,但在开放式文本生成上表现不佳。
- Encoder-Decoder 流派(以 T5、BART 为代表):保留了原始结构,适合翻译、摘要等 Sequence-to-Sequence 任务。
- Decoder-only 流派(以 GPT、Claude、LLaMA 为代表):大模型时代的绝对王者。研究者们发现,只要参数量足够大、数据足够多,单向的 Decoder 在进行 Next-token Prediction(预测下一个词)时,不仅学会了生成,也涌现出了极强的理解能力。
自此,Decoder-only 成为了主流大模型的标准形态。
二、GPT 王朝:大力出奇迹与标准 Decoder 的确立
OpenAI 的 GPT 系列是 Decoder-only 路线的坚定践行者。从 GPT-1 到 GPT-3,甚至传闻中的 GPT-4(尽管可能引入了 MoE),其核心架构始终围绕着因果解码器。
核心机制:自回归与因果掩码
GPT 的核心思想非常简单:给定前面的词 ,预测下一个词 的概率。
为了防止模型在训练时“看到”未来的词,GPT 在自注意力计算时引入了因果掩码。这是一个典型的下三角矩阵。
代码示例:PyTorch 实现 GPT 的因果掩码
1 | import torch |
GPT 系列证明了一个深刻的道理:架构的简洁性加上海量的数据,能产生惊人的智能涌现。 但这并不意味着架构无需演进。随着模型参数突破百亿、千亿,以及上下文窗口的急剧扩大,传统的 Transformer 架构遇到了算力和显存的墙。
三、开源界的曙光:LLaMA 引爆的架构微调革命
如果说 OpenAI 是摸黑前进的探险家,那么 Meta 推出的 LLaMA 系列则是照亮开源大模型夜空的灯塔。LLaMA 并没有发明全新的架构,而是把原有 Transformer 的每一个组件都做到了极致的工程优化。
现代主流大模型(包括后来的 Mistral, Qwen, 以及传闻中 Claude 的底层设计)几乎全部采用了 LLaMA 架构。它的核心改进有三点:RoPE、SwiGLU 和 RMSNorm。
1. 位置编码的进化:从绝对到相对
由于自注意力机制本身是“无视距离”的(词与词之间没有位置概念),必须注入位置信息。早期的 GPT 使用绝对位置编码,但这会导致模型难以外推(训练时长度为 2K,推理时无法直接支持 4K)。
LLaMA 引入了 RoPE(旋转位置编码,Rotary Position Embedding)。其核心思想是通过在复数域的旋转,将词的绝对位置信息融入到 Query 和 Key 中,从而巧妙地利用了向量内积的相对性。
代码示例:RoPE 的简化实现
1 | import torch |
RoPE 最大的优势是优秀的长度外推性,这为后来 Claude 和 GPT-4 支持高达 100K~200K 的超长上下文奠定了数学基础。
2. 激活函数的升级:SwiGLU
在传统的 Transformer 中,前馈神经网络(FFN)通常使用 ReLU 激活函数。LLaMA 将其替换为了 SwiGLU。
SwiGLU 引入了门控机制和 Swish 函数,不仅带来了更平滑的梯度传播,还在实验中表现出比 ReLU 更好的模型性能。其计算公式为:
3. 归一化的演进:RMSNorm
为了稳定深层网络的训练,GPT 使用了 LayerNorm。但 LayerNorm 需要计算均值和方差,计算开销较大。LLaMA 采用了 RMSNorm(均方根归一化)。它去除了均值计算,只计算均方根,在保持训练稳定性的同时,显著提升了计算效率。
四、Claude 与混合专家模型:突破参数扩展的极限
当我们谈论 Claude 3 或 GPT-4 时,我们面对的是能够处理极其复杂逻辑、参数量可能达到万亿级别的庞然大物。如果继续使用 LLaMA 那种 Dense(稠密)模型,即每一个 Token 的生成都需要激活模型所有的参数,那么推理成本将是天文数字。
为了解决“模型越大越聪明”与“推理太贵跑不动”的矛盾,架构演进走向了 MoE(Mixture of Experts,混合专家模型)。这也是 Claude 等现代顶级大模型在架构上的一次巨大飞跃。
MoE 架构的核心思想
MoE 的灵感来源于人类社会分工。它将原本庞大的 FFN 层拆分成多个独立的“专家网络”,并增加一个“路由机制”。
当输入一个 Token 时,路由网络(通常是一个极小的线性层加上 Softmax)会决定将这个 Token 发送给哪几个(通常是 Top-2)最擅长的专家进行处理。这样,虽然模型的总参数量极大(比如 1.8 万亿),但在实际推理时,每个 Token 只激活其中的一小部分参数(比如几百亿),从而大幅降低延迟和推理成本。
避免“专家坍塌”:负载均衡的挑战
MoE 架构在实际训练中有一个致命问题:Route Collapse(路由坍塌)。由于网络具有正反馈机制,模型很快就会学会把所有的 Token 都路由给同一个或少数几个“ favored experts”(受青睐的专家),导致其他专家得不到训练,最终退化成一个巨大的普通稠密模型。
为了解决这个问题,现代大模型(如 Mistral 8x7B,以及 Claude 背后类似的架构理念)引入了辅助损失函数,用于惩罚专家之间的负载不均衡。
代码示例:MoE 路由与辅助 Loss 计算
1 | import torch |
正是得益于 MoE 这种精巧的架构设计,像 Claude 3 这样的模型才能在保持极速响应的同时,展现出逼近甚至超越人类专家的知识储备与推理深度。
五、从 4K 到 200K:超长上下文背后的工程奇迹
在 GPT-3 时代,4K 的上下文窗口是常态。但今天,Claude 3 已经支持高达 200K 的上下文(甚至实验中达到 100 万),这也是它能够在一分钟内读完整本《红楼梦》并给出总结的关键。
支持超长上下文,不仅仅是简单地增加 RoPE 的长度。如果粗暴地将序列长度从 4K 扩大到 200K,其计算复杂度和显存占用(主要是 KV Cache)将呈平方级爆炸。
1. 注意力机制的终极优化:FlashAttention
为了解决算力瓶颈,Stanford 提出了 FlashAttention 系列算法。这虽然不是模型结构上的改变,但却是现代大模型工程架构中不可或缺的一环。
传统的 Attention 计算由于受到 GPU 内存层级(SRAM 与 HBM 之间频繁的数据拷贝)的限制,存在严重的 IO 瓶颈。FlashAttention 通过分块计算和内核融合技术,避免了将巨大的 注意力矩阵写回显存,直接在 GPU 极速但微小的 SRAM 中完成计算,从而实现了 2-4 倍的加速。
2. 显存保卫战:GQA 与 MQA
在推理阶段,生成每一个 Token 都需要用到之前所有 Token 的 Key 和 Value 矩阵(即 KV Cache)。在多头发注意力(MHA)中,每个头都有一套独立的 KV,在长文本下极易导致显存溢出(OOM)。
现代主流架构(包括 LLaMA-2/3, Claude 等)采用了 GQA(Grouped-Query Attention) 或 MQA(Multi-Query Attention)。
- MHA:每个 Head 独享 Q, K, V。
- MQA:所有的 Head 共享一套 K, V,只有 Q 是独立的。极大地节省了显存,但可能轻微损失精度。
- GQA:折中方案。将 Heads 分组,同一组内的 Heads 共享一套 K, V。
通过 GQA,大模型在超长文本推理时,其 KV Cache 占用的显存体积骤减,使得 200K 甚至更长的上下文推理在单张或少量 GPU 上成为可能。
六、从“对话”到“对齐”:架构之外的灵魂(RLHF)
如果仅仅看底层结构,哪怕是 Claude 和 GPT,其核心依然是自回归的 Transformer。那为什么 Claude 会以“安全、无害、乐于助人”且具有极高的指令遵循能力而著称呢?
这就涉及到大模型架构中最后,也是最神秘的一块拼图:对齐训练。
预训练出来的基座模型(Base Model,如原始的 LLaMA)只是一个“文字接龙”机器,它没有自我意识,也不知道如何与人对话。为了让它变成 Claude 这样的助手,需要经历基于人类反馈的强化学习(RLHF)或更新的 DPO(直接偏好优化)算法。
在此过程中,我们需要一个额外的架构:奖励模型。这是一种基于 Transformer 顶层加上一个标量输出头的网络,它学习了人类的偏好。当大模型生成回答时,RM 会给回答打分,然后大模型根据这个分数去调整自己的参数,以生成更符合人类期望的内容。
虽然 RLHF 不属于前向传播的基础拓扑结构,但它已经成为现代大模型发布前必不可少的“灵魂注入”步骤。
七、总结:大模型架构的未来走向何方?
回顾从 GPT 到 Claude 的架构演进,我们可以清晰地看到一条技术脉络:
- 拓扑结构的收敛:学术界经历了种种尝试后,工业界最终一致收敛于 Decoder-only 架构,证明了极简主义结合大数据的威力。
- 极致的工程优化:从 RoPE 到 SwiGLU,再到 GQA,模型结构上的每一处微调,都是在“榨干” GPU 的最后一滴算力。
- 稀疏性与效率:MoE 架构的广泛应用,打破了 Scaling Law 中的算力枷锁,使得万亿参数模型的日常推理成为现实。
展望未来,大模型架构将走向何方?
- 超越纯注意力机制:基于状态空间模型的 Mamba 等架构正在崛起,试图以线性复杂度取代 Transformer 的平方级复杂度,为无限上下文推理提供新的解法。
- 端侧架构的微型化:随着苹果、高通入局,大模型架构正在向异构计算、量化(如 4-bit, 2-bit 推理)和端侧低功耗架构演进。
大模型的竞争依然在加速。从 GPT-4 到 Claude 3,再到未来的未知模型,每一次智能的涌现,背后都是无数工程师在矩阵乘法、显存带宽和梯度曲线上进行的最极致的架构雕琢。理解这些架构,不仅能让我们更好地使用这些工具,更能让我们看透 AI 发展的底层逻辑。