Michel Johnson's Blog

从 GPT 到 Claude：主流大模型架构演进史与核心技术解码

Posted on 2026-05-23 In AI 技术

引言：大航海时代的引擎进化

解密大模型的第一道关卡：深度剖析 Tokenization（BPE、WordPiece 与 SentencePiece）

Posted on 2026-05-23 In AI 技术

当我们惊叹于 ChatGPT 的对答如流，或是感叹 LLaMA 能够吟诗作赋时，我们往往会将功劳归结于 Transformer 架构的精妙、海量训练数据的堆积以及 RLHF 等对齐技术的魔法。然而，在这些宏大的叙事之下，隐藏着一个极其基础却至关重要的环节——Tokenization（分词）。

告别玄学！从数学本质彻底搞懂 Transformer 的注意力机制

Posted on 2026-05-23 In AI 技术

提到 Transformer，很多人脑海中第一时间浮现的往往是那句名言：“Attention is all you need”。作为大语言模型（LLM）、Vision Transformer（ViT）等当今最前沿 AI 技术的基石，注意力机制已经成为每个算法工程师乃至 AI 爱好者必须跨越的门槛。

突破内存与算力瓶颈：大模型推理优化的“三驾马车”——量化、剪枝与知识蒸馏

Posted on 2026-05-23 In AI 技术

引言：大模型落地的“阿喀琉斯之踵”

突破模态壁垒：多模态大模型融合架构的演进与统一理解之道

Posted on 2026-05-23 In AI 技术

引言：从“盲人摸象”到“全知全觉”

从规则到大模型：命名实体识别（NER）技术的演进之路与实战指南

Posted on 2026-05-23 In AI 技术

在自然语言处理（NLP）的浩瀚星空中，命名实体识别（Named Entity Recognition, 简称 NER） 一直是一颗璀璨的基石之星。无论是智能客服、搜索引擎，还是医疗病历结构化、金融风控，NER 都扮演着将“非结构化文本”转化为“结构化知识”的关键角色。

从“左右互搏”到“字斟句酌”：AI 图像生成的进化之路 (GAN 到 Diffusion 全面解析)

Posted on 2026-05-23 In AI 技术

引言：如果你在两年前关注过 AI 绘画，你可能会惊叹于 GAN（生成对抗网络）创造的逼真人脸；而今天，当你看到 Midjourney、Stable Diffusion 或是 DALL-E 3 仅凭几句简短的提示词就能生成大师级别的艺术作品时，你是否想过，这背后究竟发生了什么？

从 GAN 的“左右互搏”，到 VAE 的“意念压缩”，再到 Diffusion Model 的“字斟句酌”（去噪），AI 图像生成经历了一场范式级的革命。本文将带你深入浅出地剖析这条进化之路背后的核心逻辑、数学原理以及代码实现。