Michel Johnson's Blog

从“被动问答”到“主动自治”：大模型 Agent 架构设计深度剖析

Posted on 2026-05-20 In AI 技术

引言

告别“胡言乱语”：解锁大模型推理极限的 Prompt 工程高阶指南 (CoT 与 Few-Shot 深度解析)

Posted on 2026-05-20 In AI 技术

在与大语言模型（LLM）交互的过程中，你是否经常遇到这样的场景：当你把一个复杂的问题抛给模型时，它要么给出一个看似合理实则错误的答案，要么直接“胡言乱语”？

把大模型塞进手机里：边缘端 LLM 部署框架 llama.cpp、MLC 与 MNN 深度解析

Posted on 2026-05-20 In AI 技术

编辑导读： 当 ChatGPT 席卷全球时，我们习惯了在云端享受大语言模型（LLM）带来的震撼。然而，随着隐私安全、网络延迟和高昂的 API 成本日益凸显，一个不可逆转的趋势正在发生——大模型正在从云端“下沉”到边缘设备。从 MacBook 到 Android 手机，再到树莓派，如何在算力、内存受限的设备上流畅跑通千亿级参数的模型？本文将带你深入剖析当前边缘端 LLM 部署的三大主流框架：llama.cpp、MLC LLM 与 MNN，并通过原理解析与实战代码，助你玩转端侧大模型。

拒绝“金鱼脑”：深入剖析 AI Agent 的记忆系统（短期、长期与工作记忆）

Posted on 2026-05-20 In AI 技术

在当前的大语言模型（LLM）时代，AI Agent（人工智能代理）正在从单纯的“对话机器人”进化为能够执行复杂任务的“数字员工”。然而，只要稍微深入使用过原生的 LLM API，你都会遇到一个致命的问题：大模型是“无状态”的。

告别“碎片化”幻觉：Graph RAG 如何用知识图谱重塑大模型检索生成

Posted on 2026-05-20 In AI 技术

引言：大模型的“记忆”困境与 RAG 的进化

大模型背后的“黑魔法”：深入剖析 Tokenization（BPE、WordPiece 与 SentencePiece）

Posted on 2026-05-20 In AI 技术

当我们惊叹于 ChatGPT 的对答如流，或者沉醉于 Llama 3 生成的优美代码时，我们通常会将功劳归结于模型庞大的参数量、精妙的 Transformer 架构或是海量的训练数据。然而，在这些宏大的叙事之下，隐藏着一个经常被忽视、却至关重要的基础组件：Tokenization（分词）。

别再盲目“调戏”Prompt了！深入剖析大模型上下文学习（ICL）的底层机制与高阶玩法

Posted on 2026-05-20 In AI 技术

引言

从“金鱼脑”到“过目不忘”：深度解析 AI Agent 的三层记忆系统架构与实战

Posted on 2026-05-20 In AI 技术

引言：为什么 AI Agent 需要记忆？

揭秘大模型“一本正经地胡说八道”：幻觉成因与高级缓解策略实战

Posted on 2026-05-20 In AI 技术

引言

2024 向量数据库选型指南：Milvus vs Chroma vs Qdrant 深度对决

Posted on 2026-05-20 In AI 技术

在 AIGC（生成式 AI）和大模型席卷全球的今天，“如何让大模型拥有私有记忆和领域知识” 已经每个技术团队必须面对的课题。基于 RAG（检索增强生成）架构的落地应用成为了主流，而 RAG 的核心基础设施，正是向量数据库。

0%