Michel Johnson's Blog

Catch the future

编辑导读: 当 ChatGPT 席卷全球时,我们习惯了在云端享受大语言模型(LLM)带来的震撼。然而,随着隐私安全、网络延迟和高昂的 API 成本日益凸显,一个不可逆转的趋势正在发生——大模型正在从云端“下沉”到边缘设备。从 MacBook 到 Android 手机,再到树莓派,如何在算力、内存受限的设备上流畅跑通千亿级参数的模型?本文将带你深入剖析当前边缘端 LLM 部署的三大主流框架:llama.cppMLC LLMMNN,并通过原理解析与实战代码,助你玩转端侧大模型。

Read more »
0%