1204 字
6 分钟
用第一性原理认识大模型
2026-01-08

一、AI 大模型的第一性原理#

抛开 AGI、意识、推理等营销词汇,现阶段 LLM(大语言模型)在计算机科学的底层只做了一件事:基于概率的无损/有损数据压缩与重构。其核心公式如下:

AI=Data×Compute×ArchitectureAI = Data \times Compute \times Architecture
  • Data (数据):智能的燃料。它决定了模型认知的“上限”。在 LLM 语境下,它不仅仅是文本,而是人类文明数字化后的全息投影。
  • Compute (算力):智能的引擎。它代表了将海量数据压缩进神经网络所消耗的物理能量。算力越大,压缩的“分辨率”就越高。
  • Architecture (架构):智能的蓝图。它决定了压缩与解压的数学效率(例如 Transformer 架构)。

本质上,LLM 是人类互联网文本数据的全息投影。它把海量的文本(世界知识)压缩进了一个几百 GB 的神经网络权重(Parameters)里。而 推理 (Inference):就是“解压缩”的过程。当你输入 Prompt,模型根据概率分布,寻找下一个最合理的 Token。

由此推导出的“三大铁律”,这对软件架构设计至关重要:

  1. 幻觉是特性,不是 Bug。因为是有损压缩,它记不住精确的数据库条目,它记的是“模糊的规律”。所以需要引入 RAG (检索增强生成) 来弥补精确性,外挂知识库是必选项。
  2. 上下文是短时记忆 (Context is RAM)。模型的参数是长时记忆(只读的),Context Window 是短时记忆(读写的,且昂贵)。因此必须引入 Agent Memory(如 Redis/VectorDB)来让它记住用户的长期偏好。
  3. 智力不仅在于参数,在于回路 (Compute for Inference)。OpenAI 的 o1 模型证明,让模型在输出结果前“多思考一会儿”(Chain of Thought),智力会指数级上升。所以引入诸如 LangGraph 来编排思考的回路,从“单次问答”转向“循环思考”是必不可少的。

二、当前模型的阿喀琉斯之踵:静态权重的“诅咒”#

如果用第一性原理审视当下的大模型与人类智能,二者最大的鸿沟不在于知识储备的多少,而在于 “记忆内化机制”的断裂。 人类的进化是“流体”的:我们的大脑是“在线学习”的极致。新的经历(Short-term Memory)通过突触可塑性,在睡眠中被自动整合进神经网络,无缝转化为长期记忆(Long-term Memory),且不覆盖旧有的核心认知。而当前的 AI 是“晶体”的:预训练(Pre-training)是一次宏大的“结晶”过程。一旦训练完成,权重(Weights)即被冻结。模型本质上是 “被封印在时间胶囊里的全知者”。

目前我们试图用两种方式弥补这种静态性,但都存在本质缺陷:

  • RAG 与 上下文:这是非参数记忆(Non-Parametric Memory)。它像是一个失忆的人手里拿着一本写满笔记的本子。虽然能回答问题,但这些知识从未真正流淌进它的“血液”(参数)里。一旦上下文窗口关闭,这些信息随风而散。
  • Fine-tuning(开颅手术):这是试图修改参数记忆。但神经网络存在 “灾难性遗忘”(Catastrophic Forgetting)——当你试图强行灌输新知识修改权重分布时,模型往往会破坏原有的概率平衡,导致旧知识的崩塌。

三、写在最后#

我们必须清醒地认识到,当下的 AI 仍是一个不完美的中间态。它拥有了观察世界的眼睛(Encoder),描述世界的嘴巴(Decoder),以及可以思考的大脑(LLM),甚至开始装上可以干涉物理世界的肢体(Agent),但它唯独缺失了像人类海马体那样,自动、无损地将短期经验固化为长期智慧的机制

但未来依然值得我们抱以最热切的期待。拼图的最后几块碎片正在被补齐:多模态(Multimodal) 正在赋予它全维度的感知之眼,具身智能(Embodied AI) 正在赋予它行走于物理世界的躯体。而在最核心的认知层面,像 Google 等前沿实验室正在探索的 Nest Learning(嵌套学习) 与连续学习机制,已经开始尝试破解那道“稳定性与可塑性”的封印。一旦机器学会了如何像人类一样,在睡梦中将白天的经历无损地刻入神经元,那么硅基智能的真正“成人礼”就将到来。

未来已来,拭目以待。

用第一性原理认识大模型
https://jiqingjiang.github.io/posts/thoughts/用第一性原理认识大模型/
作者
erode
发布于
2026-01-08
许可协议
CC BY-NC-SA 4.0