WORK · STARDATE 2026.04.10 · 7 分

生成式 AI 如何工作：从 Transformer 到大语言模型

用简明方式理解生成式 AI 的基本机制：Token、Transformer、训练、推理、上下文窗口与模型限制。

wizPulseAI 编辑部·2026.04.10·7 分

生成式 AI 看起来像是在“理解”问题，然后写出答案。但从工程角度看，它更接近一个极其复杂的预测系统：先把文字、图片或其他输入拆成可以计算的单位，再根据上下文预测下一步最合理的输出。

理解这一点很重要。它能帮助你判断 AI 适合做什么，也能避免把 AI 当成永远正确的资料库。

1. Token：AI 看到的不是完整句子

大语言模型不会像人一样直接阅读完整句子。它会先把文本切成 token。一个 token 可能是一个字、一个词的一部分，也可能是标点或空格。

当你输入一段需求时，模型实际处理的是一串 token。它根据这些 token 之间的关系，判断接下来应该生成什么。

Transformer 是现代大语言模型的关键结构。它的核心能力是注意力机制，也就是判断输入中哪些部分更重要、哪些部分彼此有关。

例如你写：“请把这段内容改成更适合产品页面的文案。”模型会同时参考“这段内容”“产品页面”“文案”等信息，而不是只看最后几个字。

模型在训练阶段会阅读大量文本、代码、图文资料或其他数据，学习语言、知识、写作方式和任务模式。训练不是把每一篇文章原封不动地存进去，而是让模型在参数中形成统计关系。

这也是为什么 AI 可以写出自然语言，却也可能生成看似合理但并不准确的内容。

当你实际使用 AI 时，模型会根据当前输入和已有上下文生成输出。这个过程叫推理。你的提示词越清楚，模型越容易判断任务目标、受众、格式和限制。

所以，好的提示词不是咒语，而是任务说明书。

生成式 AI 擅长起草、整理、改写、归纳和提出选项，但它仍然需要人来确认事实、判断风险和决定最终方向。

在 Work 场景里，更稳妥的做法是：让 AI 处理初稿和重复劳动，把判断、审校和发布责任留给人。

生成式 AI 的价值不在于“像人一样思考”，而在于把复杂的信息处理能力变成可使用的工作流程。先理解它如何工作，再决定它该放在流程的哪一步，这会比盲目追逐工具更有效。