生成式 AI 如何工作:从 Transformer 到大语言模型
用简明方式理解生成式 AI 的基本机制:Token、Transformer、训练、推理、上下文窗口与模型限制。
生成式 AI 如何工作:从 Transformer 到大语言模型
生成式 AI 看起来像是在“理解”问题,然后写出答案。但从工程角度看,它更接近一个极其复杂的预测系统:先把文字、图片或其他输入拆成可以计算的单位,再根据上下文预测下一步最合理的输出。
理解这一点很重要。它能帮助你判断 AI 适合做什么,也能避免把 AI 当成永远正确的资料库。
1. Token:AI 看到的不是完整句子
大语言模型不会像人一样直接阅读完整句子。它会先把文本切成 token。一个 token 可能是一个字、一个词的一部分,也可能是标点或空格。
当你输入一段需求时,模型实际处理的是一串 token。它根据这些 token 之间的关系,判断接下来应该生成什么。
2. Transformer:让模型理解上下文关系
Transformer 是现代大语言模型的关键结构。它的核心能力是注意力机制,也就是判断输入中哪些部分更重要、哪些部分彼此有关。
例如你写:“请把这段内容改成更适合产品页面的文案。”模型会同时参考“这段内容”“产品页面”“文案”等信息,而不是只看最后几个字。
3. 训练:从大量样本里学会模式
模型在训练阶段会阅读大量文本、代码、图文资料或其他数据,学习语言、知识、写作方式和任务模式。训练不是把每一篇文章原封不动地存进去,而是让模型在参数中形成统计关系。
这也是为什么 AI 可以写出自然语言,却也可能生成看似合理但并不准确的内容。
4. 推理:根据当前上下文生成答案
当你实际使用 AI 时,模型会根据当前输入和已有上下文生成输出。这个过程叫推理。你的提示词越清楚,模型越容易判断任务目标、受众、格式和限制。
所以,好的提示词不是咒语,而是任务说明书。
5. 模型限制:要让 AI 进入流程,而不是替代判断
生成式 AI 擅长起草、整理、改写、归纳和提出选项,但它仍然需要人来确认事实、判断风险和决定最终方向。
在 Work 场景里,更稳妥的做法是:让 AI 处理初稿和重复劳动,把判断、审校和发布责任留给人。
小结
生成式 AI 的价值不在于“像人一样思考”,而在于把复杂的信息处理能力变成可使用的工作流程。先理解它如何工作,再决定它该放在流程的哪一步,这会比盲目追逐工具更有效。
