LLM:基础架构和术语

Posted on Apr 8, 2025

LLM的基础架构

  1. 模型结构层级
    • Tokenizer(分词器): 把自然语言拆解为tokens(子词、字符、字节等),如BPE、SentencePiece。
    • Embedding(词向量映射): 把token转换成向量。
    • Transformer编码层(Transformer Blocks):
      • 包含多个Self-Attention + FFN(前馈神经网络)结构.
      • 通常会堆叠几十层或上百层.
    • Output head:
      • 输出每个token的概率分布。
      • 训练时用Cross Entropy Loss,预测下一个token。
  2. Transformer 结构核心模块
    • Self-Attention:让模型能关注上下文中重要的信息。
    • Multi-Head Attention:多个“注意力头”并行学习不同的关系。
    • Layer Norm:标准化加速训练。
    • Residual Connection:防止深层网络训练困难。
    • Position Embedding:给模型“顺序感”,如 sinusoidal 或 RoPE。

常见术语解释

术语 含义
LLM Large Language Model,大型语言模型(通常指几十亿以上参数的模型)
Transformer 基础架构,最早由论文《Attention is All You Need》提出
Token 文本的最小单位,如“unbelievable” 会被拆成 un, believable
Prompt 输入给模型的一段指令或上下文
Embedding 把 token 转换为向量的过程
Self-Attention 计算 token 与其他 token 的关系,决定关注哪些词
Decoder-only GPT 类模型只使用 Transformer 的 Decoder 部分
Encoder-decoder 如 T5/BART 等,用于翻译/摘要等任务
Pretraining 在大语料上进行无监督训练(如预测下一个 token)
Fine-tuning 在特定任务上做微调
LoRA / QLoRA 一种低成本微调技术,冻结大部分参数,仅调整少量层
RLHF 使用人类反馈强化学习(Reinforcement Learning with Human Feedback)
RAG 检索增强生成(Retrieval-Augmented Generation)