LLM：基础架构和术语

Posted on Apr 8, 2025

LLM的基础架构

术语	含义
LLM	Large Language Model，大型语言模型（通常指几十亿以上参数的模型）
Transformer	基础架构，最早由论文《Attention is All You Need》提出
Token	文本的最小单位，如“unbelievable” 会被拆成 un, believable
Prompt	输入给模型的一段指令或上下文
Embedding	把 token 转换为向量的过程
Self-Attention	计算 token 与其他 token 的关系，决定关注哪些词
Decoder-only	GPT 类模型只使用 Transformer 的 Decoder 部分
Encoder-decoder	如 T5/BART 等，用于翻译/摘要等任务
Pretraining	在大语料上进行无监督训练（如预测下一个 token）
Fine-tuning	在特定任务上做微调
LoRA / QLoRA	一种低成本微调技术，冻结大部分参数，仅调整少量层
RLHF	使用人类反馈强化学习（Reinforcement Learning with Human Feedback）
RAG	检索增强生成（Retrieval-Augmented Generation）