llm 分类 | 阿b的博客

大模型训练过程

预训练
- 目标：学会语言本身，语言的通用表示，进行语言建模
- 方法：自监督学习
SFT（有监督微调）：何使用标注数据对预训练模型进行监督训练的过程
- 目标：让模型遵循指令，能够理解人类提出的问题
- 方法：监督学习
- 通常有全参微调，LoRA微调，Adapter微调等，指令微调也是SFT的一部分
RLHF（人类反馈强化学习）
- 目标：让模型更符合人类的偏好，贴近人类意图
- 方法：强化学习
增强与扩展
- 蒸馏，微调，迁移学习等

xbZhong原创2025/8/20大约 36 分钟

Bert

架构

基于EMLO与GPT改进，融合了这两个模型的特征：

EMLO使用的是双向的RNN
GPT使用的是transformer

而Bert使用的是双向transformer

两步工作

无监督学习的预训练
- 使用大量无标记的文本进行预训练，也就是文字填空和NSP，使得模型学习到词元的特征和句子之间的关系
有监督学习的微调
- 使用有标记的文本进行微调，目的是为了让模型适应下游任务，原始论文采用全参微调
- 微调会保留Bert的预训练权重，但在任务数据上继续训练，并加上适应该任务的头部层

xbZhong原创2025/7/29大约 3 分钟

Transformer

是Sequence to Sequence Model的一种

编码器解码器架构作用：让编码器全面理解输入序列的语义，并将其压缩为高阶表示（Context），解码器则基于此上下文信息，逐步生成目标序列

输入部分细节

Word Embedding（词向量嵌入）

xbZhong原创2025/6/28大约 19 分钟

Word2Vec

基于CBOW或者skip-gram来计算词向量矩阵，主要目的是为了得到词向量

中心词和上下文词用一个窗口来维护

词嵌入向量： $v=W \times one_hot(v)$

xbZhong原创2025/6/24大约 7 分钟