大模型训练过程
- 预训练
- 目标:学会语言本身,语言的通用表示,进行语言建模
- 方法:自监督学习
- SFT(有监督微调):何使用标注数据对预训练模型进行监督训练的过程
- 目标:让模型遵循指令,能够理解人类提出的问题
- 方法:监督学习
- 通常有全参微调,LoRA微调,Adapter微调等,指令微调也是SFT的一部分
- RLHF(人类反馈强化学习)
- 目标:让模型更符合人类的偏好,贴近人类意图
- 方法:强化学习
- 增强与扩展
- 蒸馏,微调,迁移学习等
原创2025/8/20大约 36 分钟
架构
基于EMLO与GPT改进,融合了这两个模型的特征:
而Bert使用的是双向transformer
两步工作
是Sequence to Sequence Model的一种
编码器解码器架构作用:让编码器全面理解输入序列的语义,并将其压缩为高阶表示(Context),解码器则基于此上下文信息,逐步生成目标序列