类似DeepSeek的大模型如何训练和得到什么东西

张开发
2026/4/20 20:46:29 15 分钟阅读

分享文章

类似DeepSeek的大模型如何训练和得到什么东西
目录DeepSeek的大模型如何训练一、训练流程:分阶段递进优化1. 预训练阶段(占95%训练时间)2. 上下文窗口扩展3. 后训练阶段(关键但耗时仅0.2%)二、底层架构:创新设计实现高效扩展1. DeepSeekMoE混合专家架构2. 多头潜在注意力(MLA)3. 多Token预测(MTP)三、工程优化:极致效率的保障1. 分布式训练框架2. 内存与计算优化3. 基础设施支持四、成本与性能平衡五、未来发展方向类似DeepSeek这样的大模型,为什么要进行训练,训练的目的是什么,得到一个什么东西,这个东西为什么可以进行回答问题1. 为什么要进行训练?2. 训练的目的是什么?(学会“概率”与“关联”)3. 训练得到的是一个什么东西?4. 这个东西为什么可以进行回答问题?(推理/生成过程)多维数组具体是什么样第一步:将词语转化为数字(词向量)第二步:定义模型的“思考”层(线性变换)第三步:看模型如何“推理”(前向传播)总结与映射到真实大模型DeepSeek的大模型如何训练DeepSeek大模型的训练是一个系统性的工程过程,结合了创新的模型架构、高效的训练策略和极致的工程优化。以下是其训练方法和底层原理的详细解析:一、训练流程:分阶段递进优化DeepSeek的训练遵循“预训练→上下文扩展→后训练”的三阶段流程。1. 预训练阶段(占95%训练时间)数据规模:使用约15万亿Token的高质量语料,显著增强数学和编程样本比例。训练目标:基于Transformer架构进行自回归语言建模,学习预测下一个Token。关键创新:采用Document Packing技术处理变长文本,使用Fill-in-the-Middle(FIM)方法增强代码理解能力。2. 上下文窗口扩展从预训练的4K上下文长度,通过YaRN技术分两步扩展到128K。这一阶段使模型能够处理长文档和复杂对话场景。3. 后训练阶段(关键但耗时仅0.2%)后训练包括监督微调(SFT)和强化学习(RL),对最终性能起决定性作用。监督微调(SFT):使用约150万样本,分为推理数据和非推理数据。推理数据:由DeepSeek-R1模型生成数学、代码和逻辑推理样本,再经人工精选。非推理数据:由DeepSeek-V2.5生成创意写作、角色扮演等样本,人工验证质量。强化学习(RL):采用群组相对策略优化(GRPO)算法,直接优化偏好校正。结合基于规则的奖励(用于数学、代码等确定性任务)和基于模型的奖励(用于主观任务)。最终训练出DeepSeek-R1推理模型,在AIME 2024测试中通过率达79.8%。二、底层架构:创新设计实现高效扩展1. DeepSeekMoE混合专家架构DeepSeek-V3采用6710亿参数的超大规模MoE架构,但每次仅激活370亿参数,大幅降低计算成本。核心创新:细粒度专家划分:将专家拆分为更细粒度单元,每个专家隐藏维度减少至1/m,同时激活专家数量增加m倍,保持计算成本不变。共享专家隔离:设置固定共享专家始终激活,捕获跨领域通用知识,减少其他专家的冗余学习。负载均衡策略:引入可学习偏置项动态调整路由,无需额外辅助损失函数。2. 多头潜在注意力(MLA)传统注意力机制需要为每个头缓存键值对(KV Cache),内存占用大。MLA将键值对投影到低维潜在向量,大幅压缩KV Cache大小。DeepSeek-V3每Token仅需70KB KV缓存,是传统方法的1/7到1/4。3. 多Token预测(MTP)训练时同时预测序列中后续多个Token,增强模型对未来上下文的感知能力。推理时可裁剪额外注意力机制,保持高效。三、工程优化:极致效率的保障1. 分布式训练框架3D并行:结合数据并行、流水线并行和张量并行。DualPipe算法:双向流水线设计,显著减少流水线气泡,GPU利用率提升近一倍。专家并行优化:定制DeepEP通信库,减少MoE路由的通信开销。2. 内存与计算优化FP8混合精度训练:大部分计算以8位浮点数执行,关键操作保留高精度,训练成本降低50%。内存管理:重计算RMSNorm和MLA投影输出,将EMA参数存储在CPU内存,共享Embedding和Output Head。通信优化:节点限制路由(每个Token最多路由到4个节点)、定制All-to-All内核、Warp专业化。3. 基础设施支持HAI-LLM框架:支持

更多文章