2、DeepSeek-VL / DeepSeek-VL2

张开发
2026/4/12 8:51:09 15 分钟阅读

分享文章

2、DeepSeek-VL / DeepSeek-VL2
DeepSeek-VL / DeepSeek-VL2面向真实世界的开源多模态模型详解架构 × 数据 × 训练目标读者想系统理解 DeepSeek-VL 与 DeepSeek-VL2 “为什么这样设计、怎么训练、解决了哪些真实世界问题”的研究与工程读者。1. 为什么需要 DeepSeek-VL真实世界多模态的三类硬问题许多开源 MLLM 在“真实世界输入”网页截图、PDF、扫描件、密集 OCR、信息图、复杂图表上体验不稳定常见瓶颈集中在三点高分辨率输入不经济传统 ViT/CLIP 风格视觉编码器通常以224×224224\times224224×224或384×384384\times384384×384为主强行提升分辨率会导致 token 数爆炸、推理延迟显著上升但真实文档/网页任务又高度依赖细节小字号、表格边界、坐标刻度、图例等。视觉增强常伴随语言能力退化直接用大量图文数据继续训练 LLM很容易让语言侧出现“灾难性遗忘”对话能力、逻辑表达、指令跟随质量下降。训练数据“脱离使用场景”如果预训练/微调数据主要来自自然图像 caption 或简单 VQA模型在网页、PDF、图表、OCR 上的泛化会很脆弱因为这些场景的视觉分布和任务需求完全不同。DeepSeek-VL 的核心思路就是围绕上述三点分别用真实场景数据体系、混合视觉编码器、训练阶段的模态竞争平衡来系统解决。2. DeepSeek-VL整体框架与核心目标2.1 模型定位与规模DeepSeek-VL 是 DeepSeek 在 2024 年 3 月开源的视觉-语言模型系列提供1.3B 与 7B两个规模并面向“真实世界多模态理解”做了系统优化网页截图、PDF 文档、OCR、图表/表格等。2.2 “老三样”主干Vision Encoder Adaptor LLMDeepSeek-VL 的主干非常典型视觉编码器Vision Encoder将图像转为视觉 token / 特征序列视觉-语言适配器Vision-Language Adaptor将视觉特征映射到 LLM 可消费的嵌入空间语言模型LLM进行多模态对话、推理与生成关键差异不在“是否三段式”而在视觉编码器如何兼顾细节与语义、以及训练策略如何避免语言能力退化。3. DeepSeek-VL 的架构设计混合视觉编码器SigLIP SAM-B3.1 为什么要“混合编码器”真实世界任务往往同时需要两类信息高级语义判断这页在讲什么、图表主题是什么、对象之间语义关系低层细节OCR 字符、表格线、坐标刻度、图例符号、局部定位单一 CLIP/SigLIP 在低分辨率输入上容易“看不清细节”而单一高分辨率编码器又可能缺少强语义对齐能力或成本过高。因此 DeepSeek-VL 采用“双路融合”SigLIP 编码器偏语义、对齐能力强SAM-B基于 ViTDet 系列编码器偏细节、支持更高分辨率输入如1024×10241024\times10241024×10243.2 SigLIP 路径语义表征与“CLIP-blind pairs”SigLIP/CLIP 一类对比预训练模型擅长把“图像整体语义”映射到与文本相近的空间但在密集细节任务上存在两类典型问题低分辨率导致细节缺失如小字号 OCR、复杂表格单元格、曲线图的细小刻度CLIP-blind pairs视觉上不同的图像可能得到相近嵌入尤其当差异集中在局部细节示例理解 “blind pairs”两张网页截图整体布局相似但某一处价格从 “$199” 变为 “$299”。CLIP 可能认为二者语义相近但真实任务比价、核对要求模型稳定捕捉这类局部变化。3.3 SAM-B 路径高分辨率细节特征SAM-B 路径的目标是“把细节保留下来”。典型流程包括将图像缩放到1024×10241024\times10241024×1024生成类似64×64×25664\times64\times25664×64×256的高密度特征图通过插值、卷积下采样等操作变换到适合 token 化的形态例如得到与 SigLIP 相近 token 数量尺度的序列直观理解SAM-B 提供“像素级更细”的信息通道让模型在 OCR、视觉定位、图表读取等任务中更稳。3.4 双路融合在有限 token 预算下兼顾语义与细节DeepSeek-VL 的融合要点是把高分辨率与低分辨率特征对齐到可拼接的序列表示再投影到 LLM 输入空间。一个典型实现形态概念层面SigLIP 输出576×1024576\times1024576×1024例如24×2424\times2424×24token 网格展平SAM-B 输出经过处理也对齐到576×1024576\times1024576×1024拼接后得到576×2048576\times2048576×2048经过激活与嵌入映射得到 LLM 可消费的视觉 token 序列关键点融合不是“堆更大分辨率”而是“用两路互补信息在相近 token 规模内增强表达”。4. DeepSeek-VL 的 Vision-Language Adaptor两层混合 MLP 的意义视觉编码器的输出特征空间与 LLM 的词嵌入空间并不天然一致。Adaptor 的职责是第一层分别处理来自高分辨率细节与低分辨率语义两路特征做初步对齐与尺度校正第二层把拼接后的特征映射到 LLM 的输入嵌入维度使视觉 token 能像“特殊词”一样进入 Transformer 进行跨模态注意力融合直观上Adaptor 是“跨模态接口层”决定了视觉信息能否以稳定、可控的方式注入语言模型。5. DeepSeek-VL 的 LLM沿用 DeepSeek-LLM 的语言能力底座DeepSeek-VL 的语言模型基于 DeepSeek-LLM结构借鉴 LLaMA 范式Pre-Norm / RMSNorm提升训练稳定性SwiGLU增强 FFN 表达与训练效率RoPE长上下文位置建模一致的 tokenizer保持语言侧能力与生态一致规模与文本预训练量概念1.3B约5×10115\times10^{11}5×1011文本 token 级别7B约2×10122\times10^{12}2×1012文本 token 级别这一点非常关键真实世界多模态能力想要“可用”语言侧必须足够强否则会出现“看懂了但说不清 / 指令跟随差 / 推理表达不稳定”。6. DeepSeek-VL 三阶段训练从对齐到泛化再到可交互DeepSeek-VL 的训练通常可理解为“三步走”6.1 阶段 1Adaptor Warm-up只训接口层目标让 LLM 在嵌入空间“认识视觉 token”建立概念对应关系。冻结视觉编码器与 LLM仅训练 Adaptor用图文对与 OCR 渲染数据做对齐重要观察Adaptor 参数量远小于 LLM承载能力有限。单纯扩大数据规模并不一定提升甚至可能出现对齐不充分或表征瓶颈。这也解释了为什么后续阶段要解冻 LLM让语言模型参与多模态适配。6.2 阶段 2Joint Vision-Language Pretraining全模型联合训练 模态平衡直接用多模态数据训练容易伤害语言能力因此 DeepSeek-VL 引入模态竞争平衡的策略训练中同时喂入大量纯文本数据确保语言能力不退化。一个典型比例选择是语言数据占比不低于70%70\%70%多模态数据约30%30\%30%也就是常说的7:37:37:3混合策略。为什么语言数据要占大头因为多模态数据往往“表面复杂但语言复杂度低”例如短 caption、简单 QA如果纯靠它继续训练 LLM很容易让 LLM 的长链路语言能力被稀释。示例如果训练数据大量是“图中是什么A 是猫”语言侧会趋向短、模板化回答而纯文本对话与复杂推理数据能维持语言表达、逻辑结构与指令跟随能力。6.3 阶段 3SFT指令微调到可交互聊天模型目标让模型变得“会用”包括对话、指令遵循、复杂场景问答等。常见策略要点优化语言模型 Adaptor 视觉编码器部分模块可冻结以节省显存只监督答案与必要的特殊 token掩码 system/user prompt减少对提示词形式的过拟合混合多模态指令数据与纯文本对话数据提升通用对话质量7. DeepSeek-VL 的数据体系真实场景覆盖为什么重要DeepSeek-VL 的数据设计强调“贴近真实用户输入”。一个典型的预训练数据组成可以包括交错图文网页、百科、教程类图表表格结构化视觉 文本解释Web 代码/渲染网页结构、截图-文本对齐OCR 场景文本与文档渲染论文 PDF、扫描件渲染大比例纯文本维持语言能力其直观收益是模型不仅能“看图说话”还能稳定处理文档理解、表格解析、图表读数、网页交互式理解这些高频真实任务。8. DeepSeek-VL2从“固定高分辨率”到“动态分块 MoE LLM”的升级DeepSeek-VL 的混合编码器已能处理1024×10241024\times10241024×1024但仍会遇到两类现实问题极端宽高比输入长条网页截图、横向信息图、超长 PDF 页面更高分辨率需求信息图、密集 OCR、精细定位任务常要求更细粒度的局部观察DeepSeek-VL2 的升级聚焦两点动态分块编码dynamic tiling自适应不同宽高比与分辨率DeepSeekMoE MLA 的 LLM在更高吞吐与更低 KV 成本下提升生成与推理效率整体仍是三段式Vision Encoder Adaptor LLM但每一段都更“面向高效高分辨率”。9. DeepSeek-VL2 的动态分块编码机制、公式与直观解释9.1 核心思想把一张大图拆成“全局 局部块”对复杂页面单次缩放到固定分辨率会丢失局部细节而直接用超高分辨率编码又会导致 token 数和计算量爆炸。VL2 的策略是用一个全局缩略图块捕捉整体语义与布局用多个局部 tiles捕捉细节OCR、表格、局部图形每个 tile 采用固定分辨率例如384×384384\times384384×384确保视觉编码器在固定成本下处理局部细节。9.2 候选分辨率集合用离散网格覆盖不同宽高比VL2 通过候选集合CRCRCR来选择最适合输入图像宽高比的“分块网格”CR{(m⋅384,n⋅384)∣m∈N,n∈N,1≤m,n,mn≤9} CR \{(m \cdot 384, n \cdot 384) \mid m \in \mathbb{N}, n \in \mathbb{N}, 1 \leq m, n, mn \leq 9\}CR{(m⋅384,n⋅384)∣m∈N,n∈N,1≤m,n,mn≤9}其中mmm表示水平方向 tiles 数nnn表示垂直方向 tiles 数约束mn≤9mn \le 9mn≤9控制 tiles 总数上限避免 token/算力爆炸直觉把页面映射到最多 9 个局部块 1 个全局块的预算内同时尽量贴合原始宽高比。9.3 如何选择最合适的候选分辨率最小填充面积原则输入图像尺寸为(H,W)(H, W)(H,W)。对于某个候选分辨率(m⋅384,n⋅384)(m\cdot384, n\cdot384)(m⋅384,n⋅384)通常需要把原图缩放后再做 padding 才能对齐到该候选尺寸。一个常见选择准则是最小化 padding 面积或等价的无效区域(m∗,n∗)arg⁡min⁡(m,n)∈S PadArea(H,W;m,n) (m^*, n^*) \arg\min_{(m,n)\in \mathcal{S}} \ \text{PadArea}(H, W; m, n)(m∗,n∗)arg(m,n)∈Smin​PadArea(H,W;m,n)其中S\mathcal{S}S表示满足mn≤9mn \le 9mn≤9的候选集合PadArea(⋅)\text{PadArea}(\cdot)PadArea(⋅)表示将输入图像适配到候选分辨率所需的填充面积。示例直观理解一张长条网页截图更适合mmm大、nnn小例如3×13\times13×1或4×14\times14×1一类而不是1×31\times31×3。最小 padding 的选择会自动偏向更贴合原宽高比的网格。9.4 分块后 token 数为何可控token 压缩与“像素混洗”VL2 对每个 tile 用 SigLIP-SO400M-384 编码得到 token 网格例如27×2772927\times2772927×27729。随后通过2×22\times22×2的“像素混洗/重排压缩”把 token 网格从27×2727\times2727×27压缩到约14×1419614\times1419614×14196显著降低后续跨模态注意力的成本。示例如果不压缩9 个局部 tile 就是9×72965619\times72965619×7296561个 token仅视觉侧就会非常重压缩到9×19617649\times19617649×1961764则更可控。9.5 特殊 token让 LLM “读懂”二维布局VL2 会引入类似以下结构标记行结束标记tile_newline视图分隔符view_separator区分全局块与局部块其目的不是“增加信息”而是为 LLM 提供稳定的二维结构边界让语言模型在序列上仍能感知“这是按行/列排列的视觉块”。最终视觉序列长度的一个表达式概念形式可以写为Nvis2101m×14×(n×141) N_{\text{vis}} 210 1 m \times 14 \times (n \times 14 1)Nvis​2101m×14×(n×141)其中210210210可对应全局缩略图块展开后的 token 规模含换行标记111可对应view_separator后一项对应m×nm\times nm×n个局部块按二维排布展开并插入行末换行标记的序列长度直观理解mmm越大更宽序列更长但更贴合宽屏页面nnn越大更高更贴合长文档页面。约束mn≤9mn\le9mn≤9保证上界。10. DeepSeek-VL2 的 LLMDeepSeekMoE MLA 的意义VL2 的语言模型采用 DeepSeekMoE并支持多头潜在注意力MLA与MoE 稀疏激活10.1 MoE用稀疏计算提高容量/效率比MoE 的核心是每个 token 只激活少量专家而不是整网全算从而在接近稀疏成本下获得更大的有效容量。工程收益通常体现在更高吞吐在相近成本下提升语言/推理能力上限10.2 MLA压缩 KV 缓存提高推理效率MLA 的直觉是把注意力中的 Key/Value 表示压缩到潜在向量空间从而降低 KV cache 的体积与带宽压力。对于多模态长序列视觉 token 很多场景这类优化尤其关键。11. DeepSeek-VL2 三阶段训练与 VL 的差异点VL2 训练同样可概括为三阶段但“谁冻结谁解冻”的选择更强调高分辨率适配与效率Vision-Language Alignment冻结语言模型仅优化视觉编码器与 Adaptor目标先把视觉侧对齐好尤其是动态分块策略带来的新输入形态Vision-Language Pre-training解冻全部参数全模型联合训练大规模视觉-语言 token 纯文本 token 混合例如70%70\%70%图文 30%30\%30%文本的一类方案用于提升多模态综合能力同时维持语言能力SFT指令微调到可交互对话模型监督答案与关键特殊 token掩码提示词混合多模态与纯文本对话数据12. DeepSeek-VL vs DeepSeek-VL2核心差异总结按“问题—机制”对齐维度DeepSeek-VLDeepSeek-VL2高分辨率策略固定1024×10241024\times10241024×1024 混合编码器语义细节动态分块tiles 全局缩略图自适应宽高比与分辨率视觉编码器SigLIP SAM-B混合SigLIP-SO400M-384多块编码 token 压缩 布局标记结构提示主要靠融合后的序列tile_newlineview_separator显式建模二维布局边界语言模型DeepSeek-LLM1B/7BDeepSeekMoE多规模 MLAKV 压缩主要解决痛点在 token 预算内兼顾语义与细节提升真实世界稳健性更强的宽高比/超高分辨率适配更高效的多模态长序列推理13. 用真实任务场景理解两代设计取舍13.1 网页截图问答长宽比极端难点页面很宽或很长关键信息在角落缩放到固定方形分辨率会把小字压没VL 的优势混合编码器能增强细节但固定方形输入在极端宽高比上仍可能牺牲信息VL2 的优势动态分块让页面被切成局部块角落的小字仍以384×384384\times384384×384的局部分辨率进入编码器信息保真更强13.2 PDF 表格解析结构化 OCR难点表格线与单元格内容都要读清还要理解行列关系VL 的路径SAM-B 提供细节通道SigLIP 提供语义通道VL2 的路径局部 tiles 保真细节tile_newline把二维结构边界显式编码进序列帮助 LLM 在序列注意力中更好建立“行/列”概念13.3 信息图与图表图例、刻度、局部标注密集难点图例与刻度往往极小且需要把局部读数与全局语义结合VL 的优势双路语义细节融合能增强读图能力VL2 的优势全局缩略图提供整体语义与布局局部 tiles 提供可读细节二者组合更贴合“先看全局再看局部”的人类读图过程

更多文章