基于 8 fps 的 Wan 3D Causal VAE:10B Vision Token 对应的图片与视频数据量

张开发
2026/4/17 1:53:42 15 分钟阅读

分享文章

基于 8 fps 的 Wan 3D Causal VAE:10B Vision Token 对应的图片与视频数据量
按Show-o2 的 432×432 配置、Wan 3D Causal VAE、并且视频按 8 fps 连续编码来重新给出详细计算。这里的“大小”统一指未压缩 RGB 原始数据量,不是 MP4/JPG 的压缩后文件大小。Show-o2 的公开配置给出:分辨率是 432,latent 高宽是27 × 27 27\times2727×27,单张图是 729 个 image tokens;同时 Show-o2 明确是建立在text token + 3D Causal VAE space上。Wan 官方代码则给出视频帧数需满足4 n + 1 4n+14n+1,时间长度按( ( F − 1 ) / / 4 + 1 ) ((F-1)//4+1)((F−1)//4+1)计算。(GitHub)1)先给最终答案在432×432、10B 全是 vision token、视频按 8 fps的前提下:图片 ≈ 7.68 TB \text{图片} \approx 7.68\text{ TB}图片≈7.68TB视频 ≈ 30.72 TB \text{视频} \approx 30.72\text{ TB}视频≈30.72TB如果你更习惯说 “T”,那就是:图片约 7.68T视频约 30.72T这两个值都是按原始 RGB 体量算的。2)为什么图片还是 7.68TShow-o2 的 432×432 配置里:分辨率是432 × 432 432\times432432×432图像 latent 高宽是27 × 27 27\times2727×27单张图 token 数是729 729729所以一张图的原始 RGB 大小是:432 × 432 × 3 = 559872 bytes 432\times432\times3=559872\text{ bytes}432×432×3=559872bytes而每张图有 729 个 token,因此每个 image token 对应的原始数据量是:559872 729 = 768 bytes/token \frac{559872}{729}=768\text{ bytes/token}729559872​=768bytes/token于是 10B 个图片 token 的总原始数据量为:10 10 × 768 = 7.68 × 10 12 bytes 10^{10}\times768=7.68\times10^{12}\text{ bytes}1010/

更多文章