从一千帧到一滴精华——XComp如何让AI看懂长视频

张开发
2026/4/18 0:10:59 15 分钟阅读

分享文章

从一千帧到一滴精华——XComp如何让AI看懂长视频
每一帧压缩成一个token:当技术极简主义遇见视频理解的终极挑战🎞️ 一个电影爱好者的困境想象你是一个电影评论家,要看一部3小时的电影写影评。但有个限制:你只能看100帧画面——相当于每1分钟看不到1帧。你会怎么做?均匀采样?每1分钟看1帧,但这会错过关键情节看开头和结尾?通常会错过中间的转折凭直觉跳看?可能错过重要细节这就是当前AI视频理解模型面临的困境。费曼会说:“你不可能在信息量如此稀疏的情况下真正理解一个东西。你需要的是密度——在有限的容量里,装入最有价值的信息。”XComp(eXtreme Compression)正是为了解决这个问题而生:把长视频的每一帧压缩成一个token,同时保留最关键的视觉信息。🌊 视频理解的"token海啸"问题有多严重?现代视觉-语言模型(VLMs)处理视频时,每个画面帧会被编码成数十到数百个token:一张图片 → 数百个token一段视频(假设1000帧)→ 数万到数十万个token但大型语言模型(LLMs)的上下文长度是有限的。典型的限制是:32K token128K token

更多文章