旷视团队推出Fox多模态大模型点读笔，实现复杂文档的细粒度理解与交互式感知

hwyzw 发表于 2024-12-26 11:47:56

福克斯团队贡献

量子比特 |公众号

多模态大模型虽然能摘西瓜，但理解复杂文档仍然有一定难度。

当面对文本密集、栏目混杂的文档时，往往很难达到预期的效果，而区域层面的细粒度理解更是难以实现。

近日，旷视团队打造了一款多模态大模型“点读笔”——Fox，可以轻松实现8页文档的交互感知和理解（中英文混合、单列和多列格式的极端场景）。

对于信息密集的PDF文档，Fox支持高度可控的细粒度理解，例如用户感兴趣区域的文本识别、段落翻译、页面内部的图像内容描述等。

在论文中，团队进一步突破了视觉感知和对文档理解的上限。高密度信息被真正压缩，LVLM可以真正“看到”并理解图像。只有这样，我们才能真正创建一个可用的多模态文档大模型。

俗话说“一图胜千言”——一个图像令牌>>一个文本令牌。

接下来我们看看福克斯在实战中的表现如何？

中英文混杂，单列多列组合都不怕。

对于中英文混合、单栏、多栏的8页PDF文档，任意区域均可实现OCR：

https://img2.baidu.com/it/u=861518400,3298746439&fm=253&fmt=JPEG&app=138&f=JPEG?w=789&h=500

下图左侧为8页文档内跨页文档的VQA，右侧为双栏中文页面的前台OCR。

双栏密集英文页面前台OCR：

就页面上的图片描述而言，Fox可以给出与文档中内容相关的答案（年轻的Dual）。

当然，Fox还支持行级OCR，以及RoI区域的翻译和摘要。

Fox 可以结合页面上的文字并意识到这是一张图片。另外，Fox还支持RoI内的latex格式转换，如下表到latex。 Fox 还支持更灵活的颜色引导 RoI 区域 OCR。

对于卡通绘本，您还可以点击特定区域：

关于电影海报与自然场景的对话问答，福克斯给出了一个非常有趣的答案（根据电影海报下方的文字给出了角色的起源）：

https://img1.baidu.com/it/u=125389327,2587212601&fm=253&fmt=JPEG&app=120&f=JPEG?w=787&h=500

那么福克斯是如何做到这一点的呢？

多词汇协同，多页文档统一打包

Fox在细粒度文档理解方面有三大创新：

Fox引入了一系列基于位置的文本提示，例如单击位置、拖动框、着色框等。这使得模型可以直接定位到任何感兴趣的区域，而不管文档格式如何。同时，Fox还将整页OCR重新定义为“前景焦点”任务，进一步增强密集文本的感知。

为了更好地理解混合图像和文本的页面，Fox 使用了两种不同专业的视觉词汇——专注于自然图像的 CLIP 和专注于人工文档的 Vary。然而，简单地叠加两种类型的数据通常会导致视觉偏差。为此，福克斯合成了大量混合视觉元素的数据，迫使两个视觉分支充分合作。

得益于高压缩率（每页1024×1024张图片对应256个图像令牌），Fox将多页文档统一打包输入。这不仅使跨页面上下文理解成为可能，而且还显着减少了计算开销。值得一提的是，这种打包微调模式不需要重新训练视觉词汇。

基于这些创新，Fox模型结构如图所示。

Fox支持单页/多页文档图像输入，所有图像的图像标记统一为一个，用于多页文档理解。该团队设计了一个基于点、颜色和框的系统，以关注文档页面上的任何位置。团队合成了图像和文本交织在一起的文档数据，充分催化两种视觉词汇，更好地适应实际文档应用场景。

此外，为了推动文档细粒度理解的研究，作者还创建了中英双语，开源了数据和评估代码，包括以下9个任务：

最后，团队呼吁更多的研究人员关注细粒度的单页/多页文档理解。单页的稀疏问答任务还远远不够。

要真正制作大型多模态模型，视觉编码器的信息压缩率（令牌转换率）非常重要。 Fox仅探讨了文档的应用方向，希望对大家的研究有所帮助。

页: [1]

【华网优展网】's Archiver

旷视团队推出Fox多模态大模型点读笔，实现复杂文档的细粒度理解与交互式感知