hwyzw 发表于 2024-12-26 11:47:56

旷视团队推出Fox多模态大模型点读笔,实现复杂文档的细粒度理解与交互式感知

    福克斯团队贡献

    量子比特 |公众号

    多模态大模型虽然能摘西瓜,但理解复杂文档仍然有一定难度。

    当面对文本密集、栏目混杂的文档时,往往很难达到预期的效果,而区域层面的细粒度理解更是难以实现。

    近日,旷视团队打造了一款多模态大模型“点读笔”——Fox,可以轻松实现8页文档的交互感知和理解(中英文混合、单列和多列格式的极端场景) 。

    对于信息密集的PDF文档,Fox支持高度可控的细粒度理解,例如用户感兴趣区域的文本识别、段落翻译、页面内部的图像内容描述等。

    在论文中,团队进一步突破了视觉感知和对文档理解的上限。高密度信息被真正压缩,LVLM可以真正“看到”并理解图像。只有这样,我们才能真正创建一个可用的多模态文档大模型。

    俗话说“一图胜千言”——一个图像令牌>>一个文本令牌。

    接下来我们看看福克斯在实战中的表现如何?

    中英文混杂,单列多列组合都不怕。

    对于中英文混合、单栏、多栏的8页PDF文档,任意区域均可实现OCR:

    https://img2.baidu.com/it/u=861518400,3298746439&fm=253&fmt=JPEG&app=138&f=JPEG?w=789&h=500

    下图左侧为8页文档内跨页文档的VQA,右侧为双栏中文页面的前台OCR。

    双栏密集英文页面前台OCR:

    就页面上的图片描述而言,Fox可以给出与文档中内容相关的答案(年轻的Dual)。

    当然,Fox还支持行级OCR,以及RoI区域的翻译和摘要。

    Fox 可以结合页面上的文字并意识到这是一张图片。另外,Fox还支持RoI内的latex格式转换,如下表到latex。 Fox 还支持更灵活的颜色引导 RoI 区域 OCR。

    对于卡通绘本,您还可以点击特定区域:

    关于电影海报与自然场景的对话问答,福克斯给出了一个非常有趣的答案(根据电影海报下方的文字给出了角色的起源):

    https://img1.baidu.com/it/u=125389327,2587212601&fm=253&fmt=JPEG&app=120&f=JPEG?w=787&h=500

    那么福克斯是如何做到这一点的呢?

    多词汇协同,多页文档统一打包

    Fox在细粒度文档理解方面有三大创新:

    Fox引入了一系列基于位置的文本提示,例如单击位置、拖动框、着色框等。这使得模型可以直接定位到任何感兴趣的区域,而不管文档格式如何。同时,Fox还将整页OCR重新定义为“前景焦点”任务,进一步增强密集文本的感知。

    为了更好地理解混合图像和文本的页面,Fox 使用了两种不同专业的视觉词汇——专注于自然图像的 CLIP 和专注于人工文档的 Vary。然而,简单地叠加两种类型的数据通常会导致视觉偏差。为此,福克斯合成了大量混合视觉元素的数据,迫使两个视觉分支充分合作。

    得益于高压缩率(每页1024×1024张图片对应256个图像令牌),Fox将多页文档统一打包输入。这不仅使跨页面上下文理解成为可能,而且还显着减少了计算开销。值得一提的是,这种打包微调模式不需要重新训练视觉词汇。

    基于这些创新,Fox模型结构如图所示。

    Fox支持单页/多页文档图像输入,所有图像的图像标记统一为一个,用于多页文档理解。该团队设计了一个基于点、颜色和框的系统,以关注文档页面上的任何位置。团队合成了图像和文本交织在一起的文档数据,充分催化两种视觉词汇,更好地适应实际文档应用场景。

    此外,为了推动文档细粒度理解的研究,作者还创建了中英双语,开源了数据和评估代码,包括以下9个任务:

    最后,团队呼吁更多的研究人员关注细粒度的单页/多页文档理解。单页的稀疏问答任务还远远不够。

    要真正制作大型多模态模型,视觉编码器的信息压缩率(令牌转换率)非常重要。 Fox仅探讨了文档的应用方向,希望对大家的研究有所帮助。
页: [1]
查看完整版本: 旷视团队推出Fox多模态大模型点读笔,实现复杂文档的细粒度理解与交互式感知