旷视团队推出Fox多模态大模型点读笔,实现复杂文档的细粒度理解与交互式感知
福克斯团队贡献量子比特 |公众号
多模态大模型虽然能摘西瓜,但理解复杂文档仍然有一定难度。
当面对文本密集、栏目混杂的文档时,往往很难达到预期的效果,而区域层面的细粒度理解更是难以实现。
近日,旷视团队打造了一款多模态大模型“点读笔”——Fox,可以轻松实现8页文档的交互感知和理解(中英文混合、单列和多列格式的极端场景) 。
对于信息密集的PDF文档,Fox支持高度可控的细粒度理解,例如用户感兴趣区域的文本识别、段落翻译、页面内部的图像内容描述等。
在论文中,团队进一步突破了视觉感知和对文档理解的上限。高密度信息被真正压缩,LVLM可以真正“看到”并理解图像。只有这样,我们才能真正创建一个可用的多模态文档大模型。
俗话说“一图胜千言”——一个图像令牌>>一个文本令牌。
接下来我们看看福克斯在实战中的表现如何?
中英文混杂,单列多列组合都不怕。
对于中英文混合、单栏、多栏的8页PDF文档,任意区域均可实现OCR:
https://img2.baidu.com/it/u=861518400,3298746439&fm=253&fmt=JPEG&app=138&f=JPEG?w=789&h=500
下图左侧为8页文档内跨页文档的VQA,右侧为双栏中文页面的前台OCR。
双栏密集英文页面前台OCR:
就页面上的图片描述而言,Fox可以给出与文档中内容相关的答案(年轻的Dual)。
当然,Fox还支持行级OCR,以及RoI区域的翻译和摘要。
Fox 可以结合页面上的文字并意识到这是一张图片。另外,Fox还支持RoI内的latex格式转换,如下表到latex。 Fox 还支持更灵活的颜色引导 RoI 区域 OCR。
对于卡通绘本,您还可以点击特定区域:
关于电影海报与自然场景的对话问答,福克斯给出了一个非常有趣的答案(根据电影海报下方的文字给出了角色的起源):
https://img1.baidu.com/it/u=125389327,2587212601&fm=253&fmt=JPEG&app=120&f=JPEG?w=787&h=500
那么福克斯是如何做到这一点的呢?
多词汇协同,多页文档统一打包
Fox在细粒度文档理解方面有三大创新:
Fox引入了一系列基于位置的文本提示,例如单击位置、拖动框、着色框等。这使得模型可以直接定位到任何感兴趣的区域,而不管文档格式如何。同时,Fox还将整页OCR重新定义为“前景焦点”任务,进一步增强密集文本的感知。
为了更好地理解混合图像和文本的页面,Fox 使用了两种不同专业的视觉词汇——专注于自然图像的 CLIP 和专注于人工文档的 Vary。然而,简单地叠加两种类型的数据通常会导致视觉偏差。为此,福克斯合成了大量混合视觉元素的数据,迫使两个视觉分支充分合作。
得益于高压缩率(每页1024×1024张图片对应256个图像令牌),Fox将多页文档统一打包输入。这不仅使跨页面上下文理解成为可能,而且还显着减少了计算开销。值得一提的是,这种打包微调模式不需要重新训练视觉词汇。
基于这些创新,Fox模型结构如图所示。
Fox支持单页/多页文档图像输入,所有图像的图像标记统一为一个,用于多页文档理解。该团队设计了一个基于点、颜色和框的系统,以关注文档页面上的任何位置。团队合成了图像和文本交织在一起的文档数据,充分催化两种视觉词汇,更好地适应实际文档应用场景。
此外,为了推动文档细粒度理解的研究,作者还创建了中英双语,开源了数据和评估代码,包括以下9个任务:
最后,团队呼吁更多的研究人员关注细粒度的单页/多页文档理解。单页的稀疏问答任务还远远不够。
要真正制作大型多模态模型,视觉编码器的信息压缩率(令牌转换率)非常重要。 Fox仅探讨了文档的应用方向,希望对大家的研究有所帮助。
页:
[1]