多模态长文本理解测评首发:46款模型无一攻克128K难关

多模态长文本理解有综合性的评判标准了!

来自香港科技大学、腾讯西雅图 AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联合提出了MMLongBench,旨在全面评估多模态模型的长文本理解能力。

随着多模态大模型的单次推理的文本窗口快速提升,长上下文视觉 - 语言模型(Long-Context Vision-Language Models; LCVLMs)应运而生,使模型能够在单次推理中处理数百张图像与较长的交错文本。

但当前,由于评估多模态长文本的基准测试稀缺,现有的测试集仅关注单个任务,比如大海捞针或者长文档问答。目前尚不清楚现有的模型在长上下文环境下的综合表现,具体在哪些任务上存在短板,以及它们对不同输入长度变化的适应能力究竟如何。

MMLongBench 覆盖 5 大类型任务的 16 个不同的数据集,包含 13,331 个长文本样本,涵盖 Visual RAG、大海捞针 ( needle-in-a-haystack ) 、many-shot in-context learning、长文档摘要和长文档 VQA。同时,丰富的任务设计兼顾了多样的图像类型,既包括自然图像(如实景照片),也涵盖了各类合成图像(如 diffusion 生成的图片和 PDF 文档截图)。

该数据集还提供了跨模态长度控制:使用 image patch 和 text token 来计算上下文长度,严格标准化 8K/16K/32K/64K/128K 输入长度。

其评测数据集以及评测代码现已全部开源。

作者对 46 个领先的多模态大语言模型进行基准测试,其中包括 Gemini-2.5-Pro、Claude-3.7-Sonnet、GPT-4o 和 Qwen2.5-VL-72B。

结果显示,无论闭源还是开源模型,在长上下文视觉 - 语言任务上都面临较大挑战,仍有巨大的提升空间。

此外,进一步的错误分析表明, ( 1 ) OCR 能力和 ( 2 ) 跨模态检索能力仍然是当前 LCVLMs 在处理长文本时的瓶颈。

多任务多模态长文本测试集

多任务的数据构建

MMLongBench 是一个包含了 13,331 个多模态长文本样例的大规模基准,涵盖五大具有挑战性的任务,分别是 Visual RAG, Needle-in-a-Haystack,Many-Shot ICL,Summarization 和 Long-Document VQA。

这些任务旨在从多角度考察 Long-Context VLMs ( LCVLMs ) 对长文本下游任务的理解能力,提供一个完整详细的评估。

MMLongBench 充分利用了现有的高质量多模态数据资源,系统性地筛选和整合了 16 个公开的、多样化的多模态数据集。所有问题和答案均来源于原始数据集。为了支持长上下文能力的评估,作者对原始数据进行了上下文长度控制,将原本较短的样本扩展至 8K-128K token 的上下文长度,并将较长样本进行截断,以适配不同长度的测试需求。

例如在 Visual RAG 任务中,研究团队从 Wikipedia 中检索与问题相关的段落,将其拼接为长上下文,以模拟真实的 Visual RAG 应用场景。同时,在 summarization 任务中,作者选用长 PDF 文档作为输入,并对文档末尾进行截断,以满足不同上下文长度的需求。

跨模态长度控制

现有多模态长文本数据集通常以图片数量作为样本长度的衡量标准,而忽略了不同图片的尺寸差异以及问题中的文字内容。为了统一不同数据集的样本长度,MMLongBench 将文本 Token 和图片 patch 共同计入总输入长度,而不是仅以图片数量粗略衡量样本长度。

具体来说,作者采用 Llama2 的分词器计算文本 token 数量,并将每张图片划分为 14 × 14 的 patch,同时应用 2 × 2 的 pixel unshuffle 操作以压缩视觉 token 数量。这种处理方式兼容当前主流的多模态大模型,例如 Qwen2.5-VL 和 InternVL3,能够更真实地反映不同样本的实际输入长度,也使跨数据集的评估更加公平和标准化。

同时,MMLongBench 为每个样本都提供了 8K、16K、32K、64K 和 128K 五种长度的上下文,便于分析模型在不同长度下的表现变化。此外,这一设计也支持进一步扩展至更长的输入长度,满足未来模型发展需求。

总体来说,通过多任务的数据构建和跨模态长度控制,MMLongBench 为当前多模态大模型的长文本能力提供了更加完整和细致的评估。以下是 MMLongBench 和现有数据集的对比 :

性能评估

研究团队对 46 个领先的 LCVLMs 进行了全面评估,其中包括闭源模型 Gemini-2.5-Pro、GPT-4o、Claude-3.7-Sonnet,以及多种开源模型,例如 Qwen2.5-VL-72B、InternVL3-38B。结果发现,无论是闭源还是开源的多模态大模型,在长上下文视觉 - 语言任务上都面临较大挑战,仍有巨大的提升空间。

发现 1:所有模型在长上下文视觉 - 语言任务上都面临较大挑战

总体来看,所有模型在长上下文任务上都表现不佳。在 128K token 长度下,InternVL3-38B、Qwen2.5-VL-72B 和 Gemma3-27B 这些顶尖的开源多模态大模型获得的平均分仅为 49.8、48.7 和 51.2。GPT-4o 的平均分也只有 62.9,并且得分最高的闭源模型 Gemini-2.5-Pro 也没有超过 80 分。

发现 2:推理能力更强的模型往往在长上下文任务中表现得更好。

团队在评测中引入了 Gemini-2.0-Flash-T ( gemini-2.0-flash-thinking-exp-01-21 ) ,它是 Gemini-2.0-Flash 的推理版本。从结果来看,推理能力能够在所有任务上持续提升 Gemini-2.0-Flash 的表现。在 summarization 和 DocVQA 任务上的提升则分别达到了 25.3% 和 10.1%。此外,Gemini-2.5 系列模型作为原生的推理模型,表现则更为强劲。

发现 3:单一任务的性能难以有效反映模型的整体长上下文能力

基于模型的分数,研究团队计算了不同任务之间的 Spearman 相关系数。结果发现,不同类别之间的相关性普遍不高(低于 0.85)。这表明,仅依赖单一任务的性能难以全面反映模型的整体长上下文理解能力,也进一步证明了 MMLongBench 采用多样化下游任务进行评估的必要性。

错误分析 ( Error Analysis )

研究团队进一步针对模型在 Long-Document VQA 和 Visual RAG 任务上的表现进行了分析。

1. OCR 能力是处理长文档输入时的瓶颈

研究人员将 PDF 格式的文档通过 OCR 技术转化为纯文本(w/ OCR),再输入到模型当中。总体来看,使用图像格式的 PDF 文档输入和 OCR 提取的纯文本输入并没有绝对的优劣。Qwen2.5-VL 系列模型在大多数情况下对图像格式的 PDF 文档处理效果更佳,而 Gemma3-27B 则在较短输入长度(≤ 32K)时更偏好纯文本。

此外,研究团队还根据答案来源将样本细分为两类:纯文本 ( text-pure ) 和需要视觉理解 ( vision-needed ) 的样本。结果显示,在需要视觉理解 ( vision-needed ) 的样本上,模型使用图像格式的 PDF 文档输入能够获得更高的分数;而在纯文本 ( text-pure ) 样本上,尤其是在 64K 和 128K 的长输入下,OCR 提取的纯文本输入能带来更好的效果。同时,当使用 OCR 提取的文本时,将 LCVLMs 替换为相应的纯文本大语言模型 ( Qwen2.5-7B 和 Qwen2.5-32B,图中为 w/ LLM),在 text-pure 样本上能获得更好的效果。

这表明,当前 LCVLMs 在处理长文档输入时,OCR 能力仍然是一个瓶颈。未来的工作可以考虑结合两种输入以进一步提升性能。

2、跨模态检索能力限制长文本表现

研究团队还对现有模型在 Visual RAG 任务中的错误来源进行了分析。研究团队将 ViQuAE ( Visual RAG 任务中的数据集 ) 中的图片替换为对应命名实体的名称,从而所有样本都变为纯文本输入 ( w/ name ) 。将这些纯文本的问题输入到 LCVLMs 中,结果显示,所有模型的表现都有不同程度的提升,其中 Gemma3-27B 在 128K 长度下提升最大,达到了 26.4。这表明现有的 LCVLMs 在跨模态信息检索方面存在瓶颈限制长文本能力。

此外,将这些问题输入到 Qwen2.5-VL 对应的 LLMs 当中 ( Qwen2.5-7B 和 Qwen2.5-32B,图中为 w/ LLM ) , 也能提升模型表现。这说明在 LCVLMs 训练过程中,多模态能力与纯文本的长上下文能力之间存在 tradeoff。

论文:

https://arxiv.org/abs/2505.10610

主页 :

https://zhaowei-wang-nlp.github.io/MMLongBench-page/

代码 :

https://github.com/EdinburghNLP/MMLongBench

数据集 :

https://huggingface.co/datasets/ZhaoweiWang/MMLongBench

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

点亮星标

科技前沿进展每日见