51策略复旦等推出「第一人称视听基准」，补齐多模态模型「听觉拼图」

多模态大模型掉进真实世界，会"失聪"。

你把它放在厨房：背后有人说话、金属碰撞、蒸汽嘶嘶——画面里啥也没有，但声音已经把关键信息全透露了。此时最强模型也开始"失灵"：看得懂动作，听不懂发生了什么；能描述现象，推不出原因。

问题不是模型不会"看"，而是还不会真正"听"。

声音，从来不是配角

而在人类的日常认知里，声音从来不是配角：

它提供空间线索（声源左 / 右、远 / 近、是否移动）

它揭示画面外事件（镜头外的对话、敲门、摔落、报警）

它承载因果与意图（某个动作触发了某个声音；某个声音提示下一步行为）

但长期以来，第一人称视频理解基准高度"视觉中心化"：音频存在，但缺乏系统评测；听觉重要，却很少被认真考察。第一视角世界，一直处在"半静音"状态。现有第一人称视频问答 / 理解基准，长期偏"视觉中心"，即使出现音频也常被当作辅助信息，缺少对"声音理解与推理"的系统评测空白。

现在，这个空白终于被补上了。

EgoSound：让模型真正学会"听"

来自复旦大学，上海创智学院，INSAIT，华东师范大学，南开大学的研究团队，提出了首个系统评测第一人称声音理解能力的基准：

EgoSound: Benchmarking Sound Understanding in Egocentric Videos

这是首个专门面向 MLLMs 的第一视角"声音理解"评测体系。目标很明确：

让模型在真实世界中，能听见、理解、推理，并解释发生的一切。

不仅"看见世界"，更要"听懂世界"。

从"看见发生了什么"到"听懂隐藏线索"

以往的 egocentric VideoQA，更像一个"静音观察者"。它擅长回答：画面里有什么？人在做什么？却很难处理：谁在说话？为什么说？这个声音意味着什么？声音与动作如何形成因果链？

EgoSound 关注的不是"视频里有什么"，而是：当声音成为关键证据时，模型还能不能答对？

一个基准，四大核心贡献 1. 首个第一人称声音理解 Benchmark

EgoSound 融合了两类互补数据：

Ego4D：覆盖大量日常第一人称活动

EgoBlind：聚焦更依赖听觉理解 / 交互 / 导航的场景

这使得评测既包含"视觉主导"的常见第一视角，也包含"声音主导"的现实难例。

2. 七大任务体系：从感知到推理

EgoSound 系统拆解了第一人称声音能力边界，覆盖 7 类任务：

Sound Characteristics（声音特征）

Counting（计数）

Temporal Attribute（时序属性）

Spatial Location（空间定位）

Sound Source Identification（声源识别）

Inferential Causality（因果推理）

Cross-Modal Reasoning（跨模态推理）

覆盖"听到→理解→推断"完整链路。

3. 高质量大规模 OpenQA 数据集

最终数据规模为：900 段严格筛选视频 +7315 条验证后的开放式问答（OpenQA）。

强调"开放式"意味着它更接近真实问答，不是靠选项"蒙对"，更贴近真实场景。

4. 全面模型评测与基线建立

研究团队评测了多款 SOTA MLLMs，并进行系统分析，给未来方法研究提供清晰靶点。

为"听觉推理"量身打造的数据构建流程

为了确保问题真的依赖声音，研究团队采用多阶段筛选机制：

定位关键的人 - 物交互片段

再生成交互片段的"音频中心"描述

构建并筛选高质量 OpenQA

并借助多个强模型辅助标注。最终保证：每条问题都绕不开"听觉线索"。

实验结果：模型仍然"听不懂世界"

评测结果非常直观，最强模型与人类差距超过27 个点说明：当前模型还无法稳定把声音转化为可靠认知。

人类平均准确率：83.9%

当前最佳模型：56.7%（Qwen3-Omni-Thinking-30B）

三个关键发现（1）空间 / 时序 / 因果最难：

模型往往能描述看得见的内容，却难以稳定回答"声音来自哪里""什么时候发生""为什么会这样"。

（2）跨模态对齐仍是瓶颈：

声音线索经常在画面之外，模型需要建立"听到—看到—推断"的链条。

（3）第一人称的真实复杂度被低估：

人与物的交互、遮挡、镜头抖动、声源离镜头远近变化，让声音推理更贴近真实但也更难。

结语：真实世界从不静音

如果说过去的多模态模型更像一个擅长"看图说话"的解说员，那么 EgoSound 希望推动它成为真正的第一人称智能体：

既能看，也能听；不仅能描述，更能定位、解释与推断。

毕竟，真实世界从不静音

论文标题：

EgoSound: Benchmarking Sound Understanding in Egocentric Videos

Paper：

https://www.arxiv.org/abs/2602.14122

Github:

https://github.com/groolegend/EgoSound/

Huggingface:

https://huggingface.co/datasets/grooLegend/EgoSound

Project page：

https://groolegend.github.io/EgoSound/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 � �

感兴趣的小伙伴欢迎关注 � � 了解详情

� � 点亮星标 � �

科技前沿进展每日见

瑞和网配资提示：文章来自网络，不代表本站观点。

51策略复旦等推出「第一人称视听基准」，补齐多模态模型「听觉拼图」

金河配资国金证券：给予美格智能买入评级