论文:Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

阿里达摩院的一个多模态大语言模型产品Video-LLaMA,它针对的任务是多模态视频理解。

Background

要使LLMs理解视频,需要全面处理包括视觉输入、听觉输入和文本输出在内的不同模态,这比仅理解图像或仅理解音频任务更具挑战性

  • Multi-modal Large Language Models (MLLMs)
  • 现有方法:只有一种额外模态输入和文本对齐
  • 针对视频理解的work:不使用音频部分

Video-LLaMA可以理解视频中视觉和听觉内容。

不同于采用外部感知将视听信号转化为文本信号,作者构建了一个端到端模型,可以在单个框架内处理来自多种模态的数据

Related Work

  1. LLMs
    • 本文基础
    • Video-LLaMA赋予LLM视频、音频理解能力
  2. MLLMs
    1. 将LLM作为控制器,识别用户意图并决定调用现有的多模态工具,整合结果全面响应
    2. 训练基础多模态大模型,核心是将其他模态的预训练基础模型与文本型大型语言模型对齐
    • Video-LLaMA属于第二类,训练模型以提供视觉、音频理解能力

Architecture

Video-LLaMA将视频帧和音频分别处理,整个架构分成两个分支:视觉语言分支和音频语言分支

分别将视频帧和音频信号转换为与LLM文本输入兼容的查询表示

Vision-Language Branch

1. Frozen pre-trained image encoder

冻结的预训练图像编码器,从视频帧提取出视觉特征。

v_i表示第i帧用K_f个patch表示的视觉特征,d_f是每个patch的维度。

2. PE layer

上一层产出的presentations未考虑时序信息,PE层为每个v_i添加位置嵌入(时间信息)

3. Video Q-Former

Video Query-Transformer(Q-Former)使用和BLIP2的Q-Former的同款架构,将位置编码后的帧表征聚合为视频级别的嵌入表示。

4. Linear

使视频表征适应 LLM 的输入,将视频嵌入向量转换为视频查询向量,与 LLM 的文本嵌入对齐

一个线性层将视频嵌入转换为视频查询向量,与文本嵌入的维度对齐。

Implementation

实现部分,冻结的预训练图像编码器使用Blip2的预训练视觉组件(包含来自 EVA-CLIP 的 ViTG/14 和一个预训练的 Q-former)

其余组件,包括位置嵌入层、视频 Q-former 和线性层,均经过随机初始化和优化,以便将冻结视觉编码器的输出与冻结的 LLM 良好地连接起来。

Audio-Language Branch

整体结构和视觉语言分支基本相同,处理音频信号。

1. Frozen pre-trained audio encoder

冻结的预训练音频编码器,计算短片段原始音频的特征。

2. PE layer

向音频片段注入时间信息

3. Audio Q-Former

Audio Q-Former 也使用Q-Former的同款架构

利用带有位置信息的音频片段之间的交互,来生成固定长度的音频特征。

4. Linear

将音频嵌入向量转换为音频查询向量,与文本嵌入的维度对齐。

Implementation

实现部分,冻结的预训练音频编码器使用 Pre-trained ImageBind

短片段原始音频:均匀采样M个2秒短音频片段,使用128个mel频谱图像将每个2秒音频剪辑转换为频谱图

其他部分的处理和视觉语言分支相同。

Training

Video-Language

预训练使用的数据集:

  • Webvid-2M:大规模短视频数据集,包含来自素材网站的文本描述
  • CC595k: 经过过滤的图像-文本数据集

问题:相当一部分文本描述不足以反映视频的全部内容,视频的视觉语义与描述的文本语义并非完全一致。

预训练阶段的目标是利用海量数据使视频特征尽可能地包含视觉知识

将视觉文本对齐和指令遵循能力留待下一阶段完成

使用高质量的指示数据对模型进行微调:

  • 图像细节描述 from MiniGPT-4
  • 图像指令 from LLaVA
  • 视频指令 from Video-Chat

细节描述:训练模型能够对图像或视频生成详尽、全面、事实性的文本描述,尽可能多地捕捉和描述图像/视频中的所有可见元素、它们的属性、空间关系、发生的动作以及上下文

指令:理解并遵循用户的特定指令或回答用户提出的具体问题,针对该指令或问题的简明、准确的回答或执行结果

Audio-Language

音频-语言分支中可学习参数的目标是将冻结的音频编码器的输出嵌入与LLM的嵌入空间对齐。

直接使用音频-文本数据训练音频-语言分支非常具有挑战性,因为这类数据非常稀缺。

天才的想法:ImageBind具备将不同模态的嵌入对齐到同一共享空间的卓越能力

直接用视觉‑文本数据来训练音频‑语言分支,甚至处理和训练流程都直接照搬//

训练的结果:虽然训练时没见过音频数据,推理过程中展现出理解音频的能力

思考:为什么可以使用视觉文本数据训练音频-语言分支?

  • 一切的基础:ImageBind的多模态对齐能力
    • 读到架构部分的时候还奇怪为什么音频-语言分支要用ImageBind这样一个名字长得像视觉语言处理器作为编码器,一切都有迹可循
  • 视频的画面通常和语音同步对应,可以近似替代音频数据,训练效果应该会比较相近

LLM

最后,视频和音频信息与文本嵌入连接在一起,作为视频软提示,引导LLMs生成基于视频内容的文本。

Examples

1. 视听整合感知能力

在包含一个视频的一个对话中,各提出一个关于音频和视频的指令,Video-LLaMA都可以答上来,说明其具备良好的视听整合感知能力。

2. 捕捉视频内时间动态的能力

Video-LLaMA可以捕捉到船向右行进、女孩将手指放在嘴唇上等时间动态。

3. 理解静态图片的能力

能理解“男人在车顶拿着熨斗烫衣服”的非常规内容;细致描写小狗动作,同时将动作和“与人类友好互动”联系起来。

4. 常识性内容

能够认出地标性建筑“美国国会大厦”

甚至认出影视《权力的游戏》中由基特-哈灵顿扮演的琼恩-雪诺和由艾米莉亚-克拉克扮演的丹妮莉丝-坦格利安,甚至清楚在剧中,他们有着浪漫的关系。他们第一次见面是在第七季,在第八季中,他们对彼此的吸引力与日俱增。

Conclusion

提出Video-LLaMA,一个使LLM能够同时处理给定视频的视觉和听觉内容,并与人类进行对话的多模态框架

Limitations

  1. 感知能力有限:当前训练数据集的质量和规模限制了Video‑LLaMA的表现。我们正在积极构建高质量的音视频文本对齐数据集以提升模型的感知能力。
  2. 处理长视频能力有限。长视频(如电影、电视剧)包含大量信息,对计算资源要求更高。这一挑战仍是研究界积极攻克的关键问题。
  3. 幻觉问题。Video‑LLaMA继承了冻结的大语言模型的幻觉问题。
  4. 整个work内容简单,缺乏科学的评估和与SOTA/baseline的对比
  5. Webvid-2M素材来自网络、短视频文本描述抽象不切题,数据质量低,且可能含有有害内容。
    • 尽管指令微调使用了“更高质量”的数据 ,但初始预训练在 WebVid-2M(200 万视频 )上庞大
  6. 使用视觉-语言数据训练ImageBind的音频-语言分支这种做法虽然在结果上看到成效,但仍然缺乏充分的理论支持和实验验证。