论文:MLLM-as-a-Judge for Image Safety without Human Labeling

1. Introduction

方向:Image Safety Judgment(图像安全性判断)

现有方案(Traditional Classifer、MLLM)极度依赖人工标注数据,有效但耗费时间和资源

一种“利用预训练MLLM的能力,根据一套安全规则,以0-Shot方式判断图像安全性”的方案受到关注。

对MLLM进行安全性规则查询不足以实现可靠的安全性检测,原因有以下三点:

  1. 安全性规则描述模糊或具有主观性。样例询问“不适合公众观看的内容”描述笼统,不同人对“不适合”的理解可能不同
  2. 当前的MLLM难以推理复杂冗长的安全性规则。样例询问包含2个分句25个英文单词,MLLM可能无法完全理解
  3. MLLM存在固有偏差。样例询问“是否有喉部伤口“,即使图片中只有地面和毛发上有血迹,MLLM也可能会错误地认为有喉部伤口

alt text

为了解决这些问题,本文提出了CLUEContrastive MLLM Judge),显著提高了MLLM 0-Shot Image Safety Judge的有效性

  1. 将安全性规则客观化,转化为MLLM可以有效处理的客观、可行的规则
  2. 一次检查一个规则
    • 为了处理复杂或冗长的规则,每条规则转化为一组逻辑上完整的前提条件链
    • 为了加快所有规则的迭代过程,采用多模态对比模型(如CLIP)衡量规则和图像的相关性
  3. 进行去偏标记概率分析(debiased token probability analysis),使用去偏概率预测结果
    • 减少由语言先验和非图像中心区域造成的偏差

当标记概率分析置信度低时,CLUE会使用思维链进行深入推理。

2. BG

  1. Image Content Safety 图像内容安全
  2. Safety Judge Model 安全性判断模型
    • 最初的传统分类器(Traditional Classifier)、最近的微调LLM
      • 局限:人工标注耗时且昂贵
    • 近期:0-shot MLLM(Multimodal Large Language Model)
      • 性能不令人满意

3. Method

问题模型

给定一张图像$x$和一组安全性规则$G$,有以下2个目标:

  1. 确定图像$x$是否违反了$G$中的任何规则
  2. 提供识别出的违反规则的列表

表示为:$A(x,G)\rightarrow(s,R)$

  • $s$:识别结果(安全/不安全)
  • $R$:违反的具体安全规则

3.1 Rules Objectification 规则客观化

将LLM作为优化器(LLM-as-an-Optimizer)对规则进行客观化。

让LLM对每条规则进行1~10分的打分,修改分数低于阈值(9)的规则,直到达到9分。

LLM客观性评估Prompt:

alt text

原始规则集:

alt text

客观化后的规则集:

alt text

以第4条为例,“挨着另一个人躺在床上的人”的7分描述修改为“两个互相接触的人躺在床上”的9分描述”

3.2 Relevance Scanning 相关性扫描

MLLM处理复杂结构时推理能力有限,不能把所有规则一次性输入。
尝试枚举规则输入,但是效率不高,而且很多规则可能和图片无关。
因此,需要过滤掉与图像无关的规则,减少MLLM的工作量以提高效率。

CLUE使用了预训练的文本图像编码器CLIP,通过计算余弦相似度来衡量规则和图像的相关性。

满足的规则$r$被认为与图像$x$相关

  • $I(x)$:图像$x$的CLIP编码
  • $T(r)$:规则$r$的CLIP编码
  • $t$:阈值

使用编码器的好处:速度(比MLLM)明显快,因为和MLLM数十亿的参数数量相比,Encoder的大小要小得多

实验证明,t设置为0.22时,能够过滤掉67%的不相关规则,同时保留96.6%的实际违规规则

3.3 Precondition Extraction 前提条件提取

自动将每条规则转化为一组逻辑上完整的前提条件链,便于MLLM更好地理解处理。

例如“不应描绘人物或动物身体上带有清晰可见、血腥且可能会导致其立即死亡的伤害”被转化为:

  1. 图中有可见的人 OR 图中有可见的动物
  2. 身体带有清晰可见的血腥伤害
  3. 伤害可能会导致其立即死亡

alt text

LLM前提条件提取Prompt:

alt text

3.4 Debiased Token Probability Analysis 去偏标记概率分析

给定MLLM $\mathcal{M}$、图像$x$和前提条件$c$,我们将前提条件得分记为:

alt text

也就是面对图像$x$,MLLM对前提条件$c$标记为“Yes”的概率。

如果高于一定值,则认为图像$x$满足了前提条件$c$。

一个直观的想法是把阈值设为0.5,但这个方法存在问题。

MLLM具有token probability bias(标记概率偏差),即材料本身的含义或属性会对模型的输出产生误导。

3.4.1 Bias from Language Prior 语言先验偏差

研究表明,MLLM的标记概率会受到模型语言先验的影响。

在InternVL2-76B上,大部分图像对于“血腥伤害可能会导致其立即死亡”的“Yes”标记概率都很低,因为根据训练数据,这种内容通常不会出现在图像中。

解决策略:衡量有无图像token查询之间的得分差异。

  • 低于0,则图像$x$很可能不满足前提条件$c$;
  • 明显高于0,图像$x$极有可能满足前提条件$c$

3.4.2 Bias from Image 来自图像的偏差

图像的非核心部分也会带来强烈的偏差。

比如图像中的人上半身裸体,MLLM对提问“这个人裸露臀部”的“Yes”标记概率会很高,因为根据训练数据,上半身裸露和臀部裸露具有较强的相关性。

解决策略:衡量整幅图像和删除图像核心区域$i$后图像之间的得分差异

alt text

  • 使用最先进的开放词汇对象检测器OWLv2
  • 明显高于0,且对象检测边界框置信度较高(0.05),图像$x$极有可能满足前提条件$c$

3.5 Reasoning-based Judgment

如果基于去偏标记概率分析的置信度不够,CLUE会采用基于推理的判断。

分为2步:

  1. 思维链生成
    • 使用LLM生成思维链,推理图像是否满足前提条件
    • 对格式不做要求
  2. 格式化:以Json格式输出预测结果和理由

响应速度慢,但在之前步骤置信度不足的情况下,可以提供更可靠的结果。

3.6 Algorithm

alt text

4. 个人思考

4.1 论文亮点

4.1.1 摆脱对人工标注的依赖

  1. 采用0-Shot方式,不需要人工标注数据
  2. 扩展性、适应性强,如果安全规则发生变化,只需要更新规则集,无需重新标注数据、微调模型
  3. 表现优异:结果远高于baseline(不论是0-Shot还是基于fine-tuning的方法)

4.1.2 洞察与解决MLLM的偏差问题

  1. 作者洞察到Pre-trained MLLM在处理图像安全性判断时存在偏差问题
  2. 提出了去偏标记概率分析(debiased token probability analysis)的方法,针对语言先验和图像非核心区域分别进行去偏处理

4.1.3 规则客观化与前提条件提取

  1. 考虑了安全规则描述可能具有模糊性和主观性的问题
  2. 通过LLM对规则进行客观化处理,确保规则描述清晰、可操作
  3. 对规则进行前提条件提取,将复杂规则转化为逻辑上完整的前提条件链,便于MLLM处理

4.1.4 多阶段推理流程

  1. 通过相关性扫描过滤不相关规则,减少MLLM的工作量
  2. 在去偏标记概率分析置信度不足时,采用思维链进行深入推理,结合了两者的优势

4.2 论文存在的问题

4.2.1 规则客观化的局限性

  1. 仅使用简短的Prompt提示LLM进行1~10分的评分,但并没有具体的评分标准或示例,可能导致评分结果不一致
  2. 不能保证LLM的评分就是客观准确的。
    • LLM本身就因训练数据等原因存在偏差,甚至可能产生幻觉
    • 每一次调用LLM的结果可能会有所不同,缺乏一致性
  3. LLM可能根据自己的理解将规则修改为子规则,而遗漏部分情况,影响判断结果

4.2.2 未考虑MLLM受对抗攻击的影响

MLLM已被证明易受对抗性攻击:小幅度修改输入图像,导致模型输出错误的结果。

一篇研究《Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment》甚至可以对闭源的MLLM进行对抗攻击。

CLUE中就存在多个可能被对抗攻击的环节:

  1. CLIP编码器的相关性扫描:设计一个不安全的图像,其对抗性扰动专门针对CLIP模型 ,使其对相关安全规则产生低相关性分数,从而导致大部分相关规则被过滤掉,进而减少图像被判断为不安全的可能性
  2. 由于前提条件提取,复杂规则被分解为多个前提条件,攻击者可以针对个别条件进行对抗性扰动,使得某些前提条件的标记概率低于阈值

4.3 改进思路和建议

4.3.1 规则客观化的改进

  1. 引入评分标准:为LLM评分提供明确的标准和示例,确保评分的一致性和客观性
  2. 多模型并行取平均:根据同一规则,调用多个不同的LLM进行评分,取平均值,减少单一模型偏差的影响

4.3.2 增强对抗攻击的防御

一个实用、免训练的方法是采用模型集成。
2020年9月的一篇论文《Improving Ensemble Robustness by Collaboratively Promoting and Demoting Adversarial Robustness》提出基于集合的对抗训练是实现对抗攻击鲁棒性的一种方法。

例如,让多款不同的MLLM(如InternVL、LLaVA、GPT-4V)对同一张图片进行判断,并要求达成共识,这可以提高鲁棒性,因为针对某一模型的攻击可能无法迁移到其他模型上。