论文笔记|PSCC-Net:Progressive Spatio-Channel Correlation Network for Image Manipulation Detection and Localization
| 缩写 | 全称 | 翻译 |
|---|---|---|
| IMDL | Image Manipulation Detection and Localization | 图像篡改检测与定位 |
1 Introduction
图像篡改类型:
- 内容相关:
- 拼接(Splicing):来自不同图像
- 复制-移动(Copy-Move):图像内部
- 删除(Removal):移除对象并填充
- 内容无关:全局修改(亮度、对比度、模糊等)
现有IMDL问题:
- 尺度变化(Scale Variation):篡改区域大小不一,现有难以同时利用局部和全局特征,只能处理有限的尺度变化
- 图像相关性(Image Correlation):考虑图像空间相关性可获得更具普适性的定位方案
- 检测(Detection):篡改检测和定位是高度相关的任务,检测分数可直接从预测篡改掩码中推导
本文贡献:
- 提出了PSCC-Net,篡改检测表现良好,能够以粗到细的方式逐步改进篡改定位
- 设计了一个新颖的SCCM模块来捕获空间和通道相关性,实现更好的泛化
- 检测和定位均达到SOTA水平
2 Related Work
2.1 Image Manipulation Detection 图像篡改检测
- 隐式方法:预测篡改掩码的统计数据获得检测分数
- 显式方法:通过专用分类模块显式输出分数
近期研究侧重于像素级篡改定位,而忽略了图像级检测的重要性。
本研究则在训练中同时利用篡改图像和原始图像,并同时考虑图像篡改的检测和定位。
2.2 Image Manipulation Localization 图像篡改定位
多数方法在检测特定伪造类型时表现良好,但现实中伪造类型通常无法预知且同时存在多种伪造手段。
J-LSTM和H-LSTM集成了LSTM和CNN来捕获边界判别特征,由于基于块的设计,这两种方法都很耗时,并且可检测区域的大小受到预设块大小的限制。
RGB-N采用隐写分析丰富模型与Faster R-CNN,但仅能提供边界框而非分割掩码。
ManTra-Net通过特征学习识别385种已知篡改类型,并将问题转化为异常检测;SPAN在ManTra-Net基础上,通过局部自注意力模块与金字塔传播进一步建模空间相关性。但由于仅考虑局部区域相关性,ManTra-Net和SPAN未能充分利用空间相关性,导致泛化能力受限。
2.3 Progressive Mechanism 渐进机制
以由粗到精的方式处理具有挑战性的任务。
本文提出一种密集连接的金字塔结构,通过自下而上逐步精炼处理掩码,每个预测掩码成为下一尺度估计的先验信息。
2.4 Attention Mechanism 注意力机制
注意力机制可分为两类:空间注意力和通道注意力。
本研究提出的统一SCCM模型,能在同一特征上同时探索空间域与特征通道中的图像相关性与差异性。
此外,基于维度缩减设计,SCCM可适配任意尺寸的低级与高级特征。
3 Methodology
3.1 Network Architecture 网络架构
Top-Down Path
- 轻量级骨干网络HRNetV2p-W18,默认设置
- 不同尺度特征并行计算,密集的尺度间连接实现高效信息交换,有利于处理尺度变化
- 因每个尺度均执行局部与全局特征融合,每组特征均包含足够信息以预测对应尺度的操作掩码
每个掩码的预测都应基于全部局部与全局特征以提升精度。
除末级预测掩码外,其余掩码均作为下一级预测的先验信息。
自顶向下路径完成后,将提取四个尺度的操纵特征,随后通过自底向上路径执行操纵检测与定位。
Bottom-Up Path
- 检测分数基于自顶向下路径提取的特征
- 通过检测头进行预测,随后通过全监督的渐进机制生成操纵掩膜
- 该粗到细的渐进机制模拟了人类处理日常复杂问题的方式
- $f_i$:第$i$层的SCCM
- $F_i$:自顶向下路径提取的特征
- $M_i$:自底向上路径生成的操纵掩码
- $F_i$和$M_i$的尺寸:$H/s^{i-1} \times W/s^{i-1}$,$s=2$为下采样因子
- $\tau(\cdot)$:上采样操作,双线性插值
首先预测最粗尺度上的掩码,以根据当前可用信息定位可能被伪造的区域。
随后在更细尺度上的预测可以利用先前的掩码,并更加关注这些选定的区域。
在所有尺度上应用全监督来指导掩码估计。
3.2 Spatio-Channel Correlation Module 空间-通道相关模块
通过空间注意力机制,基于像素间上下文关联性聚合像素级特征;
同时运用通道注意力机制,基于通道间关联性整合特征图。

