Learning double-compression video fingerprints left from social-media platforms

Irene Amerini1 ,Aris Anagnostopoulos1,∗ ,Luca Maiano1,2 ,Lorenzo Ricciardi Celsi1,2,Sapienza University of Rome1 ,ELIS Innovation Hub2

摘要

​  社交媒体和即时通讯应用已成为重要的沟通平台。多媒体内容能有效提升用户参与度,因此成为不可或缺的传播工具。然而,虚假信息和篡改内容极易引发病毒式传播,因此验证视频图像来源、区分原生内容与下载内容变得至关重要。目前社交媒体来源验证工作主要集中在图像领域,本文提出一种基于卷积神经网络(CNN)的架构,通过分析视频内容追溯其社交网络源头。实验表明,该方法能以极高的准确率对视频和图像进行平台溯源。

提出的方法

​  在视频编码中,视频由一系列图像组(GOP)构成,每个图像组都以I帧作为起始。I帧不依赖其他帧进行预测,采用类似JPEG压缩的独立编码方式。除I帧外,每个图像组的其余部分由P帧和B帧组成。这些帧通过运动估计与补偿进行预测编码,因此它们源自锚定I帧的片段,属于质量较低的帧类型。本节将介绍由双流网络构成的创新架构(见图1),该设计灵感源自Nam等人[15]的研究成果。不过,将这种特殊网络应用于我们研究的问题具有开创性意义,因此需要对[15]中的方法进行若干重要改进。首先,我们对Ind-Net的第三个卷积块进行了改进:移除了包含卷积层、批归一化和ReLU激活函数的操作堆栈,并在CNN末端新增了一个卷积块(第六模块)。这种深度架构设计有助于网络捕捉输入数据中更细微的细节特征。随后,我们对Pred-Net进行优化:将每个模块的操作数量翻倍,并增加各模块的输出通道数,从而学习到更丰富的表征信息。最后,我们将P帧流的展平特征图维度从128降至256,IF流的维度从16,384降至4,096。这一调整有助于降低I帧相对于P帧的重要性。由于B帧画质较差,我们未将其纳入分析。此外,我们引入了双流网络(MultiFrame-Net),用于学习两种帧类型特征间的跨模态关联。本节后续内容中,我们用W×H表示视频v的分辨率。每个视频可由N帧组成,记作f0,...,fN−1,其中fj∈Z₃×W×H。同时,我们使用fIi (v)和fP i (v)分别表示视频v的第i个I帧和P帧。