An Interaction-Scene Collaborative Representation Framework for Detecting Traffic Anomalies in Driving Videos

摘要

精准的交通异常检测（TAD）对智能交通系统至关重要。传统TAD方法主要依赖驾驶场景感知或交通参与者（如车辆和行人）的运动模式来检测异常。尽管这些方法在检测性能上表现优异，但缺乏对参与者交互的直观建模，这限制了其处理复杂驾驶场景的能力。事实上，建立参与者间的交互模型有助于理解行为变化背后的逻辑机制，从而提升交通异常检测效果。本研究提出交互场景协同表征交通异常检测框架（ISCRTAD，Interaction-Scene Collaborative Representation for Traffic Anomaly Detection），该创新框架通过运用先进人工智能技术，实现了动态驾驶场景中参与者交互关系的建模。与以往的TAD方法不同，本文提出的方法首次尝试协作表示代理交互和动态驾驶场景，显著提升了对驾驶视频中交通异常的感知和理解。首先，我们介绍了代理交互建模模块，通过设计的行为交互图和空间感知图，全面建模了驾驶场景中代理之间的交互。此外，我们设计了一种异构模态协作表示（HMCR，heterogeneous modality collaborative representation）机制，深入整合代理交互与动态驾驶场景，从而更深刻地理解动态驾驶环境中的代理运动模式。在DoTA和DADA数据集上的实验结果表明，交通异常检测性能有显著提升，突显了我们AI驱动方法的有效性。

1.引言

在动态驾驶环境中，智能体间的交互行为对判定正常与异常驾驶模式至关重要。因此，开发能有效模拟动态驾驶场景中智能体交互的建模方法，对交通异常检测任务具有重要研究价值。然而，动态驾驶场景中智能体交互的复杂性，加之驾驶场景视觉表征与智能体交互特征之间的异质性，使得理解动态场景中智能体行为的底层逻辑面临挑战。因此，开发一种能整合异构模态信息（包括智能体交互模式与动态驾驶场景的视觉描述）的协同表征机制，对于在复杂驾驶场景中检测交通异常至关重要。
面对上述挑战，我们的核心目标是探索一种模拟真实驾驶场景的方法，通过全面感知和理解驾驶环境，从而提升在复杂驾驶场景中检测交通异常的能力。该方法需要具备两大关键特性：1）有效建模智能体交互的能力；2）精准感知动态驾驶场景的能力。为此，我们提出了一种基于交互场景协同表征的驾驶视频交通异常检测方法（ISCRTAD）。具体而言，我们首先运用视觉感知算法提取驾驶场景中涉及交通的关键要素。随后，设计智能体交互建模模块，通过构建的行为交互图和空间感知图来模拟智能体间的交互关系。接着，引入协同表征机制将智能体交互与动态驾驶场景相结合。最终，通过融合表征来评估驾驶场景中是否存在交通异常。
实验结果表明，所提出的ISCRTAD模型在DoTA数据集[11]和DADA数据集[13]上表现优异，其AUC值分别比当前最先进的竞争模型高出1.5%和7.7%。本研究的主要贡献可归纳如下：

我们提出了一种创新的TAD框架，能够协同呈现智能体交互与动态驾驶场景。与现有方法不同，本方案首次明确捕捉交互与动态驾驶场景的双重影响，从而在复杂驾驶环境中实现高效的异常检测。
2. 我们提出了一种代理交互建模（AIM，Agent Interaction Modeling）模块，该模块同时整合了行为交互图（BI-Graph）和空间感知图（SPGraph），以全面建模代理之间的交互。BI-Graph自适应地模拟代理间的相互影响，而SPGraph则捕捉代理间的空间关系。通过结合使用，我们的AIM模块增强了对代理运动行为的感知与理解。
3. 我们进一步提出一种异构模态协同表征机制，该机制通过将动态场景表征视为超级节点，将动态场景与智能体交互相结合。通过对比学习，该机制在特征空间中对齐两个图，实现深度协同，并显著提高检测精度。
4. 在DoTA和DADA数据集上，iscrtad方法的检测性能优于现有的最先进的方法。

3.提出的方法： ISCRTAD

在本节中，我们介绍所提出的ISCRTAD框架。首先，我们概述iscrtad的整体框架。然后，我们描述iscrtad的三个关键组件，即特征提取、代理交互建模以及异构模态协作表示（HMCR）机制。最后，我们概述所提框架的损失函数，并展示如何进行交通异常检测。

A. ISCRTAD框架概述

所提出的ISCRTAD框架如图3所示，由三个主要组件组成：1）特征提取，2）智能体交互建模，3）异构模态协同表征（HMCR）机制。

图3. 我们框架的概述。所提出的框架由三个主要部分组成：特征提取、智能体交互建模（AIM，agent interaction modeling）和异构模态协作表示（HMCR，heterogeneous modality collaboration representation）机制。首先，特征提取模块利用视觉感知算法从驾驶场景中提取关键特征。接着，AIM模块通过行为交互图（BI-Graph，behavior interaction graph）和空间感知图（SP-Graph，spatial perception graph）自适应地建模智能体之间的交互。最后， HMCR 机制引入动态驾驶场景表示，并将其与智能体交互特征协作，形成统一表示。

具体而言，特征提取模块利用现有的视觉感知算法从驾驶场景中提取关键交通相关元素，并对其进行编码以获得相应的表征。接下来，智能体交互建模模块使用获取的表征构建行为交互和空间感知图，实现对智能体交互的全面建模。此外， HMCR 机制引入了动态驾驶场景表征，将其视为超级节点连接行为交互和空间感知图中的所有元素。这两种图表征随后在特征维度上对齐，以实现异构模态信息的深度协同表征。最后，融合后的表征用于评估驾驶场景中是否发生交通异常。在接下来的章节中，我们将详细介绍这三个关键模块。

B. 特征提取

为精确建模驾驶场景中智能体间的交互作用，我们首先利用现有的视觉感知算法从驾驶场景中提取相关特征，并将其编码为高维表示。
具体而言，我们提取相关特征，包括代理的边界框和像素级外观、代理的轨迹、自我车辆的运动以及驾驶场景的深度信息。该过程可形式化为如下步骤： \[B o x_{t},\,A p p_{t},\,T r a_{t-n:t},\,M o t_{t},\,D e_{t}=V i s u a l(F_{t-n:t})\;,\] 其中\(F_{t-n:t}\)表示从时间n−t到t的视频帧；\(Box_t\)表示在帧t中检测到的智能体边界框；\(App_t\)指智能体的外观特征，这些特征根据边界框从驾驶场景中裁剪并调整尺寸；\(T r a_{t-n:t}\)表示智能体从时间t−n到t的历史轨迹（本实验中n=4）；\(M o t_{t}\)表示时间t的视觉里程计数据，我们将其视为自车的运动轨迹；\(D e_{t}\)则表示帧t中智能体的深度估计信息。在实验中，我们采用YOLOv6[41]、Deep OC-Sort[42]和TSformer-VO[43]等视觉感知算法，从驾驶视频中提取关键特征。本框架的核心在于精准建模智能体间的空间关系，这是理解其交互行为的基础。传统非生成式深度估计方法因先验知识有限，常在罕见场景中出现预测偏差。相比之下，扩散模型和生成对抗网络等生成式AI模型通过自监督学习，从海量未标注数据中提取隐性先验，大幅降低对标注数据集的依赖。这些方法通过对抗训练或迭代去噪优化深度图生成，既提升了空间关系建模精度，又增强了跨场景泛化能力[44] [45]。本研究基于Depth Anything[46]的高效性与性能优势，采用其在驾驶场景中的深度信息估计技术，精准刻画智能体间的空间关系。
此外，我们对提取的特征进行编码，以获得相应的高维表示，具体如下： \[\begin{array}{l}{B_{t}=E n c o d e r_{b}\left(B o x_{t};\theta_{b}\right),}\\{S_{t}=E n c o d e r_{a}\left(A p p_{t};\theta_{a}\right),}\\{H_{t}=E n c o d e r_{t r a j}\left(T r a_{t-n;t};\theta_{m}\right),}\\{M_{t}=E n c o d e r_{d}\left(M o t_{t};\theta_{m}\right),}\\{D_{t}=E n c o d e r_{d}\left(D e_{t};\theta_{d}\right)}\end{array}\] 其中，Encoderb（·）编码边界框，由一个全连接层（FC）和一个ReLU激活函数组成。同样地，Encoderm（·）和 Encoderd（·）分别用于获取自我车辆的运动表示和代理的深度表示，两者均由一个FC层和一个ReLU激活函数组成。Encodera（·）编码代理的外观，由三个带有ReLU激活函数的卷积层和一个FC层组成。Encodertraj（·）编码代理的轨迹，采用循环神经网络实现。此外， θ ∗ 表示相应编码器的可学习参数。（Bt，St，Ht，Dt）∈ R N×C 和 Mt ∈ R 1×C 是相应的表示。N 表示代理的数量，C 指特征表示的维度。在获得上述特征表示后，模型可以有效感知驾驶场景中代理的运动状态。

C. 代理交互建模（AIM）

实际上，通过建立智能体间的交互模型，我们能深入理解其行为变化背后的逻辑机制，从而有效提升交通异常检测能力。在自动驾驶场景中，智能体的运动状态与空间位置关系是影响其交互的关键因素。因此，准确把握智能体间的空间关系，并基于其运动状态建立精准的交互模型，对于揭示智能体的运动规律具有至关重要的意义。
本研究提出了一种智能体交互建模（AIM）模块，用于直观捕捉智能体间的交互关系。如图4所示，该模块包含两个核心组件：行为交互图（BI-graph）与空间感知图（SP-graph）。其中，行为交互图通过分析场景中智能体的运动状态，揭示其相互作用机制，从而展现底层交互逻辑。另一方面，SP图整合了位置信息，以聚焦于驾驶场景中各智能体之间的空间关系。前者有助于理解智能体行为变化背后的逻辑，后者则提供智能体相对位置的关键信息，这对理解异常行为至关重要。通过结合这两种图类型，可以更全面地建模智能体间的交互关系，从而更深入地理解智能体行为模式，并实现更精准有效的交通异常检测。

图4. 代理交互建模（AIM）模块的结构。该模块主要由行为交互图（BI-Graph）和空间感知图（SP-Graph）组成。前者模拟代理之间的相互影响，后者则捕捉它们的空间关系。

1)行为交互图

为自适应建模驾驶场景中各智能体间的相互影响，我们基于图结构设计了行为交互图。
具体而言，如图4所示，驾驶场景中的所有智能体均被视作行为交互图中的节点。节点特征定义如下： \[\begin{array}{l}{V_{t}=M L P\ (C o n c a t\ (B_{t},\,H_{t},\,S_{t};\,1)\,;\theta_{n o d e})\,,}\\ {V_{t}:=C o n c a t\ (M_{t},\,V_{t};0)\,,}\end{array}\] 其中，concat（：； 1）表示边界框、代理运动和外观表示在特征维度上的拼接；MLP（·）表示一个多层感知器，由一个全连接层和一个 ReLU 激活函数组成； θnode 表示可学习参数。concat（Mt，Vt； 0）将自我车辆的运动表示与其他节点拼接；Vt ∈ R（N+1）×C 表示行为交互图的节点表示。
此外，我们通过构建邻接矩阵来描述各代理之间的相互影响，该矩阵的数学表达式如下： \[a_{t}^{i j}=g(x,y)=\left\{\begin{array}{lr}\frac{v_{t}^{i}\cdot(v_{t}^{j})^{T}}{\|v_{t}^{i}\|\cdot\|v_{t}^{j}\|},&\quad\mathrm{if~}i\gt 0\mathrm{~and~}j\gt 0\\1,&\quad\mathrm{if~}i = 0\mathrm{~or~}j = 0\end{array}\right.\] 其中 {vt 0 ，vt 1 ，vt 2 ，... ，vt i ，... ，vt N } = Vt。在邻接矩阵 At 中，vj 表示节点 vt i 对节点 vt j 的影响，第一个节点对应于自我车辆。具体来说，我们使用余弦相似度来计算代理之间的相互影响。此外，为了自适应地关注最关键代理，我们通过应用预定义的阈值对邻接矩阵进行稀疏化，如下所述：

1)空间感知图

为准确捕捉驾驶场景中各智能体的空间关系，我们进一步设计了空间感知图来实现智能体交互的精准建模。
具体而言，参照行为交互图的构建方式，首先将驾驶场景中的所有智能体作为空间感知图的节点。随后，为建模不同智能体之间的空间位置关系，我们按以下方式构建空间感知图的邻接矩阵： \[\begin{array}{l}D i s_{t}=M L P\ (C o n c_{s}t\;(B_{t},D_{t};1)\,;\,\theta_{d i s})\\d i s_{t}^{i j}=\left\{\begin{array}{lr}\frac{d_{t}^{i}\cdot\left(d_{t}^{j}\right)^{T}}{\left\|d_{t}^{i}\right\|\cdot\left\|d_{t}^{j}\right\|\cdot\left\|d_{t}^{j}\right\|},&\mathrm{~if~}i\gt 0 \mathrm{~and~}j\gt 0\\1,&\mathrm{~if~}i = 0 \mathrm{~or~}j = 0\end{array}\right.\\A D_{t}={\left\{\begin{array}{l l}{d i s_{t}^{i j},{\mathrm{~if~}}d i s_{t}^{i j}\gt \varepsilon,}\\ {0,{\mathrm{~if~}}d i s_{t}^{i j}\leq\varepsilon,}\end{array}\right.}\end{array}\] 其中 Dist = {dt 1 ，dt 2 ，dt i ，... ，dt N }，di t ∈ R 1×C，表示驾驶场景中各代理的空间位置表示，这些表示源自边界框表示及其对应的深度表示。在我们的工作中，采用余弦相似度来衡量两个节点之间的空间关系，其中自我车辆与其他所有节点之间的空间关系设为1。然后，使用预定义的阈值 ε 对空间感知图的邻接矩阵进行稀疏化，得到ADt。在实验中，我们经验性地将 ε 设置为0.5。

D. 异构模态协同表示机制（HMCR）

注意到驾驶场景在行驶过程中表现出动态特性。为了模拟代理交互和动态驾驶场景的双重影响，我们进一步提出了一种异构模态协作表示（HMCR）机制。其核心思想是将动态驾驶场景表示作为超级节点，连接行为交互图和空间感知图中的所有节点，从而实现异构模态的协作表示，即代理交互和动态驾驶场景的表示。

5.结论

本研究提出了一种交互场景协同表征方法，用于驾驶视频中的交通异常检测。该方法首次明确建模了智能体交互与动态驾驶场景的双重影响，显著提升了在复杂驾驶环境中检测由智能体交互引发的交通异常的能力。实验结果表明，所提出的智能体交互建模方法能自适应捕捉驾驶场景中智能体间的交互关系。此外，通过引入异构模态协同表征机制，实现了智能体交互与动态驾驶场景的联合表征，从而在复杂驾驶场景中实现了交通异常检测准确率的显著提升。
尽管取得这些进展，该方法仍存在若干局限性。首先，其性能受限于视觉感知算法的能力。在极端天气条件或高度遮挡环境等更具挑战性的驾驶场景中，异常检测的准确性可能降低。其次，该框架在训练过程中依赖标注的驾驶视频数据。未来探索端到端弱监督或无监督的交通异常检测方法，既能缓解视觉感知算法的局限性，又能大幅降低对数据采集和标注的依赖。此外，整合多模态数据（如激光雷达、雷达等）将为提升交通异常检测系统的鲁棒性和泛化能力开辟新路径。我们期待这项研究能为这个重要且快速发展的领域注入新的研究动力。