助力卷积神经网络时空特征学习史上最大行人重识别视频数据集被提出-神经网络-技术-爱吧机器人网

原文作者

北京大学：Jianing Li,Shiliang Zhang,Wen Gao

微软研究院：Jingdong Wang

圣安东尼奥德克萨斯大学：Qi Tian
原文链接：https://arxiv.org/pdf/1712.07286.pdf

摘要：

本文提出了一个大型的、长序列的、用于行人重识别的视频数据集，简称LVreID。与现有的同类数据集相比，该数据集具有以下特点：

1）长序列：平均每段视频序列长为200帧，包含丰富的视角、姿态等变化信息，可有效帮助特征学习；
2）最复杂：包含各种光照、场景、背景变化等信息，由15个摄像头于室内室外不同环境拍摄得到，拍摄时间覆盖12个时间段；
3）目前最大：包含3772个ID身份、3百万个标记窗口。这些特征使得该数据集对于实际的行人重识别任务更具有挑战性，并且更接近实际应用情况。

此外，作者针对此数据集，提出了一个基准模型，名为空间对齐时间金字塔池化网络（SATPP），该模型可以充分利用长视频序列中的丰富的特征信息，有效解决空间上的检测窗口不齐的问题，并且整合不同长度的时间特征。实验表明，SATPP提取的特征优于当前流行的视频特征。此外，随着视频时间增加，行人重识别的精度也随之提升，证明了LVreid长序列视频数据集的有效性。

简介：

行人重识别任务即在多个摄像头视角拍摄到的视频中定位同一个人，在学业界及工业界引起广泛关注。然而，由于不同的行人之间特征的相似性以及同一个行人特征的变化性，行人重识别问题一直颇具挑战。

现有的行人重识别研究可以大体分为两类：基于图像的技术以及基于视频的技术。前者从静态的图片中提取判别性特征，后者从动态的视频序列中进行区分，因此难度更大。在视频分析中，需要同时提取时间维度的变化信息以及空间结构的特征，并且面临着视频序列冗余或者长度不均等问题。不过，基于视频的reid任务可以利用监控视频中包含的丰富的时间、空间信息，进行性能的有效提升。

近年来，基于图像的reid研究进展迅速，而视频方面的研究停滞不前。究其原因，其一，现有的视频reid数据集长度太短，难以提供足够的时间信息。例如，现有的MARS数据集中，平均序列长度为58帧，iLIDS-VID数据集的平均序列长度为73帧，也就是说，平均每段视频长度为2-3秒，其中的变化性是非常小的，见下图，视频开始和视频结束时行人的姿态动作、角度等大体相同，可提供的信息较为单一。这样一来，视频所包含的信息和静态图片几乎相当，意义不大。

图1 现有的行人重识别视频数据集示例

第二点原因即数据量的限制。现有的MARS数据集只包含不到1500个ID，且难以反映真实应用场景。例如，在真实应用中，行人在多个视角下、多个场景下被多个不同的摄像头拍到，而在现有数据集中，视频多在限定性场景下用有限的摄像头拍摄得到，时间点、场景、光照条件都很单一。如果有更丰富的数据集，现有的视频reid识别性能应该会得到相应提升，且视频的优势会体现出来。

图2 本文提出的LVreid数据集示例

本文贡献

1、提出了一个最大的视频行人重识别数据集LVreid

数据集简介：

该数据集平均视频序列长度为200帧，远远大于现有的序列长度。图2为该数据集的部分示意图，可见，序列中包含丰富的姿态变换、视角变化、光照变化等。这些变化提供了足够的时间及空间特征，有利于行人重识别任务。该数据集是目前最大、最贴近实际应用情况的，包含180个小时的视频，在室内、室外不同摄像头、一个月中不同的时间段拍摄得到。数据集提供了近3百万个标注窗口，包含3772个身份ID。这些标注窗口是基于Faster RCNN检测得到的。因此，该数据集可以有效应用于行人重识别应用中。

数据集录制：

在设计时，LVreid数据集的录制过程充分贴近实际的应用情况，采用12个室外摄像头和3个室内摄像头，采集1080x1920像素的高清视频，其中13个摄像头帧率为30fps，另外两个摄像头的帧率为50fps。采集时间为2017年的1月份至3月份期间的4天，每天录制3个小时，时间分为早晨、中午、下午。

数据集预处理：

采用Faster RCNN进行行人窗口的检测，之后作者采用一个序列提取机制来生成尽可能长的序列段。对于每个摄像头，先检测某个行人的外观特征，其次利用深层特征进行帧间的跟踪，当行人走出视野或者相似度过低时结束跟踪过程。最终，作者获得了3772个行人的14943段视频，平均每段视频长度为200帧。行人身份的标注为后续手工完成。

统计及对比：

下表为该数据集与现有同类数据集的对比，可见，LVreid数据集拥有更长的时间序列、更精准的行人跟踪轨迹、更多的数据、更接近实际应用设定。

表1 LVreid与现有数据集的对比

评估手段：

与现有数据集相同，该数据集同样将reid问题看作是跨摄像头的行人检索问题，常用的评估参数有CMC曲线、mAP数值等。

2、提出了一个基准网络模型SATPP

模型简介：

基于LVreid数据集，作者提出了一个基准模型。现有的算法多采用帧间特征平均法或者LSTM等进行识别，前者可能丢失序列中的时间信息，后者过于复杂不适合实际应用部署。此外，检测窗口的不齐问题有可能会给识别精度产生影响。本文的模型采用空间对齐时间金字塔池化的结构，首先针对每帧图像进行2D仿射变换，矫正窗口使之对齐。其次，针对抽取出的高维特征，采用时间金字塔池化法，融合长时间段和短时间段的特征。因此，该网络可同时提取时间及空间信息，效率更高性能更强。

模型总结构：

随着LVreid的提出，产生了新的问题，即如何有效利用这些长视频序列中包含的丰富的时空信息，提取区分性强的视频特征。本文通过SATPP网络来解决这个问题，从而1）解决行人检测窗口的无法对齐问题；2）提取并融合区分性的特征。下图为网络结构。

图5 SATPP网络结构

如上图所示，SATPP以整个视频序列作为输入，每帧图像先通过SAL空间对齐层进行2D仿射变换来对齐检测窗口。对齐之后的图像会输入到后续CNN中进行逐帧的特征提取。最终，采用时间金字塔池化层TPP进行多帧特征的融合，得到固定长度的视频特征表达。

SAL空间对齐层

该层的对齐基于二维仿射变换，公式如下，日中，（xs，ys）为输入图像的原始行人窗口坐标，（xt，yt）为目标坐标。通过学习仿射参数，可以将行人图像进行良好的平移、旋转、尺寸缩放，以得到更好的图片，提升后续性能。

TPP时间金字塔池化层

由于不同的视频序列长度不均，作者将基于单帧提取的特征进行转化，得到固定维度的视频序列特征。传统的转换通常采取池化技术，如平均池化或最大池化。不同的池化方法适合于不同的特征模式，平均池化即对特征取平均值，最大池化即取特征的最大值，适用于稀疏的特征。现有的池化方法丢弃了时间维度的信息，这些信息对于reid任务很重要。

本文中，作者提出了时间金字塔池化法，即在空间粒度对不同尺度的时间特征进行池化。例如，视频序列包含n帧图像，每帧图像提取出d维的特征向量，则TPP构建L个时间池化层，第i层将n帧平均分为2^i-1份。如下图，其中，L取3，则第1层TPP层将n帧分为1份，第2层分为2份，第3层分为4份。这些层经过平均池化共产生D维度的特征F，其中，