2023.4.26
大家好,接下来我给大家讲述一下这篇 2021 年的 ReID 行人重识别综述文章。
行人重识别(Person re-identification)是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术,是一个图像检索的子问题。 任务就是给定一个监控行人图像,检索跨设备下的该行人图像。可以弥补目前固定的摄像头的视觉局限,也可和行人检测/行人跟踪技术结合,也可以广泛应用于智能视频监控、智能安保等领域。
多摄像头/跨摄像头问题,跨域问题。在一个数据集合上训练的模型直接应用于另外一个数据集合上的时候,Re-ID 性能会出现大幅度的下降。
作者认为 Re-ID 分为五大步骤:
1)数据采集(来源于监控摄像机的原始视频数据);
2)行人框生成(从视频数据中,通过人工方式或者行人检测或跟踪方式将行人从图中裁切出来,图像中行人将会占据大部分面积);
3)训练数据标注(包含相机标签和行人标签等其他信息);
4)重识别模型训练和设计模型(让它从训练数据中尽可能挖掘“如何识别不同行人的隐藏特征表达模式”);
5)行人检索(将训练好的模型应用到测试场景中,检验该模型的实际效果)。
全文都是围绕以上五个步骤来展开和讨论的。针对以上五个步骤的一些约束条件,文章将 Re-ID 技术分为 Closed-world 和 Open-world 两大子集。
我的理解是 Closed-world 注重于学术研究,是用于研究导向的方法。Open-world 更倾向于解决实际中的开放性问题,考虑更多实际应用中可能遇到的挑战。
Closed-world 可以概括为大家常见的标注完整的有监督的行人重识别方法,Open-world 可以概括为多模态数据,端到端的行人检索,无监督或半监督学习,噪声标注和一些 Open-set 的其他场景。
左图从五个方面对 Closed-world 和 Open-world 涉及到的主要技术进行对比:
从上面的对比中,我们可以了解到 Closed-world 的主要约束一般包含以下假设:
(1)通过图像或视频,可见光(RGB)摄像机捕捉行人;
(2)行人由 bounding boxes 框出;
(3)有足够多的被标注训练数据;
(4)标注的数据标签通常都是正确的;
(5)query person 必须出现在 gallery set 中。
Closed-world 的研究方向主要分为特征学习,度量学习和排序优化三个部分。研究人员的方法通常针对这三方面进行改进,侧重点不同。有的是提出了新颖的特征学习方法,有的提出有效的度量损失函数,也有的是在测试检索阶段进行优化。
特征学习方法基本可以分为四种:
度量学习方法基本可以分为三种。早期的度量学习主要是设计不同类型的距离/相似度度量矩阵。深度学习时代,主要包括不同类型的损失函数的设计及采样策略的改进:
用学习好的 Re-ID 特征得到初始的检索排序结果后,利用图片之间的相似性关系来进行初始的检索结果优化,主要包括重排序(re-ranking)和排序融合(rank fusion)等方法。
通过前面的 Closed-world 和 Open-world 对比,我们可以知道 Open-world 研究主要有以下五种挑战:
1)多模态数据,采集的数据不是单一的可见光模态;
2)端到端的行人检索(End-to-end Person Search),没有预先检测或跟踪好的行人图片或者视频;
3)无监督和半监督学习,标注数据有限或者无标注的新场景;
4)噪声标注的数据(即使有标注,但是数据采集和标注过程中存在噪声或错误);
5)一些其他 Open-set 场景,查询行人找不到,群体重识别,动态的多摄像头网络等。
根据前面综述对研究方向的总结,我选择了一篇属于 Closed-world 领域的问题的经典工作来做讲解,它被发表在了 ECCV 2018 上。它使用一种新的特征学习方法进行局部特征学习。
当时提出的基于人体部件划分的 Re-ID 方法主要有两类:
① 第一类是基于人体姿态估计的方法,这类方法的性能受限于姿态估计和 Re-ID 数据集的偏差,难以得到较好的语义分割;
② 第二类不使用语义分割,不对部件进行定位。
这篇文章的主要贡献:
骨干网络采用了 ResNet-50 网络,除去隐藏的全连接层。
在 PCB 模块中,输入图片经过骨干网络,得到张量 T。定义沿着通道方向的激活向量为列向量 f(1x 1x c)。
训练阶段,最小化 p 个id预测的交叉熵损失函数测试阶段,将g 或h的p个片段拼接起来形成最終描述待,即G= [g1,g2,•.•,gp]或H=h1,h2,…,hp〕。
由于采用的是强制划分,这导致部件内部信息的不一致性问题。
图中每一个小矩形就是一个列向量 f。
作者计算了每一个列向量 f 和各个部件的特征向量 g 之间的余弦距离,哪个距离最小,就记入那个部件。
完成后,观察到两个现象:
论文最后的实验结果表明:
map比rank-1更能够反映算法的整体表现,因为map不仅考虑了最高精度,还考虑了其他精度的影响。map的提升说明算法在寻找困难匹配上更有用,即算法在处理难以区分的行人图像时,能够更准确地进行匹配,从而提高整体识别精度。
https://www.cnblogs.com/orangecyh/p/12611136.html
https://zhuanlan.zhihu.com/p/90429483
专栏:https://zhuanlan.zhihu.com/personReid