基于孪生神经网络的目标追踪算法的研究分析与针对长期追踪的优化文献综述

 2023-08-22 05:08
  1. 文献综述(或调研报告):

在2017年以前,针对视觉目标跟踪任务的大量算法都是基于相关滤波算法进行改进的。经典的此类算法包括KCF和DSST等。但是随着深度学习技术的不断兴起,视觉目标跟踪领域的相关研究者们也开始使用深度神经网络来进行目标跟踪。在前期,大部分研究者关注的都是预训练神经网络的使用。而从2017年以后,以SINT和Siam-FC为代表的基于孪生网络的目标追踪器因为其超快的跟踪速度和良好的跟踪性能,开始被研究者们所关注。下面是几种做出了重要贡献的孪生追踪算法。

1.SINT:

使用孪生神经网络来进行目标追踪最早开始于2016年的Conference on Computer Vision and Pattern Recognition(由IEEE举办的计算机视觉和模式识别领域的顶级会议,下简称CVPR)上提出的SINT算法。此算法的核心思想是通过Siam网络学习一个匹配函数,在追踪的第一帧取得一个模板,并且在之后的每一帧与模板进行匹配度计算,取得分最高的候选框为目标。此算法的主要贡献为第一次将目标追踪目标跟踪任务转化为了patch块匹配的问题,并且构建了网络来解决该问题。

SINT网络框图

该算法首先获取ALOV数据集,并进行预处理,然后搭建框图中的的类似AlexNet的网络,并在训练数据中获取patch块,开始训练网络,获得最终的模型。在追踪阶段,使用预训练好的网络进行跟踪,即所谓的patch块匹配,输出相应的结果。

论文中还提到了一些对于深度学习的这个网络结构上的改进,其中包括:

对pooling层的改进:作者认为将网络运用到跟踪任务时需要减少pooling层的数量。这是因为pooling层会在一定程度上降低图像的分辨率,虽然分辨率对目标分类任务来说影响不大,但是对于目标跟踪这样的任务,对分辨率有一定的要求的。但同时, pooling可以消除高频的小噪声,所以,对pooling层要适当减少。具体为VGG只包含两个pooling层,Alexnet不再包含pooling层。

对fast-Rcnn的借鉴:由于单个处理多个candidate regions耗时耗力,因此采用region pooling layer来快速处理多个重叠区域,每一分支的输入为全图加上一系列bounding box,前几层网络先处理整幅图像,然后ROI层把特定区域的特征图转换为固定长度的表达,再送往网络的高层。

多层特征综合考虑:更深层的网络层表达越抽象,低层特征对类内差异更敏感,高层特征对类间差异更敏感。对于跟踪任务,是使用高层特征好,还是使用低层特征好难以定论,所以高层和低层的特征都采用,将多层的输出特征直接馈送到损失层 。

正则项约束:激活函数采用RELU,但是这样输出的幅度就会没有限制,幅度的大小会影响损失函数的大小,所以在损失函数前加一个l2范数层来限制幅度。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。