关键词:
深度学习
卷积神经网络
迁移学习
视频内容分析
模型可视化
摘要:
在视频信息快速膨胀的今天,如何快速有效的对视频进行标注,快速定位出视频关键内容是多媒体处理和计算机视觉领域的一大挑战,视频热点内容检测也因此成为最新的研究热点之一。深度学习(deep learning)在计算机视觉领域取得了辉煌的成绩,多层CNN模型已经广泛应用于图像分类、物体检测、人脸检测和识别等领域。
本文深入分析了深度卷积网络在体育类型检测中的应用,结合迁移学习的概念,成功解决了CNN模型在小规模数据集上的优化问题,提出了多种迁移学习方法,利用CNN模型在ImageNet大规模标准数据集上训练的模型检测体育类型。作者使用了预训练结合模型微调的方法,使得CNN模型既保留了对复杂场景分分辨能力,又能够很好的处理体育类型场景和其他场景,间接验证的深度模型具有较强的泛化能力。(Google距离和WordNet距离的引入,很好的将图像语义和文本语义结合在一起,通过文本相似度推算图像语义,很好的解决了跨数据集分类的问题。同时,将CNN模型作为特征提取器,采用相同的简单分类器,与传统的手工设计的特征相比较,极大的提高的深度模型的适用性,同时试图将深度模型与传统机器学习算法结合在一起。
针对深度模型过于抽象,内部特征不够透明,本文设计了反卷积网络,将深度模型提取的高层抽象特征重构到RGB空间,从而实现对深度网络的可视化,为优化和修改模型提供依据。同时,利用反卷积网络,本文分析了CNN网络中每一层学习到的特征,研究CNN网络的特征抽象过程,直观的展示了CNN学习到的part信息。此外,本文分析了单个神经元的重构信息,发现只需要单个神经元就可以重构出某些关键的part信息,因此如何有效的利用CNN提取的特征是提升网络性能的关键。同时,根据视频内容的连续性,提出了一些简单的平滑去噪和过滤算法,去除噪声片段,使得最终标注的视频片段更加纯净和连贯。