关键词:
视线估计
深度学习
标签分布学习
人机交互
摘要:
视线跟踪是一种可以跟踪人眼在观看过程中的运动轨迹的技术,它可以被应用于多个领域,例如心理学、人机交互和医学等。在视线跟踪中,会使用一些特殊的设备来记录眼睛的运动轨迹,这些设备包括眼动仪和红外线追踪仪等。视线跟踪技术的应用非常广泛,其中之一是心理学领域。在心理学研究中,视线跟踪可以用来研究人们的注意力和注意力偏向,并且可以帮助研究者更好地理解人们的思维过程。此外,在人机交互领域,视线跟踪可以用来评估用户对界面的使用效果和易用性,从而帮助设计师改进产品设计。在医学领域,视线跟踪可以用来帮助诊断一些眼部疾病,并且可以帮助医生更好地了解患者的视觉问题。视线跟踪技术的发展也非常迅速,现在已经出现了许多新型的视线跟踪设备,例如可穿戴式设备和虚拟现实设备等。这些设备的出现使得视线跟踪技术的应用更加便捷和广泛。视线跟踪技术是一种非常重要的技术,它可以帮助我们更好地理解人类的认知过程和行为,并且可以被应用于多个领域,包括心理学、人机交互和医学等。未来,视线跟踪技术的应用将会更加广泛,同时也会有更多的新型设备和技术出现,这将为视线跟踪技术的发展带来更多的机会和挑战。本文的主要工作如下:(1)基于细粒度的视线估计模型构建视线方向主要是由眼部视线方向和头部姿态共同决定。在选择网络时,本文发现视线估计特征的提取非常困难,尤其眼部图像,在角度差别不大,头部姿态未发生变化时,特征的区别非常微小。面对如此微小的特征差异,如何设计一个高效实时的网络成了本文首要解决的问题。本文设计一种细粒度的视线估计模型,其将回归任务转为先分类后回归的形式,该设计的核心要点就是提高分类的准确率,回归的精度就会相应提高。在公开的数据集上,不仅计算时间和成本大幅降低,并且在精确度上相比以往的模型有了一定程度提升,本文将此作为基准模型。(2)基于一维高斯分布的细粒度视线估计模型构建研究发现,眼部图像由于角度变化较小或眼睛无意闭合,标签存在一定的模糊性。为了抑制无约束环境下视线标签的模糊性。通过对实验环境下大量眼部图像的特征分析和研究,发现不同标签之间的眼部图像隐含一定的相似性,每类眼部图像与其他图像的相似度经过一定的排序,发现遵循高斯分布。基于上述研究,本文设计出一维高斯分布代替原来的硬标签,构建了以细粒度为基本架构的一维高斯分布视线估计模型,该模型以复合损失函数进行监督训练。在两个公开数据集上的结果表明,本文提出的一维视线估计模型与以往的视线估计模型包括细粒度视线估计模型,实验效果有一定程度的提升。(3)基于二维高斯分布的细粒度视线估计模型构建进一步分析发现,一维高斯分布视线估计模型在特征考虑上较为单一,主要表现在计算相似度特征的选取上,仅考虑一个维度如Pitch维度上的变化,对另一个Yaw维度未加限制,这也导致其分布构造不太准确。为解决此问题,本文提出二维高斯分布视线估计模型,从两个维度联合来构建一个分布,而不是将二者割裂开来。本模型继续沿用基准模型架构设计,改进了粗分类模块,仍旧以复合损失函数监督整个网络的训练迭代。在视线估计领域常用的公开数据集上实验结果表明,本文提出的二维视线估计模型相比以往的视线估计模型包括一维视线估计模型,效果有一定程度提升。(4)基于自适应分布的细粒度视线估计模型构建不管一维高斯分布视线估计还是二维高斯分布视线估计,其构造的分布尽量去拟合所分析的相似度分布,然而数据的分布是很复杂的,有时是标准的分布,有时又是其他未涉及的分布,如何合理构建出一个复合真实数据分布的先验分布?本文提出自适应分布来解决此问题,自适应分布利用深度学习来学习样本的特征,根据输出相应图像类别的分布,为了强化此分布,本文又在此基础上加入原有的硬标签。本模型仍旧沿用了细粒度的视线估计模型架构,在粗分类里面加入自适应分布的设计,细分类模块沿用原来的MSE作为监督,整个模型以复合损失函数来监督训练迭代。在视线估计领域常用的公开数据集上实验结果表明,本文提出的自适应分布视线估计模型相比以往的视线估计模型(包括上述的视线估计模型),效果有一定程度提升。