关键词:
视线估计
轻量化网络
眼动分类
虹膜定位
免标定
低成本
3D双眼模型
摘要:
视线跟踪技术一直以来是国内外研究的热点,在混合增强人工智能、军事、AR/VR、人机交互、医学诊断和可用性研究等方面有着广泛的应用前景。现有的视线跟踪系统存在着可靠性低,需要用户高度配合来标定用户参数,允许用户头部运动范围小,眼动数据中的不同眼动形式(眼跳、注视和平滑尾随等)如何准确的识别和国产化低成本等问题。本文对高鲁棒性眼特征提取并防止伪虹膜的攻击,允许大范围头动的用户免标定视线估计方法,高精度眼动形式识别和国产化低成本视线跟踪系统软硬件实现等内容展开研究,具体的研究内容如下:(1)针对现有的视线跟踪系统在光照变化、反射光斑、眨眼和模糊等干扰下无法鲁棒性的提取眼特征,并且在武器系统控制等高安全领域使用时无法防止伪虹膜的攻击行为的问题,本文提出了高鲁棒性防攻击的眼特征提取算法。该算法由轻量化高鲁棒性防攻击的虹膜定位算法(LAILNet)和瞳孔反射光斑特征提取算法(LAILNet-PDGD)两部分组成。轻量化高鲁棒性防攻击的虹膜定位算法实现了在光照变化、反射光斑、眨眼和模糊等干扰数据上的高鲁棒性和高精度的定位,同时能有效滤除人工伪造及打印虹膜。该算法在两个公开数据集和本文IPITRT数据集上的性能与2019年最优的算法MT-PAD一致,但是LAILNet算法的参数量和计算量是MT-PAD算法的1/24,处理时间是MT-PAD算法的1/2。在保证精度不损失的情况下,实现了模型的轻量化和实时性。LAILNet算法非常适用于嵌入式低功耗的设备。在LAILNet算法基础上的LAILNet-PDGD算法实现了鲁棒性的瞳孔和光斑提取,在瞳孔遮挡、头发眉毛干扰、远近焦距、光线变化、模糊、光斑干扰和佩戴眼镜等情况下瞳孔特征的提取结果精确度高达95.49%,优于主流的Deepeye和ElSe算法。LAILNet-PDGD算法处理640×480的虹膜图像仅需5.76ms,是Deepeye算法时间的1/18。高鲁棒性防攻击的眼特征提取算法可在嵌入式、移动化和低功耗的设备上高效的运行。(2)基于3D眼球模型的视线估计方法具有高精度、允许用户头动等优势。针对现有高精度的免标定视线估计方法需要双相机四光源的复杂硬件结构,本文提出了基于3D双眼模型的单相机双光源免标定视线估计方法。该方法采用一套低成本的单相机双光源的硬件配置,优化改进视线估计模型,实现了用户自然头动下的免标定视线估计。该估计方法包括用户参数自动标定和实时视线估计两个过程。由于实时视线估计中需要因人而异的人眼参数,本文增加左右眼角膜曲率中心的距离为固定值的特性,建模求解出用户的左右眼角膜曲率半径。利用瞳孔边界点建模优化解出瞳孔中心和角膜曲率中心的距离。利用双眼视轴注视同一个点的特征,建模优化计算出眼坐标系下光轴和视轴夹角。在实时视线估计算法中,首先构建了双眼眼球模型,并根据光学的几何原理建模,完成了角膜曲率中心和瞳孔中心的求解以及光轴的重建。其次利用眼坐标系下的光轴和视轴的固定夹角特性计算出用户的注视点,从而完成了视线估计。为了验证用户参数自动标定算法和实时视线估计算法的有效性,本文利用现有的眼球框架模拟双眼视线跟踪过程,获取到了眼特征的实验数据和验证数据,根据眼特征实验数据,将利用本章参数自动标定算法获取的人眼参数和视线估计算法的结果数据与验证数据进行对比,验证了算法的有效性。基于3D双眼模型的单相机双光源免标定视线估计方法具有硬件结构简单、双眼模型实现用户免标定、视线跟踪过程头动鲁棒性强等特性,优于目前最高精度下复杂硬件结构的单眼模型和单相机单光源双眼用户标定模型。(3)根据眼动数据精确的识别眼动形式是视线跟踪系统应用的关键技术。而受到噪声、眼动仪不精确性和眼动固有特性等的影响,目前眼动形式识别的精度不高,特别是平滑尾随的识别,2019年最优算法只达到73%。针对平滑尾随识别精度不高、受阈值影响大等问题,本文提出了基于分段和聚类的识别(I-SC)算法,识别注视、眼跳和平滑尾随三种常见的眼动形式。该算法首先利用眼动数据的速度特征来识别眼跳段,然后利用空间特征的标准差将剩余的眼动数据划分为不同的段。最后定义了段的平均直接距离特征,并采用快速查找密度峰值聚类的方法对注视和平滑尾随进行分类识别。该算法考虑了眼动的连续性和突发性,眼动的连续性由分段方法来表征,空间特征的标准差可以反映出眼动的突发性。聚类算法实现了无阈值区分注视和平滑尾随。该算法在眼动仪的噪声和不精确的眼动数据下也能实现精确的眼动形式识别。为了证明该算法的有效性和鲁棒性,本文采用由商业眼动仪采集的1 1个受试者的各种眼动数据形成的数据集对所提出的I-SC算法进行了评估。实验结果表明,该算法的识别准确率达96.0%,召回率达87.60%,优于主流的I-VDT算法和和卷积神经网络(CNN)算法。证明了本文算法能提供更准确的三元分类的能力。