关键词:
注意力机制
层次网络
先验知识
多模态
古筝手型识别
古筝指法评估
摘要:
在如今推进多学科交叉的大背景下,横跨科学与艺术领域的音乐人工智能发展方兴未艾。古筝是极具代表性的中国民族弹拨乐器,但是传统的古筝艺术教育模式无法提供实时的习筝反馈,容易导致演奏手型和基本指法不规范,从而严重影响习筝效果。因此,对古筝演奏技法进行智能化、专业性的识别与评估,在古筝教学中的作用愈加突出。然而,古筝演奏技法的要求难以量化成易于智能分类评估的标准,数据集匮乏且采集困难。所以在研究范式、理论算法、数据集构建等方面,上述跨学科研究具有诸多空白亟待填补。为了突破这些专业知识和技术壁垒,本文将计算机视觉技术与古筝技法相结合,以图像、视频、音频数据和古筝专业知识联合驱动的方式,围绕量表制定、数据集构建、理论算法提出等核心问题,探索古筝演奏手型和基本指法智能识别与专业评估的研究范式。本文的主要研究内容和创新性工作如下:一方面,设计了古筝演奏手型智能识别的研究范式,以图像数据和古筝手型知识为驱动,将对古筝演奏手型的判别映射为手部姿态的图像识别问题。(1)为了解决细粒度手型图像识别困难的问题,提出了基于深层卷积块注意力模块的古筝手型识别方法。具体工作包括:融合古筝演奏手型要点,制定了古筝手型分类量表,从而为后续手型智能识别提供依据;为了使网络模型能够充分地学习手型图像特征,采用自由视角采集与图像增强技术,构建了古筝手型图像数据集;针对细粒度手型图像的类内差异大于类间差异的特点,引入了注意力机制,使得网络模型更加关注手部姿态的重点信息。实验结果表明,该方法可以有效地识别古筝演奏手型,并且相较于经典的图像识别网络,能够克服图像数据扩充后复杂度明显增加的问题,同时显著提升古筝演奏手型的识别率。(2)为了解决实际自拍/他拍模式下镜像手型图像导致古筝手型的分类识别率骤降的问题,提出了基于多尺度融合双层网络的古筝手型识别方法。具体工作包括:依据所制定的古筝手型分类量表,构建了古筝镜像手型数据集;通过设计层次化网络,分层实现手型图像的粗分类和细分类,同时引入多尺度特征图融合方法,从而提高网络的学习效率并降低模型的复杂度。实验结果表明,该双层网络和多尺度特征图融合策略均能够有效提升细粒度手型图像在不同拍摄模式下的识别率。此外,还利用新视点生成技术和裸眼立体显示平台,实现了古筝演奏手型三维显示,提高了古筝手型智能辅助识别的直观性。另一方面,设计了古筝基本指法智能评估的研究范式,以视频、音频数据和古筝指法知识为驱动,将对古筝基本指法的评估转换为计算机可表征、可计算、可解释的技法判别问题。(1)为了解决对古筝指法视频的精细动作从专业角度剖析不够深入的问题,提出了基于古筝技法判别的指法评估方法。具体工作包括:基于艺术上的指法要求,制定了基于视觉的古筝指法评估量表,用作后续古筝指法识别的依据;针对指法数据集匮乏的瓶颈,构建了具有可解释性的古筝右手基本指法数据集;设计了古筝指法智能评估方案,通过设计手型识别、关键点跟踪、指法评估三个模块,同时深度融合古筝技法先验知识,完成了对古筝基本指法的辅助评估。实验结果表明,该方案能够实现对古筝基本指法内部精细动作的合理性评估与解释。(2)为了解决传统五声调式乐器对于半音阶的按弦音准问题,提出了基于音视频多模态决策级融合的古筝指法视听觉综合评估方法。具体工作包括:制定了基于视听觉的古筝指法评估量表,并构建了古筝指法音视频数据集;考虑古筝“右手取声、左手取韵”的特点,设计了基于音视频异构数据解析的古筝指法评估方案;针对音视频数据对左/右手评估的不同重要性,提出了古筝指法的视听觉智能综合评估方法,实现了基于图像的手型评判、基于视频的指法评估、基于音频的音准比对三种评估结果的加权融合。实验结果表明,该方案能够同时解决仅依据视觉评估无法判断音准偏差,以及单一听觉评估导致指法问题无法追溯的难题,从而达到二者对指法评估的优势互补。本文在古筝、信息处理与人工智能的交叉领域进行了前沿性探索,实现了古筝演奏手型和指法的智能识别与评估,该研究思路对于钢琴等其他乐器演奏技法的智能评测具有借鉴意义。