关键词:
音频信息检索
音频信号
鲁棒性
音频指纹
提取算法
摘要:
随着现代信息技术,特别是网络技术、计算机技术和多媒体技术的迅速发展,互联网和计算机中存储的多媒体信息的数据量急剧增多。而音频信息是多媒体信息的重要组成部分,约占多媒体数据总量的20%以上。如何在浩如烟海的音频数据中快速准确地检索出用户所需要的音频信息,对于充分利用现有的音频数据具有极其重要的意义。因此,国内外越来越多的学者和研究机构都开展了音频信息检索技术的研究。\n 本文在认真总结前人研究成果的基础上,对基于内容的音频信息检索技术中的若干问题进行了相关研究,着重分析了音频信号的特征参数鲁棒性问题和检索过程中的快速匹配问题。\n 本文的主要工作和研究成果包括以下几个方面:\n (1)针对音频信号特征参数的噪声鲁棒性问题,本文提出了一种基于改进的离散余弦变换的音频指纹特征参数。音频指纹是基于音频内容的紧凑数字签名,可用于数字音频内容的版权保护、音频内容识别、内容完整性校验等领域。传统的音频指纹提取算法均是基于傅里叶变换的,而本文提出的音频指纹提取算法利用离散余弦变换的“能量集中”特性,结合人耳的听觉特性,仅提取频域内若干个系数,有效降低了音频指纹的大小并保证了音频特征参数的鲁棒性。\n (2)在经典的音频指纹检索算法:Philips检索算法和MBM检索算法中,候选目标音频的位置是依靠穷举音频指纹块中的子指纹来确定的。本文在大量实验的基础上,提出了一种利用频域能量来确定音频指纹块中最不容易发生误码的子指纹的位置,进而确定候选目标音频的位置,大大减小了确定候选位置所需要的时间。\n (3)在初步确定候选目标音频的位置后,本文采用否定判决算法来快速排除不相似的目标音频片段。否定判决算法是建立在这样一个假定上:两段相似的音频片段,在经过相同的特征空间变换后,其特征仍具有一定的相似性;若变换后的音频信号特征参数之间不具有相似性,则可直接判断这两段音频片段之间不存在相似性。\n (4)当输入查询音频片段时间较长时,将其作为一个整体直接进行检索会严重影响检索的效率。针对长查询音频问题,本文提出了一种局部一整体迭代检索算法。首先仿照通信系统中帧结构的形式将音频信号由大到小划分为若干个层次:音频整体、音频超段、音频段、音频帧和音频子帧。在检索时先比较较低层次间的相似性,若判断相似则接着比较较高层次间的相似性:否则排除两者之间具有相似性。该算法在处理输入查询音频时间较长时具有较好的效果,能有效减少检索过程所用的时间。\n (5)结合音频指纹特征参数和部分-整体迭代算法,并充分利用否定判决和音频信号的时序信息,本文实现了一个简单的音频信息检索系统,用以验证本文算法的有效性。