关键词:
语义概念检测
多模态信息
跨媒体检索
社交图像检索
多模态语义关系图
社交关系图
摘要:
随着多媒体技术和互联网的快速发展,不同模态的多媒体数据随之急剧增长,同时用户对于多媒体数据的检索需求也变得更加多样化。对比传统的单一模态媒体数据的检索方式,通过对不同模态的媒体数据进行分析和处理,不仅能够更好地表达用户的检索意图,而且对于多模态媒体数据的语义理解也起到了重要作用。然而,由于在低层内容特征上的异构性和不可度量性,使得传统的多媒体检索方法不能适用于多模态媒体数据。因此,如何有效地管理和检索多模态媒体数据成为目前多媒体检索领域的研究热点。 根据多模态媒体数据间存在着紧密的语义关联这一特性,本文以多媒体数据的高层语义概念特征为出发点,结合机器学习、多模态信息融合与分析等技术,对多模态媒体信息检索进行了深入的研究。主要研究工作包括: (1)针对视频信息的语义概念检测,提出了一种基于极限学习机的多模态分类器合并方法。首先,分别使用三种不同的可视化特征来训练相对应的三个基于极限学习机的语义概念分类器,然后使用一种有效的基于概率的融合方法将语义概念分类器的预测结果进行合并。最后,通过分析语义概念之间的上下文来得到语义关联信息,并利用这些关联信息来修正合并后的预测结果。通过大量的实验表明提出的方法能够有效地提高语义概念检测的准确性。同时,基于极限学习机的分类器能以极快的速度进行学习和预测,大大提高了语义概念检测的性能。 (2)针对不确定的视频语义表达,提出了一种基于多信息融合的方法,其中包括推理和融合两个阶段。在推理阶段,充分利用语义概念之间的上下文关联信息和视频镜头之间的时间关联信息,选出对应于用户查询最相关的候选概念集。在融合阶段,通过计算候选概念的推断概率,使其与概念检测器的结果进行融合,以达到对视频镜头中的语义概念进行修正的目的。通过大量的实验表明,提出的方法能够有效解决视频镜头中不确定的语义表达问题,同时改善了语义视频检索的准确性。 (3)针对大规模的跨媒体检索,首先利用多模态媒体对象之间的语义关联来建模一个多模态语义关系图。其次将多模态语义关系图中的所有媒体对象映射到一个同构的语义空间中。最后,通过分析多模态媒体对象的分布特性,提出了一种有效的索引MK-tree,以此来管理语义空间中的媒体对象,同时改善跨媒体检索的性能。通过在大规模的真实跨媒体数据集上的实验表明,提出的方法能极大地改善跨媒体检索的有效性和准确性。 (4)针对社交图像检索,首先,通过利用社交网络中不同模态的信息来构建一个社交关系图。其次,当用户给定查询关键字,在构建的社交关系图上执行一种有效的查询关键字算法,同时基于相关分数得到候选结果。最后提出了一种对候选结果的修正策略,首先将社交关系图中的图像与返回的候选结果表达为区域连接图,再将这些区域连接图合并为闭包树,通过对比候选结果与闭包树之间的相似度以达到修正结果的目的。通过在真实数据集上的实验表明了提出方法的有效性和准确性。