关键词:
数据融合
线性组合
非线性组合
相似度测定
权重分配
摘要:
随着计算机与互联网技术的高速发展,用户越来越依赖搜索引擎来查询并获得所需要的信息,而如何帮助用户从互联网的大量的信息中迅速、准确地检索到所需信息是信息检索的首要问题。数据融合技术将不同的信息检索系统的结果利用一定的方式合成在一起,从而形成最终的结果。本文通过研究几种权重分配策略以及线性与非线性的融合方式,以达到提高数据融合技术的有效性和实现效率的目的。论文的主要工作如下:(1)线性组合是一种非常灵活和有效的融合方法,而权重分配是决定线性组合成功与否的关键。因此研究了基于性能的启发式权重分配策略。将成员系统本身的性能反应到权重当中去。通过选择成员系统性能的不同变化取值作为权重,对其进行数据融合与评价。在文本检索会议(Text Retrieval Conference,TREC)数据集上的实验表明,该方法略优于其他三种同类方法。不仅是在MAP等综合性指标上,而且在P@10指标上也有所提高。(2)在(1)的基础上,本文对基于性能和差异性的启发式权重分配策略的数据融合方法进行了研究。该方法利用MAP,P@10,RP,RR等指标计算成员系统的性能值,利用基于排名的方法计算每个成员系统之间的差异性,将上述两者组合构成最终的权重。在TREC数据集上的实验表明,与已有的算法相比,该权重分配方法能够有效的提高融合性能。(3)实验数据集中关于文档相关性的判断是最昂贵的部分,本文通过只判断成员系统中结果列表中排名前10的文档相关性,采用多变量回归算法计算权重,来探索出一种更加经济有效的方法。实验表明,与判定所有文档相关性的方法相比,只判定较少一部分文档的相关性不仅能提高检索系统的实现效率,而且能提高检索结果的有效性,特别是P@10指标的值。(4)研究了一种基于多变量回归算法的非线性组合方法。采用多变量回归分配权重策略,并在其中引入了线性与非线性项。将文本检索会议TREC中数据集作为实验对象,实验结果表明线性与非线性项对提高检索的性能都有一定的积极作用。