关键词:
信息检索
上下文
排序
主题
时间
位置
对齐
摘要:
基于上下文的信息检索技术自从诞生以来,一直广受学术界和工业界的关注。从信息量上看,该技术充分利用各种上下文信息,有效缓解了传统信息检索中由于查询短、用户信息需求难以理解的问题。从检索排序上看,该技术提供了更多样化的匹配方式,除了传统的基于查询关键词的匹配外,还关注所涉及的上下文信息之间的匹配。上下文信息来源多种多样,主要包括设备上下文、时空上下文、用户上下文、任务上下文和文档上下文。其中,文档上下文由于其获取更方便、内容更丰富的特点,在基于上下文的信息检索中处于十分重要的地位。然而,关于文档上下文的信息检索研究还存在很多不足,比如语义理解不够准确、上下文粒度比较粗等。另外,大多数研究集中在如何将上下文信息融入传统排序模型中,对于近几年在信息检索领域崭露头角的神经网络排序模型,由于其内部复杂的结构,与上下文信息的融合还没有得到很好的研究。因此,本文以文档上下文为中心,针对以上存在的不足,分别从主题、时间、位置、对齐等常见的上下文信息维度进行了更深入的研究,在准确度和粒度上都取得了明显改善。除了改进传统的基于上下文的检索排序模型外,还探索了如何将上下文信息融入到神经网络排序模型中,在各项评价指标上取得了显著提升。具体来讲,本文的主要贡献如下:1.提出了基于上下文片段主题的排序方法。本文研究了利用伪相关反馈文档中的上下文片段而非一个个独立的词建模查询主题的有效性。首先,探索了三种上下文相关性度量方法,识别出与查询相关的优质上下文片段。然后,提出了一种上下文感知主题模型,通过从相应的伪相关反馈文档而不是整个语料库来推断片段的主题分布,使得主题建模更准确。最后,将得到的片段的主题分布融入检索排序模型中,极大地提升了检索准确率。2.提出了基于上下文细粒度时间的排序框架。本文提出了基于上下文细粒度时间的排序框架,该框架除了包含传统的文档级别的时间预测器外,还包含本文提出的词级别的时间预测器,捕获了更细粒度的时间信息。与已有的基于上下文时间的检索模型相比,基于本文排序框架改进的模型检索结果更准确,鲁棒性更强。3.提出了基于上下文位置注意力的神经网络排序模型。本文首次尝试将上下文位置信息融入到基于循环神经网络模型的注意力机制中,并应用于信息检索的答案选取任务。通过在高维隐层空间对问题中词的上下文位置信息进行建模,缓解了传统注意力机制由于语义累积带来的偏见问题,显著提升了候选答案的排序效果。4.提出了基于上下文对齐的神经网络排序模型。本文在神经网络框架下,研究了上下文对齐信息对于句子相似度建模的有效性。具体来说,本文提出了一种基于上下文对齐的循环神经网络排序模型,在当前句子的隐层状态生成过程中,通过内部的上下文对齐门自动吸收另一个句子中对齐词的上下文信息,从而实现了两个句子上下文之间的深度交互。同时,也减少了无关上下文的引入,有效提升了句子相似度排序的准确率。