关键词:
信息检索
关系抽取
查询分析
三元组结构
摘要:
有研究工作表明现有的基于关系的信息检索技术(RIR)优于基于项(term)或基于语义(concept)的IR技术,但仍存在显而易见的缺陷,即不能明确关系本身,只能表达概念A,B是存在关系的概念对。本文提出一种改进的基于关系的IR技术—IRIR(Improved Relation-based Information Retrieval),就是要明确关系的取值和属性,整合概念对和关系的信息为三元组表达式(triple),通过以下匹配方法获取未知信息。对于文本中出现的知识表示为R(rela-tion)[First Concept,Second Concept],对于疑问代词(如what)开头的查询表达为R(relation)[First Concept,Un-known],对于疑问副词(如how)开头的查询表达为R(Unknown)[First Concept,Second Concept],当文本与查询的三元组表达式中已知部分匹配一致时,则得到查询未知部分的一个取值。由此,既可以实现类似QA(query answer)功能,又可以完成精确信息检索。基于Drexel大学DM&Bioinformatics Lab开发的生物医学文献搜索引擎(2004版,简称为RIRS),我们开发了一个能实现IRIR技术和功能的实验IR引擎—IRIRS(Improved Relation-Based IR Sys-tem),该系统使用UMLS和WordNet两大权威本体库分别确定概念和关系,在博士入学考试英语阅读理解测试集上的实验结果令人满意,IRIRS将文字段级别的检索精确度MA PP(Mean average passage precision)从RIRS的64.44%提高到74.28%。这表明,在IR中应用改进的基于关系的信息检索技术是非常具有探索价值的。