关键词:
空间信息
语义
查询扩展
信息检索
特征属性
相似度
摘要:
近年来,随着地理信息数据众包思想的兴起,VGI数据正在以爆炸式的方式增长。OpenStreetMap作为VGI之中的最具代表性的项目之一,其数据在各个领域都在被广泛的应用,空间信息的检索愈加凸显出重要的作用。同时非专业人员在这一检索活动中的比重也大幅提高。这些用户一般采用简单的关键词进行检索,其特点是要求简单、实现容易,但实际检索结果常常与用户所期望的结果间存在着很大的差距。为了使检索的结果更为精确,人们进一步构造了可对各种关键词进行多种组合的检索方式,该种方式可获得更好的检索结果,但大多数用户由于没有经过检索培训,难以很好地利用这种组合检索方式来构造复杂的检索策略,使得这类复杂的组合式检索难以在大多数非专业人员中使用。如何为用户提供一种基于简单关键词检索的方式,使用户可以利用简单的相关地理信息关键词检索到全面精确的相关信息,是国内外信息检索界广泛关注和着力解决的关键问题之一。由于空间数据的海量特点、空间数据服务的异构性、用户需求表达的模糊性等问题,空间信息的获取、查询和检索存在着较多的难题。其中,空间信息检索具有显著的时间和空间特性,它是信息检索的一个特殊应用领域,其特殊性主要表现在相似性检索、时空关联检索、知识的不确定性等方面。传统的基于关键词字符串匹配的信息检索技术已无法满足空间信息检索的特殊需求,从而需要基于语义的更深层次的信息查询和匹配技术支持。语义本体技术作为一种新型的知识组织和表达方式,具有良好的概念组织结构和对逻辑推理的支持,在信息检索领域特别是在基于知识的语义化检索方面得到了飞速的发展和广泛的应用。基于本体的语义描述和推理方法,为空间数据服务中用户需求的解析和理解、空间信息资源的语义化描述和匹配、领域知识的形式化描述和推理分析等关键技术问题的解决提供了可行的途径和有力的工具,将有效地提高空间数据服务的检索效率和智能化程度。本研究针对现在空间信息检索用户一般使用简单语句进行查询,对检索服务希望简单易实现的要求,设计了针对空间信息检索语句自然语言处理的用户查询意图识别方法。并且,利用OSM数据中的Tag标签的可扩展性,结合空间信息语义特征,在标签中扩展了空间信息的属性特征信息项和值,并对其扩展后的模型设计了一种基于空间信息语义属性相似度的查询扩展方法。该方法能在空间信息检索中,将用户的简单输入进行扩展,以达到对相关结果更广泛更准确的匹配。使得日益增长的空间信息检索需求,能够以更好的用户体验性和更高的检索效率来服务使用者。研究中主要包括了以下几方面内容:(1)结合传统的自然语言处理方法,通过构建空间信息概念语义词典、地名词典和空间关系语义词典,设计了一种面向空间信息检索的优化的自然语言处理方法。该方法以空间信息语义词典为语料基础,能更好的对空间信息检索语句进行拆分和理解,提取查询中心词和真实查询意图。由于词典的支撑,对特定空间地名的识别更加准确,避免了查询偏移的发生。(2)面向OSM的数据特征,有效利用其开放式Tag标签的可扩展性,为空间数据的语义特征提供一个良好的属性扩展平台;合理的空间数据语义属性归纳和总结,梳理属于空间数据独有的语义特征,并将语义属性扩展到OSM数据模型中,为空间数据的深度分析和查询扩展提供数据基础。(3)针对不同类型的空间信息语义属性,建立基于语义的空间信息相似度计算模型与方法,根据空间信息间的相似度量化值,将与关键词最相似的空间概念或实体加入到查询扩展集合中,使得空间检索的结果查全率和查准率有效提高。(4)基于OSM数据,设计了空间信息语义相似度查询扩展服务系统,并设计了相关实验,论证本文方法对于空间信息数据检索的有效性,为后续的空间信息检索研究提供可以参考和借鉴的思路与案例。