关键词:
个性化
用户兴趣
信息检索
数据挖掘
摘要:
最近几年,网络高速膨胀,为人们获取信息提供了很大的便利,但是由于网络数据量过于庞大,传统的信息检索技术不能有效满足人们需求,人们往往不能快速的找到自己所需要的信息,这就给信息服务提了一个新的挑战,要求研究人员需要在传统信息检索技术上做新的尝试与改进,充分考虑每个用户的个性因素,以用户为出发点,针对不同的用户提供不同的查询结果。
本文对个性化建模技术进行了研究,提出一种基于客户端的个性化模型,将用户的访问历史页面作为挖掘对象,不需要用户过多的参与,自动从用户的隐式反馈中推导出用户的兴趣。
本文着重研究了用户兴趣挖掘的相关技术,以用户访问过的历史页面内容作为兴趣建模的信息来源,利用HTML的结构特点来提取页面内容中的重要部分,采用基于字符串匹配分词和基于统计分词相结合的方法,对页面内容进行词的切分,用以表达页面的主题内容,再去除切分结果中的停用词,本文中页面主题用空间向量模型来表示,对特征词,用词频、位置加权以及非线性函数相结合的方式来计算权重。
本文根据中文ODP(Open Directory Project)分类目录的结构构建了一个分类参考模型,并依据中文分类主题词表对其进行了特征词的扩充,然后根据页面与分类参考模型的相似度来判别页面的分类情况。
在更新用户模型的过程中,要根据新反馈的兴趣类,对用户模型的兴趣类进行调整,不仅包括兴趣度的调整,也包括各兴趣类的特征词及其权重的调整,在这里采用了时间遗忘机制对兴趣类的兴趣度和特征词进行衰减处理。
用户在查询时,利用个性化模型对其输入的检索词进行查询扩展,再调用现有通用搜索引擎,可以得到较为不错的结果。