关键词:
知识发现
文本信息检索
文本数据
空间索引
角分类
神经网络
关联规则
用户焦点
摘要:
知识发现是当前一个极负挑战的研究领域.知识发现的理论、方法和应用的研究为越来越多的国内外研究者所关注.文本数据,是知识发现研究的一种重要的数据对象,而文本信息检索也是知识发现的一个重要的应用领域.该文以文本信息检索为背景,对文本数据的空间索引、快速角分类神经网络以及加权关联规则发现中的频繁加权项目集的发现等知识发现领域中的问题进行了系统的研究.并根据研究获得的成果,实现了一个新闻信息检索系统.首先,为在文本信息检索中实现\"快速的检索与指定的文本信息内容接近的信息\"的查询请求,该文提出以空间索引作为文本信息的表示特征的解决方案.通过为文本集中的文本信息建立空间索引,\"检索与指定的文本信息内容接近的信息\"这一检索请求转换成低维欧氏空间中点与点之间距离的判定.为构造文本信息的空间索引,对空间索引方法进行了回顾:首先讨论了该问题的精确求解算法MDS;然后介绍了该问题的快速求解算法***方法的时间复杂度是O(n<\'2>),而FastMap建立的数据的空间索引具有较高的stress值.阈于MDS和FastMap算法的不足,提出了MDS-NN和FastMap-MDS两种新型的文本信息的空间索引构造方法.由于上述空间索引方法仅基于数据之间的距离信息,因此可以很容易应用到需要为其它类型的多媒体数据对象(如图像、声音等)建立空间索引的需求中.其次,为实现文本信息检索的个性化推荐,对快速角分类前向神经网络进行了研究.对以CC4为代表的角分类前向神经网络的学习算法,提出了基于泛化距离的几何解释,并对CC4网络的计算倾向性进行了严格的数学分析.在上述研究和分析的基础之上,提出了基于实数的L-离散化的角分类神经网络ExtendCC4、混合神经元神经网络RealCC、基于文本信息余弦相似度的角分类神经网络TextCC等三种可以接受实向量输入的快速角分类神经网络.为使角分类神经网络能够进行数据隶属的多类别判定,对角分类神经网络的隐层与输出层之间的连接矩阵的学习算法进行了新的规定.第三,为了从用户的查询历史数据中获得一段时间内用户比较稳定的查询行为,对加权关联规则中的频繁加权项目集的快速发现算法进行了研究.为提供更多的决策支持信息,与通常的关联规则的研究不同,加权关联规则研究需要考虑每个项目和项目集的权重信息.给出了频繁加权项目集的快速发现算法WeightedFP.实验显示,与已有的同类算法相比,WeightedFP的效率显著提高.最后,为了在文本信息检索中实现查询结果的个性化推荐,用户焦点被用于用户特征的组织.给出了用户焦点的形式化描述.频繁加权项目集快速发现算法WeightedFP被应用于用户焦点的获取与更新;快速角分类前向神经网络TextCC被用于基于用户焦点的个性化推荐的实现.由于WeightedFP和TextCC极低的时间开销,基于用户焦点的个性化推荐可以用于以Web搜索引擎为代表的文本信息检索系统的实现.