关键词:
半结构化数据
XML文档
标签
语义相似度
聚类
摘要:
随着计算机网络以及数据库技术的快速发展,各领域积累的半结构化数据和信息急剧增加,迫切需要面向知识发现的方法,而数据挖掘的出现与应用,为这一目的提供了强大的工具。通过利用半结构化数据的内容和结构信息,配合数据挖掘算法,可以从大量半结构化数据中提取用于描述结构特征以及内容的信息,并进行综合以对半结构化数据进行深层次的潜在知识发现,而发现的知识能为决策者提供良好的数据支持。半结构化数据有很多类型,而其中XML文档是半结构化数据的典型代表,所以本文以XML文档作为半结构化数据研究对象,并讨论基于XML产品设计文档的聚类方法。XML文档是结构信息和内容信息的综合体,因此对XML文档的聚类处理需要考虑XML文档的结构信息和内容信息。XML文档聚类的过程主要为:文档表示、相似度计算以及聚类处理。本文也从这三个过程对XML文档聚类进行分析研究。第一、对XML文档一般的表示方法树形结构和树路径集合的优缺点进行分析总结。分析XML文档特征,在前人提出的基于层次的表示方法的基础上,对该方法作了改进,定义了信息表达式,加入了文本内容,父节点以及层次信息,使信息表示更完整和精确。第二、在XML文档相似度计算阶段,为了充分考虑XML文档标签的信息,加入标签的语义信息,并基于语义词典计算它们的语义相似度。对于基于XML的产品设计文档,一般语义词典缺乏相关领域专业术语,对此,本文通过加入领域专业术语词典对标签语义的相似度计算进行扩展。同时,不同XML文档中拥有相同子节点的父节点表示的信息有可能不一致,以致影响相似度的计算结果。根据分析基于XML的产品设计文档的特点,可以将父节点的信息进一步抽象化,用更抽象化的节点信息来取代。因此,为了解决这一问题,在构建信息表达式阶段,加入专业术语词典对非专业术语的节点进行约简。第三、介绍分析了凝聚层次聚类以及建立了基于XML的产品描述文档的聚类模型,并对其进行了设计与实现,并将这个聚类模型应用于机械传动设计中,得到了理想的结果,同时与基于树路径集合表示方法的聚类结果相对比,也得到了较好的结果,验证了本文所建立模型的有效性。