关键词:
信息提取
考古数据分析
考古数据管理系统
良渚遗址
摘要:
随着考古发掘工作的开展和数字化考古的广泛推广,发掘的文物数据与日俱增,这些都是古老的中华文化留下的印记,对研究古代中国社会和文化的发展有重要意义。而处理重复的文本数据并从中提取考古属性需要消耗考古人员大量的人力工作;对遗址进行数据挖掘分析也是数字化考古的一个重要研究方向。本文以良渚遗址的数据为基础,针对考古工作中的属性信息提取和考古遗址聚落等级分析两方面需求进行了技术研究。在当前数字化考古的海量数据的背景下,传统的人工信息提取方法已经逐渐难以满足效率要求,本文提出利用中文分词和实体识别相结合的方法来解决考古数据信息提取困难的问题。文章首先比较了通用的分词方法在考古属性集上的分词效果,并针对考古数据的特点,对算法进行了矩阵优化和模型参数优化,并在词库中加入了考古专业知识,提高了分词方法的准确率。基于分词结果,本文做了考古信息提取的工作,并比较了模式匹配和实体识别两种方法。分别进行了优化后,实验效果表明实体识别技术可以提取出更多的考古信息。本文通过分析良渚遗址聚落等级,以及当前聚落等级规则难以量化表示的问题,提出利用考古知识优化考古数据属性集的方法,应用于考古聚落等级的分类。文章分别利用C4.5决策树算法和多分类的SVM模型在原始属性集和优化属性集上进行验证,并对模型进行参数调整,提高了分类模型的准确率,达到了较好的分类预测效果。最后本文介绍了考古数据分析管理系统的设计和实现。系统功能模块包括考古数据的采集、集成、查询、统计、分析等。其中数据集成模块集成了考古数据信息提取技术,分析模块实现了聚落等级分类预测。