关键词:
中文信息处理
自然语言处理
自动分词
汉语自动分词辞典机制
全文检索
摘要:
全论文检索就是以文本数据为主要处理对象,提供根据数据资料的内容而不是外在特征来实现的信息检索手段.\"文海捞针\"是对全论文检索的形象描述.全论文检索是信息检索发展的最前沿和目前的最高阶段.这是一个具有重要理论价值和巨大使用价值的研究领域.自然语言处理技术是人工智能的一个重要分支,它包括汉语自动分词,词性自动标注,语义自动标住,句法分析及篇章理解.它们是实现语音处理、机器翻译、智能全文信息检索等的基础工程.该论文首先分析总结了基于串匹配的全文信息检索技术,并且比较了各种算法的优缺点.论文还讨论了实现智能全文信息检索的汉语自动分词问题,并给出了实现自动分词的最长匹配法、全切分算法、带修剪的全切分算法.分词词典是汉语自动分词系统的一个基本组成部分.其查询速度直接影响到分词系统的处理速度.论文设计并通过实验考察了四种典型的分词词典机制:双向索引,整词二分,TRIE索引树及逐字二分,注重比较了它们的时间、空间效率.实现显示:基于逐字二分的分词词典机制简洁、高效,较为实用.复杂的汉语分词系统中,各种信息的有效集成是系统实现的关键.论文介绍了信息集成方法,并讨论了信息集成结构中的两种最佳路径搜索方法.最后,论文给出实验系统的实现及评价.