关键词:
专利
全文检索
中文分词
TRS
摘要:
随着计算机产业的发展,以计算机存储设备为载体的电子信息愈来愈多,这些信息大致可分为两类:结构化数据和非结构化数据,对于结构化数据,用RDBMS(关系数据库管理系统)技术来管理是目前最好的一种方式。然而专利文献的特点是以摘要、权利要求书、说明书这些非结构化文档为主,并附有大量摘要附图、说明书附图等多媒体数据,由于RDBMS自身底层结构的缘故使得它管理大量非结构化数据显得有些先天不足,特别是查询这些海量非结构化数据的速度较慢。而通过全文检索技术就能高效地管理这些非结构化数据。
经过几年的发展,全文检索从最初的字符串匹配程序已经演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件。由于内涵和外延的深刻变化,全文检索系统已成为新一代管理信息系统的代名词。
本文从全文检索技术的原理出发,结合专利文献的特点与我国专利信息工作的现状,提出了专利全文检索的必要性与可行性。并以TRS全文检索引擎为基础,设计并实现了专利信息检索与服务平台。在需求分析环节,本文介绍了专利服务平台的应用场景,提出了可以做什么,可以做到什么的问题。之后在设计环节上以需求为驱动,再逐级进行展开、深入,从功能架构、逻辑架构、技术架构、数据架构等多个角度分别进行了深入的研究分析。最后在实现环节,本文采用最终的页面原形为入口,通过对页面的描述直观的展现了系统最终的实现效果,并与前期需求相呼应,简单回顾了一些重点系统功能。
该平台的建设工作历时一年半完成,最终顺利通过验收测试。本人有幸参与了从需求分析到设计实施等各个阶段的工作,通过对项目的整体跟进与把握,使本人对专利领域信息化工作的关键问题有了更加清晰的认识。专利信息化服务的工作目前在中国呈现出空前繁荣的景象,在国际一体化的趋势下,国内企业及个人对专利意识也有了很大的改变,点点鼠标就可以知道当今行业的发展方向和最主流的科技成果,这在以前还只是天方夜谭,但是现在随着中文全文检索技术的日趋成熟,随着全文检索在专利领域的研究越来越深入,专利检索已经不再是令人头疼的工作。专利信息检索与服务平台只是一个新的起点,专利检索的研究还在继续,今后,语义检索、智能检索、图像检索等更加神秘的技术也同样会逐渐走进人们的生活。