关键词:
化学数据
识别提取
语言表达模式
自然语言处理
摘要:
期刊文献是科学数据的一个重要来源,以往大多采用人工标引方法识别和提取其中的科学数据.随着信息技术和人工智能方法的发展,从期刊文献资料中自动识别和提取科学数据正在逐步成为可能.研究了结合语言表达模式和基于规则的自然语言处理技术(NLP)从期刊文章中自动识别提取化学数据和信息的方法,完成了2013~2022年10年《有机化学》期刊中3275篇实验研究文章中化学数据的自动识别提取,提取了包括产物特性、合成反应参数、物性数据、谱学数据等30多种化学数据,提取的数据经过处理建成对应的数据库,已经开始对外提供《有机化学》期刊知识服务.对2022年《有机化学》期刊全部422篇文章进行的方法性能测试表明,旋光数据识别提取的正确率为100%,熔点数据识别提取的正确率为99.85%,氟核磁谱识别提取的正确率为99.55%,碳核磁谱识别提取的正确率为99.80%,物质形态数据识别提取的正确率为99.47%,产物名称识别提取的正确率为98.76%(共提取4665个产物名称,其中有问题的产物名称58个).本文中产物名称自动识别提取使用了基于局部场景的无关内容排除法,如果使用化合物系统半系统命名模式,产物名称的自动识别准确率有望进一步提高.基于语言表达模式和自然语言处理技术的自动识别提取方法原则上不受学科限制,适合所有科学数据.