基于地质本体的地质报告文本信息提取方法技术

技术编号:23344326 阅读:77 留言:0更新日期:2020-02-15 04:11
本发明专利技术提供一种基于地质本体的地质报告文本信息提取方法,包括步骤:S1、对地质报告文档进行预处理操作,将文件类型转换成数据源格式,并进行分句、分词、去停用词、以及词性标注;S2、利用结构化信息构建地名词典库、地质实体词典库,在已有地质领域本体的基础上进行扩充并形成地名本体和地质时间本体;S3、通过模式匹配以及规则匹配方法对地质报告文本进行地质实体信息、时空关系信息、以及属性信息的抽取。本发明专利技术的有益效果:无需采用人工方式标注大量的训练数据集,节省了人力、物力;对现有的信息抽取模型进行了抽象及改进,为其他领域的信息抽取提供了一定思路。

Extraction method of geological report text information based on geological Ontology

【技术实现步骤摘要】
基于地质本体的地质报告文本信息提取方法
本专利技术涉及地质信息检索领域,尤其涉及一种基于地质本体的地质报告文本信息提取方法。
技术介绍
长期以来,通过一系列地质调查项目及地质资料汇交机制,地质调查领域积累了海量的地质调查数据资料,逐步形成了成体系的各类地质专业数据库以及由非结构化数据组成的地质“内容库”。地质大数据作为大数据中典型的代表,主要由两部分组成,一类是由现有的地质领域已经形成的各类专业数据库中具有规范化(normalized)定义、良构的结构化(structured)空间数据集,该类数据通常具有预定义的模式来进行存储和检索;另一类是由地质报告、研究报告、文献等地质领域的文本组成的非结构化(unstructured)文本数据集,该类数据往往无特定的、预定义的结构,如文本数据或图像、视频数据等。结构化数据通常使用关系数据库或空间数据库进行存储和管理,但非结构化数据的特性使得它们难以通过虚拟应用程序进行管理。非结构化数据类型多、信息零散,且信息往往比结构化数据更加丰富,具有更大的潜在价值,使用传统的文件系统对这些数据进行管理,会降低回答查询本文档来自技高网...

【技术保护点】
1.基于地质本体的地质报告文本信息提取方法,其特征在于,所述方法包括以下步骤:/nS1、文档预处理:将搜集到的地质报告文档的文件类型转换成数据源格式,利用自然语言处理工具对所述数据源格式的文档进行分句、分词、去停用词、以及词性标注,得到用于信息抽取的序列文本;/nS2、地质本体构建:从空间数据库中获取结构化属性信息,形成地名词典库、地质实体词典库,并对现有的开源地质领域本体利用专业地质词汇和专著进行扩充,形成地名本体和地质时间本体;/nS3、匹配规则定义:分析地质报告文档中的时间描述形式,定义时间匹配规则;根据步骤S1中标注的词性,结合地质报告文档中的属性信息的描述特点,定义属性信息匹配规则;...

【技术特征摘要】
1.基于地质本体的地质报告文本信息提取方法,其特征在于,所述方法包括以下步骤:
S1、文档预处理:将搜集到的地质报告文档的文件类型转换成数据源格式,利用自然语言处理工具对所述数据源格式的文档进行分句、分词、去停用词、以及词性标注,得到用于信息抽取的序列文本;
S2、地质本体构建:从空间数据库中获取结构化属性信息,形成地名词典库、地质实体词典库,并对现有的开源地质领域本体利用专业地质词汇和专著进行扩充,形成地名本体和地质时间本体;
S3、匹配规则定义:分析地质报告文档中的时间描述形式,定义时间匹配规则;根据步骤S1中标注的词性,结合地质报告文档中的属性信息的描述特点,定义属性信息匹配规则;在步骤S1得到的序列文本中搜集表达空间关系的词汇,定义空间关系匹配规则;
S4、地质信息提取:在步骤S2、步骤S3的基础上,利用模式匹配、规则匹配方法对步骤S1处理得到的序列文本进行地质实体信息、时空关系信息以及属性信息的抽取。


2.根据权利要求1所述的基于地质本体的地质报告文本信息提取方法,其特征在于,所述步骤S1中,还包括将搜集到的不同格式的原始地质报告文档转换成文本文档,去除文档中的图表,再将所述文本文档转换成数据源格式,所述数据源格式为GATE可读格式。


3.根据权利要求1所述的基于地质本体的地质报告文本信息提取方法,其特征在于,所述步骤S2中,所述地名本体以及地名词典库提供地名列表,用于进行信息抽取时匹配地名信息;所述地质时间本体提供地质报告中专业化的地质时间列表,用于进行信息抽取时匹配地质时间信息;所述地质实体词...

【专利技术属性】
技术研发人员:邱芹军谢忠吴亮陶留峰罗菁李孜轩曹豪豪
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1