【技术实现步骤摘要】
面向地球科学领域的表格和上下文解析方法及系统
[0001]本专利技术涉及地质信息挖掘领域,尤其涉及一种面向地球科学领域的表格和上下文解析方法及系统。
技术介绍
[0002]表格解析是自然语言处理领域中的一个重要任务,其目的是将表格中非结构化的信息转化为结构化的信息,形成地质知识,能够有效从地质报告文件中获取信息,提高地质调查过程中的认知智能分析水平。目前的表格解析方法主要分为两类:传统的启发式方法和基于深度学习的方法。
[0003]传统启发式的方法通过字符特定距离、表格特有的标题、线条特点、表格特有的对齐格式来从文本中提取表格;基于深度学习的方法则是将表格作为图像,使用图像分割和目标提取的方式利用深度学习模型对表格进行解析。
[0004]在现阶段,关于表格解析的研究仅提供了部分解决方案。很多现有的表格解析方法是针对通用领域的表格和金融表格,并不适合面向特定专业领域中的表格解析场景。首先在单元格提取中,由于地表中合并的单元格数量较多,导致单元格大小差异较大,大量的小靶单元格无法被识别和提取。其次,在表结构解析方面,地质表包含大量对角分割的表头和合并的单元格,结构解析困难。最后,表格解析缺少与上下文本的融合造成了知识的单一局限性。因此,当前由海量地质调查报告、工作记录等非结构化数据组成的地质大数据尚未得到充分的利用和挖掘。
[0005]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
[0006]为解决上述技术问题,本专利技术提供一种面向地 ...
【技术保护点】
【技术特征摘要】
1.一种面向地球科学领域的表格和上下文解析方法,其特征在于,包括:S1:从地质数据库中获取地质数据表格;S2:对地质数据表格进行预处理,获得待解析地质数据表格;S3:对待解析地质数据表格进行单元格提取,获得单元格的位置信息,通过OCR算法在各位置信息对应的单元格中提取单元格的内容信息;S4:通过单元格的位置信息,使用表格解析方法获得单元格所属行列信息;S5:将各单元格的位置信息、所属行列信息和内容信息转换为三元组形式数据,将三元组形式数据和解析表格上下文内容得到的三元组信息进行对齐,获得地质知识图谱。2.根据权利要求1的面向地球科学领域的表格和上下文解析方法,其特征在于,步骤S2具体为:通过Labelme对地质数据表格进行标注,包括对表格的标注和对单元格的标注。3.根据权利要求1的面向地球科学领域的表格和上下文解析方法,其特征在于,步骤S3具体为:S31:待解析地质数据表格分为普通表格和含框线表格,通过改进的损失函数使Mask RCNN模型达到收敛,获得改进的Mask RCNN模型,通过改进的Mask RCNN模型提取普通表格的单元格的位置信息;S32:通过Opencv框架对含框线表格进行分割线位置解析,获得含框线表格的单元格的位置信息;S33:通过位置信息对单元格进行定位,通过OCR算法提取普通表格的单元格和含框线表格的单元格的内容信息。4.根据权利要求3的面向地球科学领域的表格和上下文解析方法,其特征在于,改进的损失函数的表达式为:损失函数的表达式为:损失函数的表达式为:损失函数的表达式为:L
align
=L
a
+L
b
+L
c
+L
d
Loss=L
class
+L
bbox
+L
mask
+L
align
其中,L
class
表示分类损失,L
bbox
表示回归框损失,L
mask
表示掩膜损失,SR表示起始行,SC表示起始列、ER表示结束行、EC表示结束列,C
i
表示特定行i的两个单元格,C
j
表示特定行j中的两个单元格,(x1
Ci
,y1
Ci
)和(x2
Ci
,y2
Ci
)分别表示单元格的边框坐标即左上角坐标和右下角坐标。5.根据权利要求4的面向地球科学领域的表格和上下文解析方法,其特征在于,步骤S4具体为:S4...
【专利技术属性】
技术研发人员:邱芹军,董家慧子,谢忠,陶留锋,马凯,
申请(专利权)人:中国地质大学武汉,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。