面向地球科学领域的表格和上下文解析方法及系统技术方案

技术编号:36391287 阅读:20 留言:0更新日期:2023-01-18 09:55
本发明专利技术涉及地质信息挖掘领域,提供一种面向地球科学领域的表格和上下文解析方法及系统,包括:从地质数据库中获取地质数据表格;对地质数据表格进行预处理,获得待解析地质数据表格;对待解析地质数据表格进行单元格提取,获得单元格的位置信息,通过OCR算法在各位置信息对应的单元格中提取单元格的内容信息;将各单元格的位置信息、所属行列信息和内容信息转换为三元组形式数据,将三元组形式数据和解析表格上下文内容得到的三元组信息进行对齐,获得地质知识图谱。本发明专利技术选取的改进的MaskRCNN模型最终各项评价指标都达到了最优;地质知识图谱构建的问答平台为用户提供了智能化知识查询及检索服务。能化知识查询及检索服务。能化知识查询及检索服务。

【技术实现步骤摘要】
面向地球科学领域的表格和上下文解析方法及系统


[0001]本专利技术涉及地质信息挖掘领域,尤其涉及一种面向地球科学领域的表格和上下文解析方法及系统。

技术介绍

[0002]表格解析是自然语言处理领域中的一个重要任务,其目的是将表格中非结构化的信息转化为结构化的信息,形成地质知识,能够有效从地质报告文件中获取信息,提高地质调查过程中的认知智能分析水平。目前的表格解析方法主要分为两类:传统的启发式方法和基于深度学习的方法。
[0003]传统启发式的方法通过字符特定距离、表格特有的标题、线条特点、表格特有的对齐格式来从文本中提取表格;基于深度学习的方法则是将表格作为图像,使用图像分割和目标提取的方式利用深度学习模型对表格进行解析。
[0004]在现阶段,关于表格解析的研究仅提供了部分解决方案。很多现有的表格解析方法是针对通用领域的表格和金融表格,并不适合面向特定专业领域中的表格解析场景。首先在单元格提取中,由于地表中合并的单元格数量较多,导致单元格大小差异较大,大量的小靶单元格无法被识别和提取。其次,在表结构解析方面,地质表包含大量对角分割的表头和合并的单元格,结构解析困难。最后,表格解析缺少与上下文本的融合造成了知识的单一局限性。因此,当前由海量地质调查报告、工作记录等非结构化数据组成的地质大数据尚未得到充分的利用和挖掘。
[0005]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0006]为解决上述技术问题,本专利技术提供一种面向地球科学领域的表格和上下文解析方法,包括:
[0007]S1:从地质数据库中获取地质数据表格;
[0008]S2:对地质数据表格进行预处理,获得待解析地质数据表格;
[0009]S3:对待解析地质数据表格进行单元格提取,获得单元格的位置信息,通过OCR算法在各位置信息对应的单元格中提取单元格的内容信息;
[0010]S4:通过单元格的位置信息,使用表格解析方法获得单元格所属行列信息;
[0011]S5:将各单元格的位置信息、所属行列信息和内容信息转换为三元组形式数据,将三元组形式数据和解析表格上下文内容得到的三元组信息进行对齐,获得地质知识图谱。
[0012]优选的,步骤S2具体为:
[0013]通过Labelme对地质数据表格进行标注,包括对表格的标注和对单元格的标注。
[0014]优选的,步骤S3具体为:
[0015]S31:待解析地质数据表格分为普通表格和含框线表格,通过改进的损失函数使
Mask RCNN模型达到收敛,获得改进的Mask RCNN模型,通过改进的Mask RCNN模型提取普通表格的单元格的位置信息;
[0016]S32:通过Opencv框架对含框线表格进行分割线位置解析,获得含框线表格的单元格的位置信息;
[0017]S33:通过位置信息对单元格进行定位,通过OCR算法提取普通表格的单元格和含框线表格的单元格的内容信息。
[0018]优选的,改进的损失函数的表达式为:
[0019][0020][0021][0022][0023]L
align
=L
a
+L
b
+L
c
+L
d
[0024]Loss=L
class
+L
bbox
+L
mask
+L
align
[0025]其中,L
class
表示分类损失,L
bbox
表示回归框损失,L
mask
表示掩膜损失,SR表示起始行,SC表示起始列、ER表示结束行、EC表示结束列,C
i
表示特定行i的两个单元格,C
j
表示特定行j中的两个单元格,(x1
Ci
,y1
Ci
)和(x2
Ci
,y2
Ci
)分别表示单元格的边框坐标即左上角坐标和右下角坐标。
[0026]优选的,步骤S4具体为:
[0027]S41:在含分割线的单元格忠,通过Opencv模型将其图像转为二值图,识别二值图的线段端点坐标,将其余不含分割线单元格看作一个拥有长宽的矩形;
[0028]S42:将各单元格的矩形中长边最短的三分之一设置为横坐标容错阈值k
x
,将各单元格的矩形中宽边最短的三分之一设置为纵坐标容错阈值k
y
,表达式为:
[0029][0030][0031]其中,(x1,y1)为单元格的左上角坐标,(x2,y2)为单元格的右下角坐标;
[0032]S43:通过横坐标容错阈值、纵坐标容错阈值和表格的行列垂直关系获得校正后的单元格坐标,通过校正后的单元格坐标获得各单元格的行信息和列信息;
[0033]S44:在含分割线的单元格中,通过Opencv模型定位分割线段的端点坐标,当单元格(a
x
,b
y
)属于第m行n列时,坐标关系满足下式:
[0034][0035][0036]其中,a
m
表示第m行单元格的最小横坐标值,b
n
表示第n列单元格的最小纵坐标值,
a
m+1
表示第m行单元格的最大横坐标值,b
n+1
表示第n列单元格的最大纵坐标值,start_row和end_row分别表示单元格的行信息的开始处和结束处,start_col和end_col分别表示单元格的列信息的开始处和结束处,
[0037]S45:将每个单元格的编号、左上角坐标和右下角坐标作为各单元格的位置信息,行信息和列信息作为单元格所属行列信息。
[0038]优选的,步骤S5具体为:
[0039]S51:通过ALBERT模型将各单元格的位置信息、所属行列信息和内容信息转化为三元组形式数据,三元组形式数据表示为(a,r,b)其中a和b表示实体,r表示实体a、b间关系;
[0040]S52:将三元组形式数据与解析后的地质数据表格进行对齐,包括:实体对齐和基于表格的知识图谱与基于上下文的知识图谱的嵌入融合,获得地质知识图谱。
[0041]一种面向地球科学领域的表格和上下文解析系统,包括:
[0042]表格获取模块,用于从地质数据库中获取地质数据表格;
[0043]预处理模块,用于对地质数据表格进行预处理,获得待解析地质数据表格;
[0044]提取模块,用于对待解析地质数据表格进行单元格提取,获得单元格的位置信息,通过OCR算法在各位置信息对应的单元格中提取单元格的内容信息;
[0045]行列信息获取模块,用于通过单元格的位置信息,使用表格解析方法获得单元格所属行列信息;
[0046]图谱构建模块,用于将各单元格的位置信息、所属行列信息和内容信息转换为三元组形式数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向地球科学领域的表格和上下文解析方法,其特征在于,包括:S1:从地质数据库中获取地质数据表格;S2:对地质数据表格进行预处理,获得待解析地质数据表格;S3:对待解析地质数据表格进行单元格提取,获得单元格的位置信息,通过OCR算法在各位置信息对应的单元格中提取单元格的内容信息;S4:通过单元格的位置信息,使用表格解析方法获得单元格所属行列信息;S5:将各单元格的位置信息、所属行列信息和内容信息转换为三元组形式数据,将三元组形式数据和解析表格上下文内容得到的三元组信息进行对齐,获得地质知识图谱。2.根据权利要求1的面向地球科学领域的表格和上下文解析方法,其特征在于,步骤S2具体为:通过Labelme对地质数据表格进行标注,包括对表格的标注和对单元格的标注。3.根据权利要求1的面向地球科学领域的表格和上下文解析方法,其特征在于,步骤S3具体为:S31:待解析地质数据表格分为普通表格和含框线表格,通过改进的损失函数使Mask RCNN模型达到收敛,获得改进的Mask RCNN模型,通过改进的Mask RCNN模型提取普通表格的单元格的位置信息;S32:通过Opencv框架对含框线表格进行分割线位置解析,获得含框线表格的单元格的位置信息;S33:通过位置信息对单元格进行定位,通过OCR算法提取普通表格的单元格和含框线表格的单元格的内容信息。4.根据权利要求3的面向地球科学领域的表格和上下文解析方法,其特征在于,改进的损失函数的表达式为:损失函数的表达式为:损失函数的表达式为:损失函数的表达式为:L
align
=L
a
+L
b
+L
c
+L
d
Loss=L
class
+L
bbox
+L
mask
+L
align
其中,L
class
表示分类损失,L
bbox
表示回归框损失,L
mask
表示掩膜损失,SR表示起始行,SC表示起始列、ER表示结束行、EC表示结束列,C
i
表示特定行i的两个单元格,C
j
表示特定行j中的两个单元格,(x1
Ci
,y1
Ci
)和(x2
Ci
,y2
Ci
)分别表示单元格的边框坐标即左上角坐标和右下角坐标。5.根据权利要求4的面向地球科学领域的表格和上下文解析方法,其特征在于,步骤S4具体为:S4...

【专利技术属性】
技术研发人员:邱芹军董家慧子谢忠陶留锋马凯
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1