【技术实现步骤摘要】
本专利技术属于人工智能、大数据、计算机视觉、自然语言处理,具体涉及一种基于混合视觉策略的异构表格抽取方法。
技术介绍
1、在现代军事研究与情报分析中,数据是支撑决策与战略制定的核心要素。大量的军事数据以非结构化的形式存在,例如历史文献、情报报告、训练记录等。这些数据常常以纸质形式存储,并通过扫描的方式进行数字化保存,形成了海量的图像格式数据。然而,许多关键的信息,包括结构化的表格数据,隐藏在这些非结构化图像文件中,如何对其进行高效的提取与利用成为了构建知识库与情报分析的关键技术之一。
2、表格数据具有高度结构化的信息,通常包含数据关系、数值统计以及分类信息,因此在军事研究中具有不可替代的价值。然而,由于现实数据中存在较多由纸质扫描而来的文件,其中表格存在形式多样性、格式复杂性、以及文本识别难点较多等问题,传统的表格识别方法在处理这类数据时面临较大的挑战。准确地从这些图像文件中提取表格并转化为可用的结构化数据,不仅是提升数据利用效率的关键,也是构建智能化军事知识库的基础。
技术实现思路
>1、(一)要本文档来自技高网...
【技术保护点】
1.一种基于混合视觉策略的异构表格抽取方法,其特征在于,包括以下步骤:
2.如权利要求1所述的方法,其特征在于,步骤一中,还对Mask R-CNN模型进行如下改进:
3.如权利要求1所述的方法,其特征在于,对于一些纸质文档扫描出现的特殊使用,步骤一得到表格的结构化表示后,还采用形态学操作对表格线条进行处理,确保线条的完整性;然后采用霍夫变换进行直线的检测,并计算水平和垂直线条的交点位置;通过设定阈值,去除噪声线条,仅保留符合表格框架结构的线条,实现对于表格中单元格区域的定位。
4.如权利要求1所述的方法,其特征在于,步骤二中,对于跨
...【技术特征摘要】
1.一种基于混合视觉策略的异构表格抽取方法,其特征在于,包括以下步骤:
2.如权利要求1所述的方法,其特征在于,步骤一中,还对mask r-cnn模型进行如下改进:
3.如权利要求1所述的方法,其特征在于,对于一些纸质文档扫描出现的特殊使用,步骤一得到表格的结构化表示后,还采用形态学操作对表格线条进行处理,确保线条的完整性;然后采用霍夫变换进行直线的检测,并计算水平和垂直线条的交点位置;通过设定阈值,去除噪声线条,仅保留符合表格框架结构的线条,实现对于表格中单元格区域的定位。
4.如权利要求1所述的方法,其特征在于,步骤二中,对于跨页的文本段,根据iot的计算结果将文本拆分成上下两部分,并在跨页的文本区域的识别结果中标注跨页的内容,保证文本顺序不变。
5.如权利要求1所述的方法,其特征在于,步骤三在表格内容理解和信息抽取任务中,对于已完成步骤二的表格文本区域检测的文本内容,首先将表格中提取的文本输入到bert网络中,获取每个词的上下文特征表示,输出各个词的嵌入向量,bert网络作为预训练的语言模型,能够捕获深层次的双向语境信息;然后通过将bert网络输出的嵌入向量输入到bil...
【专利技术属性】
技术研发人员:栾真,王又辰,胡峻杰,杨雨婷,刘琦,宋伟,冀亮亮,刘兵,
申请(专利权)人:北京计算机技术及应用研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。