一种基于深度学习的表格实体抽取方法及系统技术方案

技术编号：39067479 阅读：11 留言：0更新日期：2023-10-12 20:00

本发明专利技术公开了一种基于深度学习的表格实体抽取方法及系统，该方法包括以下实施步骤：文档转换步骤、表格提取步骤、单元格处理步骤、信息实体抽取步骤和信息智能填写步骤，文档转换步骤，对PDF文档进行处理，将其转换成PNG图片格式；表格提取步骤，提取图片中的网格线，定位表格区域，根据其最小外接矩形框坐标截取出表格图片；单元格处理步骤，计算线段数量及单元格的长和宽，根据单元格所在位置信息及长宽比例判断当前单元格是否为合并单元格；本发明专利技术基于传统图像处理算法以及预训练语言模型框架，通过采用传统图像算法对表格图片进行处理，增加了合并单元格及跨页单元格的处理过程，满足网络信息安全领域的高准确率要求。满足网络信息安全领域的高准确率要求。满足网络信息安全领域的高准确率要求。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的表格实体抽取方法及系统

[0001]本专利技术涉及网络信息安全领域的表格图片识别及信息抽取领域，尤其是涉及一种基于深度学习的表格实体抽取方法及系统。

技术介绍

[0002]实体抽取主要任务是识别命名实体的文本范围，并将其分类为预定义的类别，学术上所涉及一般包含三大类，实体类、时间类、数字类和7个小类，比如人、地名、时间、组织、日期、货币、百分比，是问答系统、翻译系统、知识图谱的基础，早期的NER的方法主要由语言学家手工构造规则模板，选用特定特征，包括统计信息、标点符号、指示词、方向词、中心词等，以模式与字符串相匹配为主要手段，但是此方法需要大量人力构建语言模型、系统周期较长、知识更新较慢、移植性较差。
[0003]现有技术在对表格信息进行抽取时，仅在对标准形式表格信息抽取方面效果较好，当存在复杂表格或合并单元格等情况时，只能通过模板匹配等方式，且信息抽取准确率低，并且处理表格图片中的合并单元格或跨页单元格时效果差，不能很好的提取其内容，无法满足网络信息安全领域的高准确率要求，本专利技术是基于传统图像处理算法以及预训练语言模型框架实现的，不仅对表格图片进行处理，提高了表格分割的准确性，而且使用深度学习方法对表格信息进行处理，从中抽取实体关系，提高信息抽取的准确率。

技术实现思路

[0004]本专利技术的目的是为了提高信息抽取的准确率，节省表单的填写时间，提高表格分割的准确性，设计涉及一种基于深度学习的表格实体抽取方法及系统。
[0005]本专利技术为达到上述专利技术目的...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的表格实体抽取方法，其特征是，该方法包括以下实施步骤：文档转换步骤、表格提取步骤、单元格处理步骤、信息实体抽取步骤和信息智能填写步骤；所述文档转换步骤，对PDF文档进行处理，将其转换成PNG图片格式；所述表格提取步骤，提取图片中的网格线，定位表格区域，根据其最小外接矩形框坐标截取出表格图片；所述单元格处理步骤，计算线段数量及单元格的长和宽，根据单元格所在位置信息及长宽比例判断当前单元格是否为合并单元格；所述信息实体抽取步骤，识别单元格中的文本，训练实体抽取模型，计算主体和客体之间的相关性，生成具有相关性的主客体键值对；所述信息智能填写步骤，将实体数据根据预设好的规则自动填写入表单页面中。2.根据权利要求1所述的一种基于深度学习的表格实体抽取方法，其特征是，所述文档转换步骤处理数据具体包括以下步骤：（1）锁定PDF文档，对PDF文档进行处理；（2）使用page.get_pixmap()函数将PDF文档转换成PNG图片格式。3.根据权利要求2所述的一种基于深度学习的表格实体抽取方法，其特征是，所述表格提取步骤处理数据具体包括以下步骤：（1）对转换后的PNG图片使用数字图像处理算法进行处理，从中提取出网格线部分；（2）判断网格线外轮廓是否闭合或半闭合以定位图片中的表格区域，并获取表格的最小外接矩形框坐标；（3）根据最小外接矩形框位置从图片中截取出表格区域；（4）根据外接矩形框四个顶点是否为网格线的交点判断单元格是否跨页，若跨页将两个表格进行拼接，同时将单元格坐标进行合并。4.根据权利要求3所述的一种基于深度学习的表格实体抽取方法，其特征是，所述单元格处理步骤处理数据具体包括以下步骤：（1）根据网格线中交点的位置计算各行的线段数量以及每个单元格的长和宽；（2）对所有单元格的长和宽进行汇总，按比例分别将长宽数据转化为整数；（3）分析每个单元格所在行列位置及其长宽占比判断当前单元格是否为合...

【专利技术属性】
技术研发人员：宋超，许建锋，刘露，孙宝，
申请(专利权)人：合肥天帷信息安全技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人