文本内容提取方法及装置制造方法及图纸

技术编号：36468731 阅读：13 留言：0更新日期：2023-01-25 23:10

本申请提供文本内容提取方法及装置，其中所述文本内容提取方法包括：对目标图像进行文字识别，获得多个文本框，确定各文本框的位置信息和类别信息；根据各文本框的位置信息和类别信息，确定各文本框之间的关联关系；基于各文本框之间的关联关系，构建文本框关系图；利用预先训练的图神经网络，对文本框关系图中各文本框之间的关联关系进行分类，获得各文本框之间的关联分类结果；按照关联分类结果，提取各文本框中的文本内容。通过构建文本框关系图，并利用预先训练的图神经网络，对文本框关系图中的各文本框之间的关联关系进行分类，获得分类结果，根据分类结果提取各文本框中的文本内容，提高了文本内容提取的效率。提高了文本内容提取的效率。提高了文本内容提取的效率。

全部详细技术资料下载

【技术实现步骤摘要】
文本内容提取方法及装置

[0001]本申请涉及数据处理
，特别涉及一种文本内容提取方法。本申请同时涉及一种文本内容提取装置，一种计算设备，以及一种计算机可读存储介质。

技术介绍

[0002]结构化文本抽取一直是信息整合和数据分析的重要过程，有很多技术应用于此，例如，纸质表单信息的抽取，在于节省人工录入的时间成本，同时大幅度增加准确率的同时，提高效率。其发展也由传统的利用人工录入，到基于规则的自动录入方式，到最近基于深度学习的自动录入方式。
[0003]在对纸质表单信息进行录入时，整体分为四步，第一步是图像信息抽取，第二步是文本关系匹配，第三步是版面结构化，第四步是信息录入；目前针对第一步通常是利用光学字符识别进行图像信息的识别与抽取，针对第二步是利用卷积神经网络的方式进行文本关系匹配，之后进行第三步和第四步，其中在利用卷积神经网络进行第二步文本关系匹配时，需要将纸质表单中的任一文本内容与其余文本内容均进行连接，并遍历所有连接关系，确定具有匹配关系的文本连接关系对，增加了文本匹配的繁琐度，降低了对文本进行提取的效率，因此，亟需一种高效的文本内容提取方法。

技术实现思路

[0004]有鉴于此，本申请实施例提供了一种文本内容提取方法。本申请同时涉及一种文本内容提取装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。
[0005]根据本申请实施例的第一方面，提供了一种文本内容提取方法，包括：对目标图像进行文字识别，获得多个文本框，确定各文本框的位置信息和类别信...

【技术保护点】

【技术特征摘要】
1.一种文本内容提取方法，其特征在于，包括：对目标图像进行文字识别，获得多个文本框，确定各文本框的位置信息和类别信息；根据所述各文本框的位置信息和类别信息，确定所述各文本框之间的关联关系；基于所述各文本框之间的关联关系，构建文本框关系图；利用预先训练的图神经网络，对所述文本框关系图中所述各文本框之间的关联关系进行分类，获得所述各文本框之间的关联分类结果；按照所述关联分类结果，提取所述各文本框中的文本内容。2.根据权利要求1所述的方法，其特征在于，所述确定各文本框的位置信息，包括：获得各文本框的尺寸信息以及所述目标图像的尺寸信息；根据所述各文本框的尺寸信息以及所述目标图像的尺寸信息，对所述各文本框进行归一化，获得归一化后所述各文本框的位置信息。3.根据权利要求1所述的方法，其特征在于，所述确定各文本框的类别信息，包括：获得各文本框中文本内容的特征信息；基于所述各文本框中文本内容的特征信息，确定所述各文本框的类别信息。4.根据权利要求1所述的方法，其特征在于，所述根据所述各文本框的位置信息和类别信息，确定所述各文本框之间的关联关系，包括：根据所述各文本框的位置信息，确定所述各文本框之间的边框距离；根据所述各文本框的类别信息，确定所述各文本框之间的类别相似度；确定边框距离小于预设距离阈值、且类别相似度小于预设相似度的文本框之间存在关联关系。5.根据权利要求4所述的方法，其特征在于，所述位置信息包括顶点坐标；所述根据所述各文本框的位置信息，确定所述各文本框之间的边框距离，包括：根据任两个文本框的顶点坐标，计算所述任两个文本框之间的行间距和列间距；根据所述各文本框之间的行间距和列间距，以及预设的行间距超参和列间距超参，确定所述各文本框之间的边框距离。6.根据权利要求1所述的方法，其特征在于，所述基于所述各文本框之间的关联关系，构建文本框关系图，包括：以所述各文本框作为图节点、所述各文本框之间的关联关系作为边，构建文本框关系图。7.根据权利要求6所述的方法，其特征在于，所述以所述各文本框作为图节点、所述各文本框之间的关联关系作为边，构建文本框关系图，包括：根据所述各文本框之间的关联关系，确定与第一文本框相邻的预设数目个第二文本框，其中，所述第一文本框为所述各文本框中的任一个；以所述第一文本框和多个所述第二文本框作为图节点、所述第一文本框和各所述第二文本框之间的关联关系作为边，构建文本框关系图。8.根据权利要求...

【专利技术属性】
技术研发人员：陈奕名，林金曙，陈华华，陈丽娟，
申请(专利权)人：恒生电子股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人