文本内容提取方法及装置制造方法及图纸

技术编号:36468731 阅读:13 留言:0更新日期:2023-01-25 23:10
本申请提供文本内容提取方法及装置,其中所述文本内容提取方法包括:对目标图像进行文字识别,获得多个文本框,确定各文本框的位置信息和类别信息;根据各文本框的位置信息和类别信息,确定各文本框之间的关联关系;基于各文本框之间的关联关系,构建文本框关系图;利用预先训练的图神经网络,对文本框关系图中各文本框之间的关联关系进行分类,获得各文本框之间的关联分类结果;按照关联分类结果,提取各文本框中的文本内容。通过构建文本框关系图,并利用预先训练的图神经网络,对文本框关系图中的各文本框之间的关联关系进行分类,获得分类结果,根据分类结果提取各文本框中的文本内容,提高了文本内容提取的效率。提高了文本内容提取的效率。提高了文本内容提取的效率。

【技术实现步骤摘要】
文本内容提取方法及装置


[0001]本申请涉及数据处理
,特别涉及一种文本内容提取方法。本申请同时涉及一种文本内容提取装置,一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]结构化文本抽取一直是信息整合和数据分析的重要过程,有很多技术应用于此,例如,纸质表单信息的抽取,在于节省人工录入的时间成本,同时大幅度增加准确率的同时,提高效率。其发展也由传统的利用人工录入,到基于规则的自动录入方式,到最近基于深度学习的自动录入方式。
[0003]在对纸质表单信息进行录入时,整体分为四步,第一步是图像信息抽取,第二步是文本关系匹配,第三步是版面结构化,第四步是信息录入;目前针对第一步通常是利用光学字符识别进行图像信息的识别与抽取,针对第二步是利用卷积神经网络的方式进行文本关系匹配,之后进行第三步和第四步,其中在利用卷积神经网络进行第二步文本关系匹配时,需要将纸质表单中的任一文本内容与其余文本内容均进行连接,并遍历所有连接关系,确定具有匹配关系的文本连接关系对,增加了文本匹配的繁琐度,降低了对文本进行提取的效率,因此,亟需一种高效的文本内容提取方法。

技术实现思路

[0004]有鉴于此,本申请实施例提供了一种文本内容提取方法。本申请同时涉及一种文本内容提取装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0005]根据本申请实施例的第一方面,提供了一种文本内容提取方法,包括:对目标图像进行文字识别,获得多个文本框,确定各文本框的位置信息和类别信息;根据各文本框的位置信息和类别信息,确定各文本框之间的关联关系;基于各文本框之间的关联关系,构建文本框关系图;利用预先训练的图神经网络,对文本框关系图中各文本框之间的关联关系进行分类,获得各文本框之间的关联分类结果;按照关联分类结果,提取各文本框中的文本内容。
[0006]根据本申请实施例的第二方面,提供了一种文本内容提取装置,包括:信息确定模块,被配置为对目标图像进行文字识别,获得多个文本框,确定各文本框的位置信息和类别信息;关系确定模块,被配置为根据各文本框的位置信息和类别信息,确定各文本框之间的关联关系;构建模块,被配置为基于各文本框之间的关联关系,构建文本框关系图;分类模块,被配置为利用预先训练的图神经网络,对文本框关系图中各文本框之
间的关联关系进行分类,获得各文本框之间的关联分类结果;提取模块,被配置为按照关联分类结果,提取各文本框中的文本内容。
[0007]根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现上述文本内容提取方法的步骤。
[0008]根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现上述文本内容提取方法的步骤。
[0009]本申请提供的文本内容提取方法,对目标图像进行文字识别,获得多个文本框,确定各文本框的位置信息和类别信息;根据所述各文本框的位置信息和类别信息,确定所述各文本框之间的关联关系;基于所述各文本框之间的关联关系,构建文本框关系图;利用预先训练的图神经网络,对所述文本框关系图中所述各文本框之间的关联关系进行分类,获得所述各文本框之间的关联分类结果;按照所述关联分类结果,提取所述各文本框中的文本内容。
[0010]本申请一实施例通过对目标图像进行文字识别,获得多个文本框,根据各文本框的位置信息、类别信息和关联关系,构建文本框关系图,并利用预先训练的图神经网络,对各文本框之间的关联关系进行分类,获得分类结果,使得分类结果是通过预先训练的图神经网络和文本框关系图进行分类确定出来的,根据分类结果提取各文本框中的文本内容,使得提取的文本内容是基于图神经网络和图确定出来的关联分类结果确定的,提高了文本内容提取的效率。
附图说明
[0011]图1是本申请一实施例提供的一种文本内容提取系统架构下的交互流程示意图;图2是本申请一实施例提供的一种文本内容提取方法的流程图;图3a是本申请一实施例提供的一种文本框关系图;图3b是本申请一实施例提供的另一种文本框关系图;图3c是本申请一实施例提供的一种文本内容提取方法中的文本框关系图;图4是本申请一实施例提供的一种文本内容提取方法的图神经网络结构图;图5是本申请一实施例提供的另一种文本内容提取方法的图神经网络结构图;图6是本申请一实施例提供的另一种文本内容提取方法的图神经网络结构中指定循环网络层结构图;图7是本申请一实施例提供的一种应用于纸质表单信息提取的文本内容提取方法的处理流程图;图8是本申请一实施例提供的一种文本内容提取装置的结构示意图;图9是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
[0012]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0013]在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0014]应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0015]首先,对本申请一个或多个实施例涉及的名词术语进行解释。
[0016]光学字符识别(OCR,Optical Character Recognition)是指对输入图像进行分析识别处理,获取图像中文字信息的过程,具有广泛的应用场景,例如场景图像文字识别、文档图像识别、卡证识别(如身份证、银行卡、社保卡)、票据识别等。
[0017]超参数:在机器学习的上下文中,超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果。
[0018]卷积神经网络(CNN,Convolutional Neural Networks):是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。
[0019]图卷积神经网络(GCN,G本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本内容提取方法,其特征在于,包括:对目标图像进行文字识别,获得多个文本框,确定各文本框的位置信息和类别信息;根据所述各文本框的位置信息和类别信息,确定所述各文本框之间的关联关系;基于所述各文本框之间的关联关系,构建文本框关系图;利用预先训练的图神经网络,对所述文本框关系图中所述各文本框之间的关联关系进行分类,获得所述各文本框之间的关联分类结果;按照所述关联分类结果,提取所述各文本框中的文本内容。2.根据权利要求1所述的方法,其特征在于,所述确定各文本框的位置信息,包括:获得各文本框的尺寸信息以及所述目标图像的尺寸信息;根据所述各文本框的尺寸信息以及所述目标图像的尺寸信息,对所述各文本框进行归一化,获得归一化后所述各文本框的位置信息。3.根据权利要求1所述的方法,其特征在于,所述确定各文本框的类别信息,包括:获得各文本框中文本内容的特征信息;基于所述各文本框中文本内容的特征信息,确定所述各文本框的类别信息。4.根据权利要求1所述的方法,其特征在于,所述根据所述各文本框的位置信息和类别信息,确定所述各文本框之间的关联关系,包括:根据所述各文本框的位置信息,确定所述各文本框之间的边框距离;根据所述各文本框的类别信息,确定所述各文本框之间的类别相似度;确定边框距离小于预设距离阈值、且类别相似度小于预设相似度的文本框之间存在关联关系。5.根据权利要求4所述的方法,其特征在于,所述位置信息包括顶点坐标;所述根据所述各文本框的位置信息,确定所述各文本框之间的边框距离,包括:根据任两个文本框的顶点坐标,计算所述任两个文本框之间的行间距和列间距;根据所述各文本框之间的行间距和列间距,以及预设的行间距超参和列间距超参,确定所述各文本框之间的边框距离。6.根据权利要求1所述的方法,其特征在于,所述基于所述各文本框之间的关联关系,构建文本框关系图,包括:以所述各文本框作为图节点、所述各文本框之间的关联关系作为边,构建文本框关系图。7.根据权利要求6所述的方法,其特征在于,所述以所述各文本框作为图节点、所述各文本框之间的关联关系作为边,构建文本框关系图,包括:根据所述各文本框之间的关联关系,确定与第一文本框相邻的预设数目个第二文本框,其中,所述第一文本框为所述各文本框中的任一个;以所述第一文本框和多个所述第二文本框作为图节点、所述第一文本框和各所述第二文本框之间的关联关系作为边,构建文本框关系图。8.根据权利要求...

【专利技术属性】
技术研发人员:陈奕名林金曙陈华华陈丽娟
申请(专利权)人:恒生电子股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1