文件内容提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24331760 阅读:19 留言:0更新日期:2020-05-29 19:56
本发明专利技术涉及一种文件内容提取方法、装置、电子设备及存储介质,属于文字处理领域。该方法包括:电子设备通过获取待提取文件;然后通过文本分割模型对所述待提取文件进行分割,得到包含文本的多个文本框;然后通过文本识别模型对每个文本框进行识别,得到每个文本框内的文字内容。由于文本识别模型是对每个文本框内的内容进行识别,可以减少位于文本框之外的干扰因素对识别准确率的影响,从而可以提高整体的识别准确率。

Document content extraction method, device, electronic equipment and storage medium

【技术实现步骤摘要】
文件内容提取方法、装置、电子设备及存储介质
本申请属于文字处理领域,具体涉及一种文件内容提取方法、装置、电子设备及存储介质。
技术介绍
近年来,对图像文本的文字识别和文字理解方面的研究逐渐成为热点。OCR(OpticalCharacterRecognition,光学字符识别)是文本识别最主要的方式之一,在扫描简单的文本(例如,背景单一、排版整齐的文本)上能够达到较高的识别准确率,但由于在实际应用场景中,待识别的文本往往较为复杂,例如文字格式多样、存在褶皱、存在阴影等,使得将OCR应用到实际场景中时得到的识别效果较差,因此,OCR不能满足对文本内容进行提取的实际需求。
技术实现思路
有鉴于此,本申请的目的在于提供一种文件内容提取方法、装置、电子设备及存储介质,以提供一种可以适应于实际应用场景的复杂性的文件内容提取方案。本申请的实施例是这样实现的:第一方面,本申请实施例提供一种文件内容提取方法,所述方法包括:获取待提取文件;通过文本分割模型对所述待提取文件进行分割,得到包含文本的多个文本框;通过文本识别模型对每个文本框进行识别,得到每个文本框内的文字内容。由于文本识别模型是对每个文本框内的内容进行识别,可以减少位于文本框之外的干扰因素对识别准确率的影响,从而可以提高整体的识别准确率。结合第一方面实施例,在一种可能的实施方式中,所述待提取文件为红头文件,所述红头文件包括红色分隔线,所述方法还包括:从所述待提取文件中确定出用于表征红色分隔线的位置;以所述用于表征红色分隔线的位置为基准,确定出所述红头文件的文件头以及文件主体;分别输出所述文件头的文字内容以及所述文件主体的文字内容。结合第一方面实施例,在一种可能的实施方式中,在所述得到包含文本的多个文本框之后,在所述通过文本识别模型对每个文本框进行识别之前,所述方法还包括:计算每个文本框的框线高度;将位于同一行且框线高度之差小于阈值的文本框合并为一个文本框。结合第一方面实施例,在一种可能的实施方式中,在所述获取待提取文件之后,在所述通过文本分割模型对所述待提取文件进行分割,得到包含文本的多个文本框之前,所述方法还包括:去除所述待提取文件中的干扰因素,得到预处理文件;相应的,所述通过文本分割模型对所述待提取文件进行分割,得到包含文字的多个文本框,包括:通过所述文本分割模型对所述预处理文件进行分割,得到包含文本的多个文本框。结合第一方面实施例,在一种可能的实施方式中,所述去除所述待提取文件中的干扰因素,包括:去除所述待提取文件的预设位置的红色内容。结合第一方面实施例,在一种可能的实施方式中,所述方法还包括:通过预先保存的文字纠错模型对所述每个文本框内的文字内容进行纠错。第二方面,本申请实施例提供一种文件内容提取装置,所述文件内容提取装置包括:获取模块、分割模块及识别模块。获取模块,用于获取待提取文件;分割模块,用于通过文本分割模型对所述待提取文件进行分割,得到包含文本的多个文本框;识别模块,用于通过文本识别模型对每个文本框进行识别,得到每个文本框内的文字内容。结合第二方面实施例,在一种可能的实施方式中,所述待提取文件为红头文件,所述红头文件包括红色分隔线,所述文件内容提取装置还包括确定模块以及输出模块。所述确定模块,用于从所述待提取文件中确定出用于表征红色分隔线的位置;所述确定模块,还用于以所述用于表征红色分隔线的位置为基准,确定出所述红头文件的文件头以及文件主体;所述输出模块,用于分别输出所述文件头的文字内容以及所述文件主体的文字内容。结合第二方面实施例,在一种可能的实施方式中,所述文件内容提取装置还包括计算模块以及合并模块。所述计算模块,用于计算每个文本框的框线高度;所述合并模块,用于将位于同一行且框线高度之差小于阈值的文本框合并为一个文本框。结合第二方面实施例,在一种可能的实施方式中,所述文件内容提取装置还包括去除模块,用于去除所述待提取文件中的干扰因素,得到预处理文件;相应的,所述分割模块,用于通过所述文本分割模型对所述预处理文件进行分割,得到包含文本的多个文本框。结合第二方面实施例,在一种可能的实施方式中,所述去除模块,用于去除所述待提取文件的预设位置的红色内容。结合第二方面实施例,在一种可能的实施方式中,所述文件内容提取装置还包括纠错模块,用于通过预先保存的文字纠错模型对所述每个文本框内的文字内容进行纠错。第三方面,本申请实施例还提供一种电子设备,包括:存储器和处理器,所述存储器和所述处理器连接;所述存储器用于存储程序;所述处理器调用存储于所述存储器中的程序,以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。第四方面,本申请实施例还提供一种非易失性计算机可读取存储介质(以下简称存储介质),其上存储有计算机程序,所述计算机程序被计算机运行时执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。图1示出了本申请实施例提供的一种文件内容提取方法的流程图之一。图2示出了本申请实施例提供的一种PixelLink模型的工作示意图。图3示出了本申请实施例提供的一种文件内容提取方法的流程图之二。图4示出了本申请实施例提供的一种文件内容提取装置的结构框图。图5示出了本申请实施例提供的一种电子设备的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的本文档来自技高网...

【技术保护点】
1.一种文件内容提取方法,其特征在于,所述方法包括:/n获取待提取文件;/n通过文本分割模型对所述待提取文件进行分割,得到包含文本的多个文本框;/n通过文本识别模型对每个文本框进行识别,得到每个文本框内的文字内容。/n

【技术特征摘要】
1.一种文件内容提取方法,其特征在于,所述方法包括:
获取待提取文件;
通过文本分割模型对所述待提取文件进行分割,得到包含文本的多个文本框;
通过文本识别模型对每个文本框进行识别,得到每个文本框内的文字内容。


2.根据权利要求1所述的方法,其特征在于,所述待提取文件为红头文件,所述红头文件包括红色分隔线,所述方法还包括:
从所述待提取文件中确定出用于表征红色分隔线的位置;
以所述用于表征红色分隔线的位置为基准,确定出所述红头文件的文件头以及文件主体;
分别输出所述文件头的文字内容以及所述文件主体的文字内容。


3.根据权利要求1或2所述的方法,其特征在于,在所述得到包含文本的多个文本框之后,在所述通过文本识别模型对每个文本框进行识别之前,所述方法还包括:
计算每个文本框的框线高度;
将位于同一行且框线高度之差小于阈值的文本框合并为一个文本框。


4.根据权利要求1所述的方法,其特征在于,在所述获取待提取文件之后,在所述通过文本分割模型对所述待提取文件进行分割,得到包含文本的多个文本框之前,所述方法还包括:
去除所述待提取文件中的干扰因素,得到预处理文件;
相应的,所述通过文本分割模型对所述待提取文件进行分割,得到包含文字的多个文本框,包括:
通过所述文本分割模型对所述预处理文件进行分割,得到包含文本的多个文本框。


5.根据权利要求4所述的方法,其特征在于,所述去除所述待...

【专利技术属性】
技术研发人员:刘小康李健铨
申请(专利权)人:中科鼎富北京科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1