文件内容提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24331760 阅读:20 留言:0更新日期:2020-05-29 19:56
本发明专利技术涉及一种文件内容提取方法、装置、电子设备及存储介质,属于文字处理领域。该方法包括:电子设备通过获取待提取文件;然后通过文本分割模型对所述待提取文件进行分割,得到包含文本的多个文本框;然后通过文本识别模型对每个文本框进行识别,得到每个文本框内的文字内容。由于文本识别模型是对每个文本框内的内容进行识别,可以减少位于文本框之外的干扰因素对识别准确率的影响,从而可以提高整体的识别准确率。

Document content extraction method, device, electronic equipment and storage medium

【技术实现步骤摘要】
文件内容提取方法、装置、电子设备及存储介质
本申请属于文字处理领域,具体涉及一种文件内容提取方法、装置、电子设备及存储介质。
技术介绍
近年来,对图像文本的文字识别和文字理解方面的研究逐渐成为热点。OCR(OpticalCharacterRecognition,光学字符识别)是文本识别最主要的方式之一,在扫描简单的文本(例如,背景单一、排版整齐的文本)上能够达到较高的识别准确率,但由于在实际应用场景中,待识别的文本往往较为复杂,例如文字格式多样、存在褶皱、存在阴影等,使得将OCR应用到实际场景中时得到的识别效果较差,因此,OCR不能满足对文本内容进行提取的实际需求。
技术实现思路
有鉴于此,本申请的目的在于提供一种文件内容提取方法、装置、电子设备及存储介质,以提供一种可以适应于实际应用场景的复杂性的文件内容提取方案。本申请的实施例是这样实现的:第一方面,本申请实施例提供一种文件内容提取方法,所述方法包括:获取待提取文件;通过文本分割模型对所述待提取文件进行分割,得到包含文本的多个文本框;通过文本文档来自技高网...

【技术保护点】
1.一种文件内容提取方法,其特征在于,所述方法包括:/n获取待提取文件;/n通过文本分割模型对所述待提取文件进行分割,得到包含文本的多个文本框;/n通过文本识别模型对每个文本框进行识别,得到每个文本框内的文字内容。/n

【技术特征摘要】
1.一种文件内容提取方法,其特征在于,所述方法包括:
获取待提取文件;
通过文本分割模型对所述待提取文件进行分割,得到包含文本的多个文本框;
通过文本识别模型对每个文本框进行识别,得到每个文本框内的文字内容。


2.根据权利要求1所述的方法,其特征在于,所述待提取文件为红头文件,所述红头文件包括红色分隔线,所述方法还包括:
从所述待提取文件中确定出用于表征红色分隔线的位置;
以所述用于表征红色分隔线的位置为基准,确定出所述红头文件的文件头以及文件主体;
分别输出所述文件头的文字内容以及所述文件主体的文字内容。


3.根据权利要求1或2所述的方法,其特征在于,在所述得到包含文本的多个文本框之后,在所述通过文本识别模型对每个文本框进行识别之前,所述方法还包括:
计算每个文本框的框线高度;
将位于同一行且框线高度之差小于阈值的文本框合并为一个文本框。


4.根据权利要求1所述的方法,其特征在于,在所述获取待提取文件之后,在所述通过文本分割模型对所述待提取文件进行分割,得到包含文本的多个文本框之前,所述方法还包括:
去除所述待提取文件中的干扰因素,得到预处理文件;
相应的,所述通过文本分割模型对所述待提取文件进行分割,得到包含文字的多个文本框,包括:
通过所述文本分割模型对所述预处理文件进行分割,得到包含文本的多个文本框。


5.根据权利要求4所述的方法,其特征在于,所述去除所述待...

【专利技术属性】
技术研发人员:刘小康李健铨
申请(专利权)人:中科鼎富北京科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1