文件内容提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：24331760 阅读：20 留言：0更新日期：2020-05-29 19:56

本发明专利技术涉及一种文件内容提取方法、装置、电子设备及存储介质，属于文字处理领域。该方法包括：电子设备通过获取待提取文件；然后通过文本分割模型对所述待提取文件进行分割，得到包含文本的多个文本框；然后通过文本识别模型对每个文本框进行识别，得到每个文本框内的文字内容。由于文本识别模型是对每个文本框内的内容进行识别，可以减少位于文本框之外的干扰因素对识别准确率的影响，从而可以提高整体的识别准确率。

Document content extraction method, device, electronic equipment and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
文件内容提取方法、装置、电子设备及存储介质
本申请属于文字处理领域，具体涉及一种文件内容提取方法、装置、电子设备及存储介质。
技术介绍
近年来，对图像文本的文字识别和文字理解方面的研究逐渐成为热点。OCR(OpticalCharacterRecognition，光学字符识别)是文本识别最主要的方式之一，在扫描简单的文本(例如，背景单一、排版整齐的文本)上能够达到较高的识别准确率，但由于在实际应用场景中，待识别的文本往往较为复杂，例如文字格式多样、存在褶皱、存在阴影等，使得将OCR应用到实际场景中时得到的识别效果较差，因此，OCR不能满足对文本内容进行提取的实际需求。
技术实现思路
有鉴于此，本申请的目的在于提供一种文件内容提取方法、装置、电子设备及存储介质，以提供一种可以适应于实际应用场景的复杂性的文件内容提取方案。本申请的实施例是这样实现的：第一方面，本申请实施例提供一种文件内容提取方法，所述方法包括：获取待提取文件；通过文本分割模型对所述待提取文件进行分割，得到包含文本...

【技术保护点】
1.一种文件内容提取方法，其特征在于，所述方法包括：/n获取待提取文件；/n通过文本分割模型对所述待提取文件进行分割，得到包含文本的多个文本框；/n通过文本识别模型对每个文本框进行识别，得到每个文本框内的文字内容。/n

【技术特征摘要】
1.一种文件内容提取方法，其特征在于，所述方法包括：
获取待提取文件；
通过文本分割模型对所述待提取文件进行分割，得到包含文本的多个文本框；
通过文本识别模型对每个文本框进行识别，得到每个文本框内的文字内容。

2.根据权利要求1所述的方法，其特征在于，所述待提取文件为红头文件，所述红头文件包括红色分隔线，所述方法还包括：
从所述待提取文件中确定出用于表征红色分隔线的位置；
以所述用于表征红色分隔线的位置为基准，确定出所述红头文件的文件头以及文件主体；
分别输出所述文件头的文字内容以及所述文件主体的文字内容。

3.根据权利要求1或2所述的方法，其特征在于，在所述得到包含文本的多个文本框之后，在所述通过文本识别模型对每个文本框进行识别之前，所述方法还包括：
计算每个文本框的框线高度；
将位于同一行且框线高度之差小于阈值的文本框合并为一个文本框。

4.根据权利要求1所述的方法，其特征在于，在所述获取待提取文件之后，在所述通过文本分割模型对所述待提取文件进行分割，得到包含文本的多个文本框之前，所述方法还包括：
去除所述待提取文件中的干扰因素，得到预处理文件；
相应的，所述通过文本分割模型对所述待提取文件进行分割，得到包含文字的多个文本框，包括：
通过所述文本分割模型对所述预处理文件进行分割，得到包含文本的多个文本框。

5.根据权利要求4所述的方法，其特征在于，所述去除所述待...

【专利技术属性】
技术研发人员：刘小康，李健铨，
申请(专利权)人：中科鼎富北京科技发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人