【技术实现步骤摘要】
文件内容提取方法、装置、电子设备及存储介质
本申请属于文字处理领域,具体涉及一种文件内容提取方法、装置、电子设备及存储介质。
技术介绍
近年来,对图像文本的文字识别和文字理解方面的研究逐渐成为热点。OCR(OpticalCharacterRecognition,光学字符识别)是文本识别最主要的方式之一,在扫描简单的文本(例如,背景单一、排版整齐的文本)上能够达到较高的识别准确率,但由于在实际应用场景中,待识别的文本往往较为复杂,例如文字格式多样、存在褶皱、存在阴影等,使得将OCR应用到实际场景中时得到的识别效果较差,因此,OCR不能满足对文本内容进行提取的实际需求。
技术实现思路
有鉴于此,本申请的目的在于提供一种文件内容提取方法、装置、电子设备及存储介质,以提供一种可以适应于实际应用场景的复杂性的文件内容提取方案。本申请的实施例是这样实现的:第一方面,本申请实施例提供一种文件内容提取方法,所述方法包括:获取待提取文件;通过文本分割模型对所述待提取文件进行分割,得到包含文本 ...
【技术保护点】
1.一种文件内容提取方法,其特征在于,所述方法包括:/n获取待提取文件;/n通过文本分割模型对所述待提取文件进行分割,得到包含文本的多个文本框;/n通过文本识别模型对每个文本框进行识别,得到每个文本框内的文字内容。/n
【技术特征摘要】
1.一种文件内容提取方法,其特征在于,所述方法包括:
获取待提取文件;
通过文本分割模型对所述待提取文件进行分割,得到包含文本的多个文本框;
通过文本识别模型对每个文本框进行识别,得到每个文本框内的文字内容。
2.根据权利要求1所述的方法,其特征在于,所述待提取文件为红头文件,所述红头文件包括红色分隔线,所述方法还包括:
从所述待提取文件中确定出用于表征红色分隔线的位置;
以所述用于表征红色分隔线的位置为基准,确定出所述红头文件的文件头以及文件主体;
分别输出所述文件头的文字内容以及所述文件主体的文字内容。
3.根据权利要求1或2所述的方法,其特征在于,在所述得到包含文本的多个文本框之后,在所述通过文本识别模型对每个文本框进行识别之前,所述方法还包括:
计算每个文本框的框线高度;
将位于同一行且框线高度之差小于阈值的文本框合并为一个文本框。
4.根据权利要求1所述的方法,其特征在于,在所述获取待提取文件之后,在所述通过文本分割模型对所述待提取文件进行分割,得到包含文本的多个文本框之前,所述方法还包括:
去除所述待提取文件中的干扰因素,得到预处理文件;
相应的,所述通过文本分割模型对所述待提取文件进行分割,得到包含文字的多个文本框,包括:
通过所述文本分割模型对所述预处理文件进行分割,得到包含文本的多个文本框。
5.根据权利要求4所述的方法,其特征在于,所述去除所述待...
【专利技术属性】
技术研发人员:刘小康,李健铨,
申请(专利权)人:中科鼎富北京科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。