一种文本提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:43763729 阅读:26 留言:0更新日期:2024-12-24 16:06
本申请公开了一种文本提取方法、装置、电子设备及存储介质,属于文本识别技术,用以提高文本处理效率和准确性。所述方法包括:对第一文本图像进行识别,得到所述第一文本图像中的第一文本;将所述第一文本输入第一模型,通过所述第一模型输出所述第一文本中目标类型的第一目标文本和所述第一目标文本在所述第一文本中的位置,其中,所述第一模型为通过Transformer架构的注意力机制训练的。

【技术实现步骤摘要】

本申请属于文本识别,具体涉及一种文本提取方法、装置、电子设备及存储介质


技术介绍

1、光学字符识别(optical character recognition,ocr)技术是一种通过图像处理技术将书写或印刷的文本内容转化为机器可编辑的文字格式的技术。该技术的核心步骤主要包括图像预处理、字符分割、特征提取和字符识别。ocr技术的发展使得从书籍、文档到路标、广告等各种场景下的文本识别成为可能,极大地推动了自动化和信息化进程,被广泛应用于银行、档案管理、自动驾驶以及智能助手等领域

2、但是当前对文本的抽取多采用后处理来进行,这种方式有一个很大的弊端就是即使在同一个领域,ocr提取的文本内容都要非常接近,针对不同类型的文本或者复杂的文本信息难以对应提取。


技术实现思路

1、本申请实施例提供一种文本提取方法、装置、电子设备及存储介质,能够解决针对不同类型的文本或者复杂的文本信息难以对应提取的问题。

2、第一方面,本申请实施例提供了一种文本提取方法,该方法包括:对第一文本图像进行识别,得到所述第本文档来自技高网...

【技术保护点】

1.一种文本提取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在所述对第一文本图像进行识别,得到所述第一文本图像中的第一文本之前,还包括:

3.根据权利要求2所述的方法,其特征在于,所述将所述第二文本输入到所述第一模型,对所述第一模型进行训练,包括:

4.根据权利要求2所述的方法,其特征在于,在所述对第一文本图像进行识别,得到所述第一文本图像中的第一文本之前,还包括:

5.根据权利要求4所述的方法,其特征在于,在所述获取第二文本图像之后,还包括:

6.根据权利要求1所述的方法,其特征在于,所述目标类型包括问...

【技术特征摘要】

1.一种文本提取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在所述对第一文本图像进行识别,得到所述第一文本图像中的第一文本之前,还包括:

3.根据权利要求2所述的方法,其特征在于,所述将所述第二文本输入到所述第一模型,对所述第一模型进行训练,包括:

4.根据权利要求2所述的方法,其特征在于,在所述对第一文本图像进行识别,得到所述第一文本图像中的第一文本之前,还包括:

5.根据权利要求4所述的方法,其特征在于,在所述获取第二文本图像之后,还包括:

6.根据权利要求1所述的方法,其特征在于,所述目标类型包括问题和所述问题对应的答案,所述第一目标文本包括第一子目...

【专利技术属性】
技术研发人员:李波李青雯冯莹张子浪
申请(专利权)人:中国铁塔股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1