一种文本位置确定方法、装置、电子设备和存储介质制造方法及图纸

技术编号:36434412 阅读:38 留言:0更新日期:2023-01-20 22:47
本发明专利技术实施例公开了一种文本位置确定方法、装置、电子设备和存储介质。该方法包括:获取目标图片,其中,目标图片包括目标文本;将目标图片输入至预先训练好的文本位置确定模型,得到目标图片的目标输出信息;基于目标图片的目标输出信息确定目标文本在目标图片中的目标位置。本发明专利技术实施例的方法可以利用预先训练好的文本位置确定模型,准确的确定出目标图片中的文本特征的位置,提高了文本位置确定方法的准确率。的准确率。的准确率。

【技术实现步骤摘要】
一种文本位置确定方法、装置、电子设备和存储介质


[0001]本专利技术实施例涉及文本识别领域,尤其涉及一种文本位置确定方法、装置、电子设备和存储介质。

技术介绍

[0002]文本识别是从内容杂乱的图片中自动识别出文本信息,包括文本在图片中的位置、文本的内容等。随着人工智能的发展,文本识别、文字识别等技术得到了广泛的应用。在实际应用中,需要识别出文本的图片背景往往比较复杂,有什么都是在自然场景下拍摄的图片。由于该图片背景的复杂性,在检测文本的过程中会受到各种干扰因素的影响,例如会受到不同光照、相似背景物、文字的多样性和图像模糊等的影响,导致机器无法在图片中识别出文本的位置。
[0003]现有的在图片中识别文本位置的方法大都是基于卷积神经网络的方法,例如EAST模型,EAST模型通过全卷积网络和非极大值抑制算法筛选输出层得到文本位置。但是这种算法对于不适用于背景复杂的图片,并且由于该方法使用全卷积网络进行直接回归时生成的文本位置,导致其不能识别出图片中的长文本,降低了文本位置确定方法的准确率。

技术实现思路

[0004]本专利技术提供一种文本位置确定方法、装置、电子设备和存储介质,能够利用文本位置确定模型从背景复杂的图片中准确的确定出文本的位置,提高了文本位置确定方法的准确率。
[0005]第一方面,本专利技术实施例提供了一种文本位置确定方法,所述方法包括:
[0006]获取目标图片,其中,所述目标图片包括目标文本;
[0007]将所述目标图片输入至预先训练好的文本位置确定模型,得到所述目标图片的目标输出信息;
[0008]基于所述目标图片的目标输出信息确定所述目标文本在所述目标图片中的目标位置。
[0009]第二方面,本专利技术实施例还提供了一种文本位置确定装置,所述装置包括:
[0010]获取模块,用于获取目标图片,其中,所述目标图片包括目标文本;
[0011]输入模块,用于将所述目标图片输入至预先训练好的文本位置确定模型,得到所述目标图片的目标输出信息;
[0012]确定模块,用于基于所述目标图片的目标输出信息确定所述目标文本在所述目标图片中的目标位置。
[0013]第三方面,本专利技术实施例还提供了一种电子设备,所述电子设备包括:
[0014]一个或多个处理器;
[0015]存储器,用于存储一个或多个程序;
[0016]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理
器实现如本专利技术任意实施例提供的文本位置确定方法。
[0017]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任意实施例提供的文本位置确定方法。
[0018]本专利技术实施例中,获取目标图片,其中,目标图片包括目标文本;将目标图片输入至预先训练好的文本位置确定模型,得到目标图片的目标输出信息;基于目标图片的目标输出信息确定目标文本在目标图片中的目标位置。即本专利技术实施例中,可以利用预先训练好的文本位置确定模型,准确的确定出目标图片中的文本特征的位置,提高了文本位置确定方法的准确率。
附图说明
[0019]图1是本专利技术实施例提供的文本位置确定方法的流程图;
[0020]图2是本专利技术实施例提供的文本位置确定模型的训练方法的流程图;
[0021]图3是本专利技术实施例提供的特征提取融合的结构示意图;
[0022]图4是本专利技术实施例提供的全卷积子网络示意图;
[0023]图5是本专利技术实施例提供的确定角点位置的偏移量的示意图;
[0024]图6是本专利技术实施例提供的文本位置确定装置的结构示意图;
[0025]图7是本专利技术实施例提供的电子设备的一个结构示意图。
具体实施方式
[0026]下面结合附图和实施例对本专利技术作进一步地详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0027]图1是本专利技术实施例提供的文本位置确定方法的流程图,本实施例的方法能够利用文本位置确定模型从背景复杂的图片中准确的确定出文本的位置,提高了文本位置确定方法的准确率。该方法可以由本专利技术实施例中的文本位置确定装置来执行,该装置可集成在电子设备中,电子设备可以是服务器,该方法可以采用软件和/或硬件的方式实现。本实施例提供的文本位置确定方法具体包括如下步骤:
[0028]步骤101、获取目标图片。
[0029]其中,目标图片包括目标文本。目标图片是需要确定出对该图片中的文本的位置的图片。目标文本是目标图片中包含的文本信息。在实际应用中,目标图片的背景内容可能较为复杂,服务器需要从目标图片中识别出目标文本在目标图片中的位置,用户可以将目标图片上传至服务器,服务器可以接收到用户上传的目标图片。
[0030]步骤102、将目标图片输入至预先训练好的文本位置确定模型,得到目标图片的目标输出信息。
[0031]其中,文本位置确定模型是预先训练好的,用于确定出目标图片中的目标文本的位置的模型。目标输出信息是将目标图片输入进训练好的文本位置确定模型后,文本位置确定模型基于目标图片输出的信息。本方案实施例中,训练文本位置确定模型包括如下步骤A1

步骤A2:
[0032]步骤A1:若文本位置确定模型不满足预先设置的收敛条件,则在图片样本库中提
取一个样本作为当前样本。
[0033]其中,收敛条件是根据实验环境和具体需求预先设置的条件。图片样本库中存储着大量的,各种背景、颜色的带有文本内容的图片,每一个图片都是一个样本。当文本位置确定模型达到收敛条件时,表示文本位置确定模型可以用于识别出目标图片中目标文本的位置。当文本位置确定模型不满足收敛条件时,表示文本位置确定模型还需要通过训练继续优化。具体地,从图片样本库中的大量图片中随机挑选出一个图片作为当前样本,并将当前样本输入进未训练好的文本位置确定模型中。
[0034]步骤A2:使用当前样本对文本位置确定模型进行训练,重复执行上述操作,直到文本位置确定模型满足收敛条件。
[0035]其中,文本位置确定模型包括残差神经网络、卷积神经网络、直接回归网络和边框回归网络等。
[0036]具体地,根据当前样本和图片样本库确定出当前样本的样本标签。样本标签是理想化的状态下,当前样本中的文本所在的准确位置。将当前样本输入进文本位置确定模型,利用残差神经网络对当前样本进行特征提取,提取出当前样本中的图像特征和文本特征。再将提取出的特征构建成特征金字塔,将特征金字塔输入进卷积神经网络中进行特征融合,通过卷积神经网络对特征金字塔进行特征融合,得到当前样本的多尺度信息特征。进一步地,将得到的多尺度信息特征输入进直接回归网络,通过直接回归网络得到文本特征在当前样本中的候选位置。得到候选位置后,获取候选位置中的角点位置,再利用通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本位置确定方法,其特征在于,所述方法包括:获取目标图片,其中,所述目标图片包括目标文本;将所述目标图片输入至预先训练好的文本位置确定模型,得到所述目标图片的目标输出信息;基于所述目标图片的目标输出信息确定所述目标文本在所述目标图片中的目标位置。2.根据权利要求1所述的方法,其特征在于,在所述获取目标图片之前,所述方法还包括:若所述文本位置确定模型不满足预先设置的收敛条件,则在图片样本库中提取一个样本作为当前样本;使用所述当前样本对所述文本位置确定模型进行训练,重复执行上述操作,直到所述文本位置确定模型满足所述收敛条件。3.根据权利要求2所述的方法,其特征在于,所述使用所述当前样本对所述文本位置确定模型进行训练,包括:确定所述当前样本对应的样本标签;将所述当前样本输入至所述文本位置确定模型,得到所述文本位置确定模型的输出信息;基于所述文本位置确定模型的输出信息和所述样本标签计算所述文本位置确定模型的损失函数,并基于所述损失函数对所述文本位置确定模型中的模型参数进行调整。4.根据权利要求3所述的方法,其特征在于,将所述当前样本输入至所述文本位置确定模型,得到所述文本位置确定模型的输出信息,包括:将所述当前样本输入至所述文本位置确定模型,对所述当前样本进行特征提取融合,得到所述当前样本对应的多尺度信息特征;其中,所述多尺度信息特征包括所述当前样本的图像特征和文本特征;对所述多尺度信息特征进行回归计算,得到所述文本特征在所述当前样本中的位置,并将所述位置确定为所述文本位置确定模型的输出信息。5.根据权利要求4所述的方法,其特征在于,对所述当前样本进行特征提取融合,得到所述当前样本对应的多尺度信息特征,包括:将所述当前样本输入进残差神经网络,通过所述残差神经网络对所述当前样本进行特征...

【专利技术属性】
技术研发人员:李清肖玉莹
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1