一种文字识别方法以及相关设备技术

技术编号:24889775 阅读:29 留言:0更新日期:2020-07-14 18:16
本申请实施例公开一种文字识别方法以及相关设备,该方法可用于人工智能的文字识别领域中,方法可以包括:获取待处理图像并生成与待处理图像对应的第一控制点参数,根据第一控制点参数生成目标曲线,目标曲线用于指示待处理图像中的目标区域,目标区域为待处理图像中的文字区域;对目标区域进行文字识别,得到识别结果,由于曲线呈弧线形,可以将任意形状的文字较为贴合的包围起来,以实现对任意形状的文字的识别操作;按照曲线进行文字识别,使得文字识别过程更贴合文字走势,提高文字识别过程的精度;直接根据曲线得到需要识别的文字区域,节省了对文字区域的多边形边界的处理过程,提高了文字识别过程的效率。

【技术实现步骤摘要】
一种文字识别方法以及相关设备
本申请涉及人工智能领域,尤其涉及一种文字识别方法以及相关设备。
技术介绍
人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。利用人工智能进行文字识别是人工智能常见的一个应用方式。现实中存在大量任意形状的文字区域,包括图像本身就是不规则布局的文字,也包括在弯曲表面的文字,由于拍摄原因在图像上呈现弯曲区域。这类任意形状布局的文字识别是目前文字识别的难点。一种可以对任意形状的文字进行识别的文字识别方法亟待推出。
技术实现思路
本申请实施例提供了一种文字识别方法以及相关设备,用于通过曲线将待处理图像中的文字区域圈出来,进而对曲线指示的区域进行文字识别,提高文字识别过程的精度和效率。为解决上述技术问题,本申请实施例提供以下技术方案:第一方面,本申请实施例提供一种文字识别方法,可用于人工智能领域的文字识别领域中,方法包括:执行设备获取待处理图像,待处理图像包括目标区域,目标区域为文字区域;执行设备生成与目标区域对应的第一控制点参数,根据第一控制点参数生成目标曲线,具体的,执行设备将控制点参数带入到曲线方程中,可以得到曲线。其中,待处理图像可以为实时获取的图像,也可以为图库中的图像,也可以为视频中的视频帧,也可以为扫描获得的图像。目标曲线用于指示待处理图像中的目标区域。控制点参数具体可以表现为控制点的坐标,控制点的坐标的坐标系原点可以根据控制点确定,也可以根据待处理图像的顶点确定。进而执行设备对目标区域进行文字识别,得到识别结果。本实现方式中,在获取到待处理图像之后,通过曲线将待处理图像中的文字区域圈出来,进而对曲线指示的区域进行文字识别,由于曲线呈弧线形,可以将任意形状的文字较为贴合的包围起来,以实现对任意形状的文字的识别操作;由于曲线能够将待识别文字较为贴合的包围起来,按照曲线进行文字识别,使得文字识别过程更贴合文字走势,提高文字识别过程的精度;此外,直接根据控制点参数生成曲线,从而得到需要识别的文字区域,节省了对文字区域的多边形边界的处理过程,提高了文字识别过程的效率。在第一方面的一种可能实现方式中,目标曲线为贝塞尔曲线,贝塞尔曲线是应用于二维图形应用程序的数学曲线,它是根据多个控制点参数绘制出的一条光滑曲线。在第一方面的一种可能实现方式中,执行设备生成与待处理图像对应的第一控制点参数,可以包括:执行设备将待处理图像输入到文字区域检测网络中,通过文字区域检测网络中的特征提取网络得到目标训练图像的特征图,进而将待处理图像的特征图分别输入到回归网络和分类网络中,以通过回归网络生成与待处理图像的P个候选区域中每个候选区域对应的控制点参数,并通过分类网络对待处理图像包括的P个候选区域进行分类,以确定P个候选区域中每个候选区域是否为文字区域,其中,第二控制点参数指的是回归网络回归到的控制点参数,第一控制点参数指的是文字区域检测网络输出的控制点参数;只有在候选区域为文字区域的情况下,将候选区域确定为目标区域,将第二控制点参数确定为第一控制点参数,也即只有在候选区域为文字区域的情况下,与候选区域对应的第二控制点参数才会被确定为需要输出的第一控制点参数。本实现方式中,只有在分类结果指示该区域为文字区域的情况下,才会将与该区域对应的控制点参数作为与文字区域对应的控制点参数,以降低文字区域检测网络输出的控制点参数指向的为非文字区域的概率,提高控制点参数输出过程的准确率;此外,由于后续会对控制点参数指向的区域进行文字识别,避免指向非文字区域的控制点参数的输出意味着可以减少后期文字识别过程的工作量,提高了整个文字识别过程的效率。在第一方面的一种可能实现方式中,目标曲线中包括一组或至少两组曲线,对应的,目标区域中包括一个或至少两个文字区域。执行设备根据目标控制点参数生成目标曲线之后,方法还包括:执行设备按照目标曲线的走势,对待处理图像的特征图进行采样,得到目标区域的特征图;其中,目标区域包括的文字区域的特征图为一组曲线包括的两条曲线之间的区域的特征图。进而执行设备对目标区域的特征图进行文字识别,得到识别结果。本实现方式中,直接按照曲线的上下边界的走势进行采样,减少了弯曲文字矫正的复杂度,提高了文字识别过程的效率;此外,由于在确定目标控制点参数的过程中一定会生成待处理图像的特征图,所以在生成曲线之后,直接对待处理图像的特征图进行采样,而不是再对待处理图像进行采样,有利于节省计算机资源。在第一方面的一种可能实现方式中,第一控制点参数包括一组或至少两组控制点参数,目标区域包括一个或至少两个文字区域,每组控制点参数用于生成两条曲线,所述两条曲线对应于一个文字区域,分别为所述文字区域的上边界和下边界。本实现方式中,文字区域检测网络既可以处理有一个文字区域的图像,也可以处理有至少两个文字区域的图像,扩展了本方案的应用场景。在第一方面的一种可能实现方式中,方法还包括:执行设备输出识别结果和第一控制点参数,第一控制点参数用于供终端设备确定第一曲线;或者,执行设备输出识别结果和与第一曲线对应的边界坐标,与第一曲线对应的边界坐标用于供终端设备确定第一曲线;或者,执行设备显示识别结果和第一曲线;或者,执行设备显示识别结果。本实现方式中,提供了识别结果的多种输出方式,扩展了本方案的应用场景,提高了本方案的实现灵活性。第二方面,本申请实施例提供一种文字识别方法,可用于人工智能领域的文字识别领域中,方法包括:训练设备获取训练图像和第三控制点参数,其中,训练图像中包括文字区域,第三控制点参数为预先生成的,第三控制点参数对应于指示文字区域的曲线。将训练图像输入文字区域检测网络,得到文字区域检测网络输出的第四控制点参数,第四控制点参数对应于指示文字区域的曲线。根据第三控制点参数和第四控制点参数,通过第一损失函数,对文字区域检测网络进行训练,直至满足收敛条件,得到训练后的文字区域检测网络,其中,第一损失函数用于指示第三控制点参数和第四控制点参数的相似度,第一损失函数的目的是拉近第三控制点参数和第四控制点参数之间的相似度。第一损失函数具体可以表现为平方差损失函数或平稳L1损失函数。在第二方面的一种可能实现方式中,用于指示文字区域的曲线为贝塞尔曲线。在第二方面的一种可能实现方式中,方法还包括:训练设备通过文字识别网络对第四控制点参数对应的文字区域进行文字识别,得到文字识别网络输出的第一识别结果;根据第一识别结果和第二识别结果,通过第二损失函数,对文字识别网络进行训练,直至满足收敛条件,得到训练后的文字识别网络。其中,第二识别结果为预先生成的,第二识别结果用于指示与第四控制点参数对应的文字区域的识别结果,第二损失函数用于指示第一识本文档来自技高网...

【技术保护点】
1.一种文字识别方法,其特征在于,所述方法包括:/n获取待处理图像,所述待处理图像包括目标区域,所述目标区域为文字区域;/n生成与所述目标区域对应的第一控制点参数;/n根据所述第一控制点参数生成目标曲线,其中,所述目标曲线用于指示所述目标区域;/n对所述目标区域进行文字识别,得到识别结果。/n

【技术特征摘要】
1.一种文字识别方法,其特征在于,所述方法包括:
获取待处理图像,所述待处理图像包括目标区域,所述目标区域为文字区域;
生成与所述目标区域对应的第一控制点参数;
根据所述第一控制点参数生成目标曲线,其中,所述目标曲线用于指示所述目标区域;
对所述目标区域进行文字识别,得到识别结果。


2.根据权利要求1所述的方法,其特征在于,所述生成与所述目标区域对应的第一控制点参数,包括:
将所述待处理图像的特征图输入到回归网络中,以通过所述回归网络生成第二控制点参数,并将所述待处理图像的特征图输入到分类网络中,以通过所述分类网络确定与所述第二控制点参数对应的候选区域是否为文字区域;
当确定所述候选区域为文字区域时,将所述候选区域确定为所述目标区域,将所述第二控制点参数确定为所述第一控制点参数。


3.根据权利要求1或2所述的方法,其特征在于,所述根据所述第一控制点参数生成目标曲线之后,所述方法还包括:
根据所述目标曲线,对所述待处理图像的特征图进行采样,得到所述目标区域的特征图;
所述对所述目标区域进行文字识别,得到识别结果,包括:
对所述目标区域的特征图进行文字识别,得到所述识别结果。


4.根据权利要求1或2所述的方法,其特征在于,所述第一控制点参数包括一组或至少两组控制点参数,所述目标区域包括一个或至少两个文字区域,每组控制点参数对应于一个文字区域。


5.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
输出所述识别结果和所述第一控制点参数,所述第一控制点参数用于供终端设备确定所述目标曲线;或者,
输出所述识别结果和与所述目标曲线对应的边界坐标,所述边界坐标用于供终端设备确定所述目标曲线;或者,
显示所述识别结果和所述目标曲线;或者,
显示所述识别结果。


6.根据权利要求1或2所述的方法,其特征在于,所述目标曲线为贝塞尔曲线。


7.一种文字识别方法,其特征在于,所述方法包括:
获取训练图像和第三控制点参数,其中,所述训练图像中包括文字区域,所述第三控制点参数为预先生成的,所述第三控制点参数对应于指示所述文字区域的曲线;
将所述训练图像输入文字区域检测网络,得到所述文字区域检测网络输出的第四控制点参数,所述第四控制点参数对应于指示所述文字区域的曲线;
根据所述第三控制点参数和所述第四控制点参数,通过第一损失函数,对所述文字区域检测网络进行训练,直至满足收敛条件,得到训练后的文字区域检测网络,其中,所述第一损失函数用于指示所述第三控制点参数和所述第四控制点参数的相似度。


8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
通过文字识别网络对所述第四控制点参数对应的文字区域进行文字识别,得到所述文字识别网络输出的第一识别结果;
根据所述第一识别结果和第二识别结果,通过第二损失函数,对所述文字识别网络进行训练,直至满足收敛条件,得到训练后的所述文字识别网络,其中,所述第二识别结果为预先生成的,所述第二识别结果用于指示与所述第四控制点参数对应的文字区域的识别结果,所述第二损失函数用于指示所述第一识别结果和所述第二识别结果之间的相似度。


9.根据权利要求7或8所述的方法,其特征在于,所述将所述训练图像输入文字区域检测网络之后,所述方法还包括:
获取所述文字区域检测网络在进行文字区域检测过程中,针对所述训练图像中第一区域生成的第一分类结果,其中,所述第一区域为所述训练图像包括的至少一个区域中的任一个区域,所述第一分类结果用于指示所述第一区域是否为文字区域;
所述根据所述第三控制点参数和所述第四控制点参数,通过第一损失函数,对所述文字区域检测网络进行训练,直至满足收敛条件,得到训练后的文字区域检测网络,包括:
根据所述第三控制点参数、所述第四控制点参数、所述第一分类结果和第二分类结果,通过第一损失函数和第三损失函数,对所述文字区域检测网络进行训练,直至满足收敛条件,得到所述训练后的文字区域检测网络,其中,所述第二分类结果为预先生成的,所述第二分类结果用于指示所述第一区域是否为文字区域,所述第三损失函数用于指示所述第一分类结果与所述第二分类结果之间的相似度。


10.根据权利要求7或8所述的方法,其特征在于,所述获取训练图像和第三控制点参数之前,所述方法还包括:
根据所述训练图像中文字区域的边界坐标,通过最小二乘法或梯度下降法,生成所述第三控制点参数。


11.一种文字识别装置,其特征在于,所述装置包括:
获取模块,用于获取待处理图像,所述待处理图像包括目标区域,所述目标区域为文字区域;
生成模块,用于生成与所述目标区域对应的第一控制点参数;
所述生成模块,还用于根据所述第一控制点参数生成目标曲线,其中,所述目标曲线用于指...

【专利技术属性】
技术研发人员:王靓伟刘禹良沈春华金连文
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1