【技术实现步骤摘要】
一种文字识别方法以及相关设备
本申请涉及人工智能领域,尤其涉及一种文字识别方法以及相关设备。
技术介绍
人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。利用人工智能进行文字识别是人工智能常见的一个应用方式。现实中存在大量任意形状的文字区域,包括图像本身就是不规则布局的文字,也包括在弯曲表面的文字,由于拍摄原因在图像上呈现弯曲区域。这类任意形状布局的文字识别是目前文字识别的难点。一种可以对任意形状的文字进行识别的文字识别方法亟待推出。
技术实现思路
本申请实施例提供了一种文字识别方法以及相关设备,用于通过曲线将待处理图像中的文字区域圈出来,进而对曲线指示的区域进行文字识别,提高文字识别过程的精度和效率。为解决上述技术问题,本申请实施例提供以下技术方案:第一方面,本申请实施例提供一种文字识别方法,可用于人工智能领域的文字识别领域中,方法包括:执行设备获取待处理图像,待处理图像包括目标区域,目标区域为文字区域;执行设备生成与目标区域对应的第一控制点参数,根据第一控制点参数生成目标曲线,具体的,执行设备将控制点参数带入到曲 ...
【技术保护点】
1.一种文字识别方法,其特征在于,所述方法包括:/n获取待处理图像,所述待处理图像包括目标区域,所述目标区域为文字区域;/n生成与所述目标区域对应的第一控制点参数;/n根据所述第一控制点参数生成目标曲线,其中,所述目标曲线用于指示所述目标区域;/n对所述目标区域进行文字识别,得到识别结果。/n
【技术特征摘要】
1.一种文字识别方法,其特征在于,所述方法包括:
获取待处理图像,所述待处理图像包括目标区域,所述目标区域为文字区域;
生成与所述目标区域对应的第一控制点参数;
根据所述第一控制点参数生成目标曲线,其中,所述目标曲线用于指示所述目标区域;
对所述目标区域进行文字识别,得到识别结果。
2.根据权利要求1所述的方法,其特征在于,所述生成与所述目标区域对应的第一控制点参数,包括:
将所述待处理图像的特征图输入到回归网络中,以通过所述回归网络生成第二控制点参数,并将所述待处理图像的特征图输入到分类网络中,以通过所述分类网络确定与所述第二控制点参数对应的候选区域是否为文字区域;
当确定所述候选区域为文字区域时,将所述候选区域确定为所述目标区域,将所述第二控制点参数确定为所述第一控制点参数。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述第一控制点参数生成目标曲线之后,所述方法还包括:
根据所述目标曲线,对所述待处理图像的特征图进行采样,得到所述目标区域的特征图;
所述对所述目标区域进行文字识别,得到识别结果,包括:
对所述目标区域的特征图进行文字识别,得到所述识别结果。
4.根据权利要求1或2所述的方法,其特征在于,所述第一控制点参数包括一组或至少两组控制点参数,所述目标区域包括一个或至少两个文字区域,每组控制点参数对应于一个文字区域。
5.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
输出所述识别结果和所述第一控制点参数,所述第一控制点参数用于供终端设备确定所述目标曲线;或者,
输出所述识别结果和与所述目标曲线对应的边界坐标,所述边界坐标用于供终端设备确定所述目标曲线;或者,
显示所述识别结果和所述目标曲线;或者,
显示所述识别结果。
6.根据权利要求1或2所述的方法,其特征在于,所述目标曲线为贝塞尔曲线。
7.一种文字识别方法,其特征在于,所述方法包括:
获取训练图像和第三控制点参数,其中,所述训练图像中包括文字区域,所述第三控制点参数为预先生成的,所述第三控制点参数对应于指示所述文字区域的曲线;
将所述训练图像输入文字区域检测网络,得到所述文字区域检测网络输出的第四控制点参数,所述第四控制点参数对应于指示所述文字区域的曲线;
根据所述第三控制点参数和所述第四控制点参数,通过第一损失函数,对所述文字区域检测网络进行训练,直至满足收敛条件,得到训练后的文字区域检测网络,其中,所述第一损失函数用于指示所述第三控制点参数和所述第四控制点参数的相似度。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
通过文字识别网络对所述第四控制点参数对应的文字区域进行文字识别,得到所述文字识别网络输出的第一识别结果;
根据所述第一识别结果和第二识别结果,通过第二损失函数,对所述文字识别网络进行训练,直至满足收敛条件,得到训练后的所述文字识别网络,其中,所述第二识别结果为预先生成的,所述第二识别结果用于指示与所述第四控制点参数对应的文字区域的识别结果,所述第二损失函数用于指示所述第一识别结果和所述第二识别结果之间的相似度。
9.根据权利要求7或8所述的方法,其特征在于,所述将所述训练图像输入文字区域检测网络之后,所述方法还包括:
获取所述文字区域检测网络在进行文字区域检测过程中,针对所述训练图像中第一区域生成的第一分类结果,其中,所述第一区域为所述训练图像包括的至少一个区域中的任一个区域,所述第一分类结果用于指示所述第一区域是否为文字区域;
所述根据所述第三控制点参数和所述第四控制点参数,通过第一损失函数,对所述文字区域检测网络进行训练,直至满足收敛条件,得到训练后的文字区域检测网络,包括:
根据所述第三控制点参数、所述第四控制点参数、所述第一分类结果和第二分类结果,通过第一损失函数和第三损失函数,对所述文字区域检测网络进行训练,直至满足收敛条件,得到所述训练后的文字区域检测网络,其中,所述第二分类结果为预先生成的,所述第二分类结果用于指示所述第一区域是否为文字区域,所述第三损失函数用于指示所述第一分类结果与所述第二分类结果之间的相似度。
10.根据权利要求7或8所述的方法,其特征在于,所述获取训练图像和第三控制点参数之前,所述方法还包括:
根据所述训练图像中文字区域的边界坐标,通过最小二乘法或梯度下降法,生成所述第三控制点参数。
11.一种文字识别装置,其特征在于,所述装置包括:
获取模块,用于获取待处理图像,所述待处理图像包括目标区域,所述目标区域为文字区域;
生成模块,用于生成与所述目标区域对应的第一控制点参数;
所述生成模块,还用于根据所述第一控制点参数生成目标曲线,其中,所述目标曲线用于指...
【专利技术属性】
技术研发人员:王靓伟,刘禹良,沈春华,金连文,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。