【技术实现步骤摘要】
本公开实施例涉及计算机,尤其涉及一种文字识别方法、装置、设备及存储介质。
技术介绍
1、随着移动互联网和人工智能技术的快速发展,文档和卡证电子化采集和处理趋势日益明显,越来越多的文档或卡证通过智能手机拍摄采集后,送入后台通过光学字符识别(optical character recognition,ocr),实现各种信息的自动录入,供后台业务人员进行快速审核。然而,现有ocr技术中,存在文字识别精度低的问题。
技术实现思路
1、本公开实施例提供一种文字识别方法、装置、设备及存储介质,可以提高文字识别的准确率。
2、第一方面,本公开实施例提供了一种文字识别方法,获取待识别的第一文字图像以及待识别的文字集合;其中,所述文字集合包括每个文字对应的表意文字描述序列;将所述待识别的第一文字图像以及所述待识别的文字集合输入至预先训练的文本识别模型中,输出第一图像编码特征以及文本特征集合;所述文本特征集合包括每个表意文字描述序列对应的文本特征;所述文本识别模型包括预先训练的图像编码器以及预先训
...【技术保护点】
1.一种文字识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,还包括:
3.根据权利要求1所述的方法,其特征在于,所述文本识别模型的训练方式为:
4.根据权利要求3所述的方法,其特征在于,从初始训练集中选择所述第一设定数量的第一样本对中表意文字描述序列对应的相似字,包括:
5.根据权利要求3所述的方法,其特征在于,基于第二设定数量的第五样本对以及第二设定数量的第六样本对对文本识别模型进行迭代训练,包括:
6.根据权利要求5所述的方法,其特征在于,第一损失函数的公式如下:
7.
...【技术特征摘要】
1.一种文字识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,还包括:
3.根据权利要求1所述的方法,其特征在于,所述文本识别模型的训练方式为:
4.根据权利要求3所述的方法,其特征在于,从初始训练集中选择所述第一设定数量的第一样本对中表意文字描述序列对应的相似字,包括:
5.根据权利要求3所述的方法,其特征在于,基于第二设定数量的第五样本对以及第二设定数量的第六样本对对文本识...
【专利技术属性】
技术研发人员:丁拥科,
申请(专利权)人:众安在线财产保险股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。