【技术实现步骤摘要】
文本识别方法、文本识别模型训练方法、装置及存储介质
[0001]本公开涉及人工智能
,具体为深度学习、图像处理、计算机视觉
,可应用于光学字符识别等场景。
技术介绍
[0002]文字检测与识别技术可以被广泛应用于社会的各行各业,如教育、医疗、金融等领域。相关技术中,大多采用基于文本粒度的方式进行文字检测和识别,但是,在大字符间距、中文行列难以区分等文本场景下,很难基于视觉信息判断出文本的粒度,进而导致检测与识别的准确性较差。
技术实现思路
[0003]本公开提供了一种文本识别方法、文本识别模型训练方法、装置及存储介质。
[0004]根据本公开的第一方面,提供了一种文本识别方法,包括:
[0005]获取目标图片的目标特征;
[0006]获取N个参考特征序列,N为正整数;
[0007]基于目标特征和N个参考特征序列,得到N个D维特征序列,D为正整数;
[0008]基于N个D维特征序列,确定目标图片的字符位置、字符类别和字符间的连接关系;
[0009]基于 ...
【技术保护点】
【技术特征摘要】
1.一种文本识别方法,包括:获取目标图片的目标特征;获取N个参考特征序列,N为正整数;基于所述目标特征和所述N个参考特征序列,得到N个D维特征序列,D为正整数;基于所述N个D维特征序列,确定所述目标图片的字符位置、字符类别和字符间的连接关系;基于所述字符位置、所述字符类别和所述字符间的连接关系,得到所述目标图片的文本识别结果。2.根据权利要求1所述的方法,其中,所述获取目标图片的目标特征,包括:通过文本识别模型中特征提取模型获取所述目标图片的初始特征;为所述初始特征添加位置编码,得到所述目标特征。3.根据权利要求1所述的方法,其中,所述获取N个参考特征序列,包括:将随机初始化特征输入文本识别模型中搜索模型;获取所述搜索模型输出的所述N个参考特征序列。4.根据权利要求1所述的方法,其中,所述基于所述目标特征和所述N个参考特征序列,得到N个D维特征序列,包括:将所述目标特征和所述N个参考特征序列输入文本识别模型中解码模型;获取所述解码模型输出的所述N个D维特征序列。5.根据权利要求1所述的方法,其中,所述基于所述N个D维特征序列,确定所述目标图片的字符位置、字符类别和字符间的连接关系,包括:将所述N个D维特征序列分别输入文本识别模型的第一预测模型、第二预测模型和第三预测模型;获得所述第一预测模型输出的所述目标图片的字符位置,所述第二预测模型输出的所述目标图片的字符类别,以及所述第三预测模型输出的所述目标图片的字符间的连接关系。6.根据权利要求1所述的方法,其中,所述基于所述字符位置、所述字符类别和所述字符间的连接关系,得到所述目标图片的文本识别结果,包括:基于所述字符类别确定候选字符;基于所述字符位置确定所述候选字符的位置;基于所述字符间的连接关系和所述候选字符的位置,得到所述目标图片包括的文本的包围框和字符串,所述文本识别结果包括所述文本的包围框和字符串。7.一种文本识别模型训练方法,包括:获取待训练图片;获取N个参考特征序列,N为正整数;将所述待训练图片和所述N个参考特征序列输入待训练模型,得到所述待训练模型输出的所述待训练图片的字符的位置预测值、类别预测值和字符间连接关系预测值;通过所述字符的位置预测值、类别预测值和字符间连接关系预测值,以及所述待训练图片的字符的位置真值、类别真值和字符间连接关系真值,对所述待训练模型进行训练,获得文本识别模型。
8.根据权利要求7所述的方法,其中,所述待训练模型包括第一预测模型、第二预测模型和第三预测模型,所述通过所述字符的位置预测值、类别预测值和字符间连接关系预测值,以及所述待训练图片包括的字符的位置真值、类别真值和字符间连接关系真值,对所述待训练模型进行训练,包括:基于所述字符的位置预测值和所述字符的位置真值确定第一损失函数;基于所述字符的类别预测值和所述字符的类别真值确定第二损失函数;基于所述字符间连接关系预测值和所述字符间连接关系真值确定第三损失函数;分别使用所述第一损失函数训练所述第一预测模型,使用所述第二损失函数训练所述第二预测模型,使用所述第三损失函数训练所述第三预测模型,所述第一预测模型用于预测字符的位置,所述第二预测模型用于预测字符的类别,所述第三预测模型用于预测字符间连接关系。9.根据权利要求7或8所述的方法,其中,所述通过所述字符的位置预测值、类别预测值和字符间连接关系预测值,以及所述待训练图片的字符的位置真值、类别真值和字符间连接关系真值,对所述待训练模型进行训练,包括:确定所述字符的位置预测值和所述字符的位置真值的交并比;基于所述交并比得到M*N矩阵,N为参考特征序列的个数,M为所述待训练图片包括的字符的个数;基于所述M*N矩阵,得到所述字符的位置预测值和所述字符的位置真值的匹配关系;基于所述匹配关系,将匹配到位置真值的参考特征序列对应的类别,设置为所述字符的类别;基于匹配到位置真值的参考特征序列,将属于同一个文本实例的连接关系的真值设置为1,将不在同一个文本实例的连接关系的真值设置为0,其中,1表示有连接关系,0表示无连接关系。10.一种文本识别装置,包括:第一获取模块,用于获取目标图片的目标特征;第二获取模块,用于获取N个参考特征序列,N为正整数;第一确定模块,用于基...
【专利技术属性】
技术研发人员:吕鹏原,章成全,姚锟,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。