The invention relates to a character detection network training method, a character detection method and a character detector based on a limited attention model. The invention designs a character detector based on the depth neural network, adds attention model to the network structure to weigh the learned features, makes full use of the context information around the characters to assist the learning of character features, and designs a limited relationship model to encode the context information, taking into account the influence of different context information on the current features. The invention uses limited context information to improve the result of character detection. By incorporating appropriate context information, the performance of character detector can be improved to a large extent, which can generate strong resistance to changes in complex environment (light, occlusion, complex texture, etc.), reduce false alarms and missed alarms in the detection process, and provide preliminary recognition results Fruit.
【技术实现步骤摘要】
基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器
本专利技术属于信息
,具体涉及一种基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器。
技术介绍
从20世纪开始,人们就试图从图像中提取文字,最重要的一个代表就是光学字符识别技术(OpticalCharacterRecognition,OCR)的提出,它针对图像中的印刷体进行处理,以实现像素层次上的特征提取,从而对实现图像对文本的转换过程。进行了文本提取之后,该信息可进一步用于各种实际应用,如图像搜索,即时翻译,机器人导航和工业自动化。随着人们对文本识别要求的提高,传统的OCR已经无法满足目前的需求,人们迫切的需要能够针对自然场景中复杂背景情况下的文本进行检测识别的技术。目前的比较成熟的方法主要依靠于对场景图片进行连通域分析、采用滑动窗口的模式进行单字符识别以及基于锚点(Anchorbox)的检测方法。现有技术主要存在以下缺陷:1.传统的OCR技术只能处理文档图片。与文档中的文字不同,自然场景中的文本表现出更高的多样性和可变性。例如,场景文本的实例可以是不同的语言,颜色,字体,大小,方向和形状。此外,场景文本的宽高比和布局可能会有很大差异。2.基于连通域分析的方法会受到复杂背景图像的干扰。自然场景的背景几乎是不可预测的。可能存在与文本极其相似的模式(例如,树叶,交通标志,砖块,窗户和栅栏),或由异物引起的遮挡,这可能潜在地导致混淆和错误。3.采用滑动窗口以及使用锚点进行检测的方法会 ...
【技术保护点】
1.一种基于受限注意力模型的字符检测网络训练方法,其特征在于,包括以下步骤:/n1)将训练数据输入骨干网络进行特征提取;/n2)将提取的特征输入字符RPN和单词RPN,进行第一阶段的回归预测和分类预测,并计算损失函数;/n3)根据字符RPN的输出,通过注意力网络计算字符之间的关系权重;/n4)根据字符RPN和单词RPN的输出,计算用于限制字符关系的受限关系矩阵;/n5)将关系权重与受限关系矩阵按元素对位相乘,得到受限关系权重;/n6)将受限关系权重与根据字符RPN获得的字符特征进行加权,得到加权字符特征;/n7)对加权字符特征进行第二阶段的回归预测和分类预测,获得字符检测结果,并计算损失函数;/n8)迭代步骤1)~7)直到网络收敛,得到训练完成的字符检测网络。/n
【技术特征摘要】
1.一种基于受限注意力模型的字符检测网络训练方法,其特征在于,包括以下步骤:
1)将训练数据输入骨干网络进行特征提取;
2)将提取的特征输入字符RPN和单词RPN,进行第一阶段的回归预测和分类预测,并计算损失函数;
3)根据字符RPN的输出,通过注意力网络计算字符之间的关系权重;
4)根据字符RPN和单词RPN的输出,计算用于限制字符关系的受限关系矩阵;
5)将关系权重与受限关系矩阵按元素对位相乘,得到受限关系权重;
6)将受限关系权重与根据字符RPN获得的字符特征进行加权,得到加权字符特征;
7)对加权字符特征进行第二阶段的回归预测和分类预测,获得字符检测结果,并计算损失函数;
8)迭代步骤1)~7)直到网络收敛,得到训练完成的字符检测网络。
2.根据权利要求1所述的方法,其特征在于,所述字符RPN的输出为字符RoI和字符提案的预测分数Sc,所述单词RPN的输出为单词RoI和单词提案的预测分数Sw。
3.根据权利要求1所述的方法,其特征在于,所述关系权重的计算方法为:
其中,wmn表示关系权重,m,n表示字符RoI的索引,WK,WQ表示注意力网络中的权重参数,是提取到的字符特征,是两个字符RoI经过编码之后得到的特征,sofitmax表示归一化指数函数,dk表示投影之后的特征的维度,即和的维度。
4.根据权利要求1所述的方法,其特征在于,所述受限关系矩阵的计算步骤包括:
a)对单词RoI依据单词RPN模块得到的预测分数Sw进行排序并放入队列,对于队列中的每一项i,计算它与之后的任意一项j之间的交并比,若交并比大于阈值θIoU,则第j项被移除队列;
b)对队列中剩下的单词RoI取前K项;
c)用p表示步骤b)处理后的单词RoI的数量,q表示字符RoI的数量,新建矩阵其中表示实数域中p×q维的矩阵;
d)对于第m个单词RoI以及第n个字符RoI,计算其交并比,如果交并比大于0,则P[m,n]=True;
e)对于第k个字符RoI,找到向量P[:,k]为真值的索引r存储到rt中;对于rt中的每一个r,计...
【专利技术属性】
技术研发人员:王伟平,陈语地,周宇,杨东宝,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。