【技术实现步骤摘要】
文本识别方法、装置以及存储介质
本公开涉及计算机
,尤其涉及一种文本识别方法、装置以及存储介质。
技术介绍
原始资料等的图片文字是不能够直接复制和编辑的,需要对其进行识别,如果无法识别则需要人工录入,但人工录入工程浩大,耗时费力。文字识别技术在虚拟现实、人机交互、票据识别、工业自动化等领域中都有广泛的应用,例如,光学字符识别(OCR)技术等,但是现有的文字识别技术的识别率不高。因此,需要一种新的关于文本识别的技术方案。
技术实现思路
有鉴于此,本公开要解决的一个技术问题是提供一种文本识别方法、装置以及存储介质。根据本公开的一个方面,提供一种文本识别方法,包括:对包含待识别字符的原始图像进行字符识别,获得字符序列;判断字符序列中的字符的识别置信度是否小于预设的置信度阈值;如果是,则确定此字符为未识别字符,基于所述字符序列以及所述未识别字符生成待识别词向量;在词向量库中获得与所述待识别词向量相匹配的相似词向量,基于所述相似词向量确定所述未识别字符。可选地,对所述原始图像进行预处理,对经过 ...
【技术保护点】
1.一种文本识别方法,包括:/n对包含待识别字符的原始图像进行字符识别,获得字符序列;/n判断字符序列中的字符的识别置信度是否小于预设的置信度阈值;/n如果是,则确定此字符为未识别字符,基于所述字符序列以及所述未识别字符生成待识别词向量;/n在词向量库中获得与所述待识别词向量相匹配的相似词向量,基于所述相似词向量确定所述未识别字符。/n
【技术特征摘要】
1.一种文本识别方法,包括:
对包含待识别字符的原始图像进行字符识别,获得字符序列;
判断字符序列中的字符的识别置信度是否小于预设的置信度阈值;
如果是,则确定此字符为未识别字符,基于所述字符序列以及所述未识别字符生成待识别词向量;
在词向量库中获得与所述待识别词向量相匹配的相似词向量,基于所述相似词向量确定所述未识别字符。
2.如权利要求1所述的方法,还包括:
对所述原始图像进行预处理,对经过预处理后的原始图像进行字符识别;其中,经过预处理后的原始图像包括:高反差图像。
3.如权利要求2所述的方法,所述对原始图像进行预处理包括:
对所述原始图像进行灰度化处理;
对进行了灰度化处理的原始图像进行二值化处理,并与所述原始图像的复制图进行光叠加处理,获得所述高反差图像;
其中,所述二值化处理包括:高斯模糊处理、反色处理和不透明度处理。
4.如权利要求2所述的方法,还包括:
生成与进行了预处理的所述原始图像相对应的多个像素矩阵;
对所述多个像素矩阵进行特征提取,获得多个特征图;
对所述多个特征图进行字符识别,获得所述字符序列。
5.如权利要求4所述的方法,还包括:
对每个特征图进行字符识别,确定与所述特征图的当前特征相对应的字符,并确定此字符的识别置信度;
基于与所述特征图的当前特征相对应的字符生成所述字符序列。
6.如权利要求5所述的方法,还包括:
如果与所述未识别字符相对应的所述当前特征对应多个相似字符,则对所述字符序列进行分词处理,获得包括此未识别字符的识别目标词;
将所述识别目标词转换为所述待识别词向量,获得所述待识别词向量与所述词向量库中的词向量的相似度;
在所述词向量库中获得具有最高相似度的词向量作为所述相似词向量;
基于与所述相似词向量对应的识别参考词确定所述未识别字符。
7.如权利要求6所述的方法,所述对所述字符序列进行分词处理、获得包括此未识别字符的识别目标词包括:
确定所述特征图中与所述未识别字符相对应的当前特征的上一个特征对应的上一个识别字符;
根据分词的结果生成包括所述识别字符和所述未识别字符的所述识别目标词。
8.如权利要求7所述的方法,所述基于所述相似词向量对应的识别参考词确定所述未识别字符包括:
从所述识别参考词中获得所述识别字符的上下文字符;
将所述未识别字符确定为所述多个相似字符中与所述上下文字符相匹配的相似字符。
9.如权利要求8所述的方法,还包括:
在确定所述未识别字符之后,将所述识别目标词中的所述未识别字符替换为所述与所述上下文字符相匹配的相似字符,并将所述待识别词向量和所述识别目标词添加在所述词向量库中。
10.如权利要求6所述的方法,还包括:
计算所述待识别词向量与所述词向量库中的词向量之间的距离,根据距离确定所述相似度;其中,所述距离包括:欧式距离。
11.一种文本识别装置,包括:
文字识别模块,用于对包含待识别字符的原始图像进行字符识别,获得字符序列;
校正判断模块,用于判断字符序列中的字符的识别置信度是否小于预设的置信度阈值;
文字校正模块,用于如果是,则...
【专利技术属性】
技术研发人员:邱芸,沈雷,刘孝颂,王懿,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。