【技术实现步骤摘要】
字符识别方法、装置及计算机可读存储介质
本专利技术涉及人工智能
,尤其涉及一种基于深度学习的字符识别方法、装置及计算机可读存储介质。
技术介绍
目前基于深度学习的图像识别OCR对于相近的字符识别容易出现误识别,如O和0,I和L等,一个字段中只要有一个字符识别错误,所述字段就会识别失败,大大影响准确率,同时给后期人工校验带来了极大地不便,影响工作效率。
技术实现思路
本专利技术提供一种字符识别方法、装置及计算机可读存储介质,其主要目的在于当用户在进行字符识别时,给用户呈现出精准的识别结果。为实现上述目的,本专利技术提供的一种字符识别方法,包括:获取结构化表单文本集,通过光学字符识别方法将所述结构化表单文本集进行字符提取,得到字符集;对所述结构化表单文本集进行预处理操作,得到目标文本集,其中,所述预处理操作包括分词、编码以及归一化;对所述目标文本集建立字典树,得到目标字串集;利用最小编辑距离算法将所述字符集与所述目标字串集进行一一匹配,得到相似字符表;接收 ...
【技术保护点】
1.一种字符识别方法,其特征在于,所述方法包括:/n获取结构化表单文本集,通过光学字符识别方法将所述结构化表单文本集进行字符提取,得到字符集;/n对所述结构化表单文本集进行预处理操作,得到目标文本集,其中,所述预处理操作包括分词、编码以及归一化;/n对所述目标文本集建立字典树,得到目标字串集;/n利用最小编辑距离算法将所述字符集与所述目标字串集进行一一匹配,得到相似字符表;/n接收待处理的结构化表单文本,根据所述相似字符表,与所述待处理的结构化表单文本中提取出来的字符进行匹配,输出与所述提取出来的字符匹配度最高的字符,完成所述待处理的结构化表单文本的字符识别。/n
【技术特征摘要】
1.一种字符识别方法,其特征在于,所述方法包括:
获取结构化表单文本集,通过光学字符识别方法将所述结构化表单文本集进行字符提取,得到字符集;
对所述结构化表单文本集进行预处理操作,得到目标文本集,其中,所述预处理操作包括分词、编码以及归一化;
对所述目标文本集建立字典树,得到目标字串集;
利用最小编辑距离算法将所述字符集与所述目标字串集进行一一匹配,得到相似字符表;
接收待处理的结构化表单文本,根据所述相似字符表,与所述待处理的结构化表单文本中提取出来的字符进行匹配,输出与所述提取出来的字符匹配度最高的字符,完成所述待处理的结构化表单文本的字符识别。
2.如权利要求1所述的字符识别方法,其特征在于,所述对所述结构化表单文本集进行预处理操作,得到目标文本集,包括:
利用自然语言处理技术对所述结构化表单文本集进行分词操作,得到所述结构化表单文本集的字串集,通过编码技术将所述字串集转换成数值形式,对编码后的所述字串集进行归一化处理,得到所述目标文本集。
3.如权利要求1所述的字符识别方法,其特征在于,所述对所述目标文本集建立字典树,得到目标字串集,包括:
预设所述目标文本集中的任意一个字串作为所述目标文本集的根;
筛选出所述目标文本集中字串与所述根为预设距离长度的字串,得到节点字串集,并建立所述根的子节点;
根据所述根与所述根的子节点对所述目标文本集的字串进行距离长度循环遍历计算,得到所述字典树的各个节点,从而得到所述目标字串集。
4.如权利要求1所述的字符识别方法,其特征在于,所述利用最小编辑距离算法将所述字符集与所述目标字串集进行一一匹配,得到相似字符表,包括:
预设一个编辑函数edit[i][j],其中,所述编辑函数edit[i][j]表示字符集长度为i的字符到目标字串集长度为j的字串的距离长度;
利用预设的动态规划公式计算出所述编辑函数edit[i][j]的值,并根据所述编辑函数edit[i][j]的值得到所述相似字符表。
5.如权利要求4所述的字符识别方法,其特征在于,所述利用预设的动态规划公式计算出所述编辑函数edit[i][j]的值,包括:
当i=0且j=0时,所述edit[i][j]=0;
当i=0且j>0,所述edit[i][j]=j;
当i>0且j=0,所述edit[i][j]=i;
当i≥1且j≥1,所述edit[i][j]==min{edit[i-1][j]+1,edit[i][j-1]+1,edit[i-1][j-1]+...
【专利技术属性】
技术研发人员:陈少琼,卢宁,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。