文本信息处理方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:23085220 阅读:25 留言:0更新日期:2020-01-11 01:12
本申请实施例提供了一种文本信息处理方法、装置、存储介质和电子设备,所述方法包括:对待修正的文本识别结果进行分词处理,得到多个文本条目;将所述待修正的文本识别结果输入搜索引擎,得到至少一条搜索结果;将所述多个文本条目中的每个文本条目与该条搜索结果分别进行匹配,以得到该文本条目在所述该条搜索结果中的匹配结果;将所述多个文本条目中的每个文本条目对应的匹配结果进行拼接,以得到所述至少一条搜索结果中每条搜索结果的拼接结果,各条所述拼接结果的集合形成候选结果集;将所述待修正的文本识别结果与所述候选结果集中的各条拼接结果分别进行匹配,确定修正后的文本识别结果。以提高文本识别结果纠错的准确率。

Text information processing method, device, electronic equipment and readable storage medium

【技术实现步骤摘要】
文本信息处理方法、装置、电子设备及可读存储介质
本申请实施例涉及数据处理
,尤其涉及一种文本信息处理方法、装置、电子设备及可读存储介质。
技术介绍
随着社会经济的发展,目前越来越多的智能设备具备图片识别功能,用于将图像中的文本进行检测、提取和识别,转换为可编辑的文本,简化人们日常生活中的身份证、营业执照、票证以及银行卡等信息录入。但现有图像识别的相关技术中,由于存在以下情况:待识别图像中的文本具有生僻字或待识别图像不清晰,从而导致图像识别后的文本识别结果存在错误,降低了图像识别结果的准确率,因此,如何提高图像识别后的文本识别结果纠错的准确率成为本领域技术人员亟待解决的技术问题。
技术实现思路
本申请实施例提供一种文本信息处理方法、装置、电子设备及可读存储介质,以提高图像识别后的文本识别结果纠错的准确率。本申请实施例第一方面提供了一种文本信息处理方法,所述方法包括:对待修正的文本识别结果进行分词处理,得到多个文本条目;将所述待修正的文本识别结果输入搜索引擎,得到至少一条搜索结果;>针对所述至少一条搜本文档来自技高网...

【技术保护点】
1.一种文本信息处理方法,其特征在于,所述方法包括:/n对待修正的文本识别结果进行分词处理,得到多个文本条目;/n将所述待修正的文本识别结果输入搜索引擎,得到至少一条搜索结果;/n针对所述至少一条搜索结果中的每条搜索结果,将所述多个文本条目中的每个文本条目与该条搜索结果分别进行匹配,以得到该文本条目在所述该条搜索结果中的匹配结果;/n按照所述多个文本条目在所述待修正的文本识别结果中的条目顺序,将所述多个文本条目中的每个文本条目对应的匹配结果进行拼接,以得到所述至少一条搜索结果中每条搜索结果的拼接结果,各条所述拼接结果的集合形成候选结果集;/n将所述待修正的文本识别结果与所述候选结果集中的各条拼...

【技术特征摘要】
1.一种文本信息处理方法,其特征在于,所述方法包括:
对待修正的文本识别结果进行分词处理,得到多个文本条目;
将所述待修正的文本识别结果输入搜索引擎,得到至少一条搜索结果;
针对所述至少一条搜索结果中的每条搜索结果,将所述多个文本条目中的每个文本条目与该条搜索结果分别进行匹配,以得到该文本条目在所述该条搜索结果中的匹配结果;
按照所述多个文本条目在所述待修正的文本识别结果中的条目顺序,将所述多个文本条目中的每个文本条目对应的匹配结果进行拼接,以得到所述至少一条搜索结果中每条搜索结果的拼接结果,各条所述拼接结果的集合形成候选结果集;
将所述待修正的文本识别结果与所述候选结果集中的各条拼接结果分别进行匹配,确定修正后的文本识别结果。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获得所述待修正的文本识别结果的置信度;
对所述待修正的文本识别结果进行分词处理,包括:
在所述置信度小于第一阈值的情况下,对所述待修正的文本识别结果进行分词处理。


3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获得所述多个文本条目中每个文本条目的置信度;
将所述待修正的文本识别结果输入搜索引擎,包括:
在所述多个文本条目中每个文本条目的置信度均未超过各自对应的阈值的情况下,将所述待修正的文本识别结果输入搜索引擎。


4.根据权利要求1所述的方法,其特征在于,针对所述至少一条搜索结果中的每条搜索结果,将所述多个文本条目中的每个文本条目与该条搜索结果分别进行匹配,以得到该文本条目在所述该条搜索结果中的匹配结果,包括:
针对所述至少一条搜索结果中的每条搜索结果,提取该条搜索结果中的文本;
针对所述多个文本条目中的每个文本条目,分别确定该文本条目与该条搜索结果中的文本的编辑距离,并将编辑距离最小的文本确定为该文本条目在该条搜索结果中的匹配结果。


5.根据权利要求4所述的方法,其特征在于,针对所述至少一条搜索结果中的每条搜索结果,将所述多个文本条目中的每个文本条目与该条搜索结果分别进行匹配,以得到该文本条目在所述该条搜索结果中的匹配结果,包括:
针对所述多个文本条目中的每个文本条目:
在所述编辑距离小于第二阈值的情况下,将编辑距离最小的文本确定为该文本条目在该条搜索结果中的匹配结果;
在所述编辑距离不小于第二阈值的情况下,将该文本条目本身确定为该文本条目在该条搜索结果中的匹配结果。


6.根据权利要求4所述的方法,其特征在于,针对所述至少一条搜索结果中的每条搜索结果,将所述多个文本条目中的每个文本条目与该条搜索结果分别进行匹配,以得到该文本条目在所述该条搜索结果中的匹配结果,包括:
针对所述多个文本条目中的每个文本条目,该文本条目在当前条搜索结果中的匹配结果有多个的情况下:
针对该文本条目的每个匹配结果,在当前条搜索结果中的文本包含该文本条目之前的至少一个文本条目的条件下,计算该匹配结果与所述至少一个文本条目的字符串距离,将字符串距离最小的文本条目与所述该匹...

【专利技术属性】
技术研发人员:王雷张睿宋祺周锴
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1