一种文本识别方法和装置制造方法及图纸

技术编号:25186733 阅读:27 留言:0更新日期:2020-08-07 21:14
本发明专利技术实施例公开了一种文本识别方法和装置;本发明专利技术实施例获取待识别文本和待识别文本在所属业务平台所使用的字体后,在待识别文本中筛选出不属于预设文本字符库中的文本字符,得到特殊字符,并将特殊字符按照字体转换为图像,得到字符图像,采用图像识别模型对字符图像进行识别,以在预设文本字符库中筛选出与字符图像相似的候选文本字符,根据特殊字符在待识别文本的上下文信息,在候选文本字符中确定出特殊字符对应的目标文本字符,基于目标文本字符,对待识别文本进行识别;该方案可以提升在待识别文本识别出垃圾文本的准确率。

【技术实现步骤摘要】
一种文本识别方法和装置
本专利技术涉及通信
,具体涉及一种文本识别方法和装置。
技术介绍
近年来,随着互联网技术的飞速发展,互联网上的用户原创内容(UserGeneratedContent,UGC)也越来越多,尤其是文本内容。而文本内容又五花八门,质量参差不齐,为了净化互联网环境,需要识别出一些内容质量较差的垃圾文本,并对这些垃圾文本进行拦截,现有文本识别技术主要采用正则表达式和神经网络来识别文本内容。在对现有技术的研究和实践过程中,本专利技术的专利技术人发现对于现有的文本识别方法来说,一些垃圾文本中往往包含一些特殊的符号、字符和相近词等特殊字符,使得正则表达式和神经网络在对文本内容识别准确率大大降低,因此,就会导致在文本中识别出垃圾文本的准确率大大降低。
技术实现思路
本专利技术实施例提供一种文本识别方法和装置。可以提高在文本中识别出垃圾文本的准确率。一种文本识别方法,包括:获取待识别文本和所述待识别文本在所属业务平台所使用的字体,所述待识别文本包括多个文本字符;在所述待识别文本中筛选本文档来自技高网...

【技术保护点】
1.一种文本识别方法,其特征在于,包括:/n获取待识别文本和所述待识别文本在所属业务平台所使用的字体,所述待识别文本包括多个文本字符;/n在所述待识别文本中筛选出不属于预设文本字符库中的文本字符,得到特殊字符,并将所述特殊字符按照所述字体转换为图像,得到字符图像;/n采用图像识别模型对所述字符图像进行识别,以在所述预设文本字符库中筛选出与所述字符图像相似的候选文本字符,所述图像识别模型由多个字符图像样本训练而成,所述字符图像样本由预设文本字符库中的文本字符按照不同字体转换而成的图像;/n根据所述特殊字符在待识别文本的上下文信息,在所述候选文本字符中确定出所述特殊字符对应的目标文本字符;/n基于...

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:
获取待识别文本和所述待识别文本在所属业务平台所使用的字体,所述待识别文本包括多个文本字符;
在所述待识别文本中筛选出不属于预设文本字符库中的文本字符,得到特殊字符,并将所述特殊字符按照所述字体转换为图像,得到字符图像;
采用图像识别模型对所述字符图像进行识别,以在所述预设文本字符库中筛选出与所述字符图像相似的候选文本字符,所述图像识别模型由多个字符图像样本训练而成,所述字符图像样本由预设文本字符库中的文本字符按照不同字体转换而成的图像;
根据所述特殊字符在待识别文本的上下文信息,在所述候选文本字符中确定出所述特殊字符对应的目标文本字符;
基于所述目标文本字符,对所述待识别文本进行识别。


2.根据权利要求1所述的文本识别方法,其特征在于,所述采用图像识别模型对所述字符图像进行识别,以在所述预设文本字符库中筛选出与所述字符图像相似的候选文本字符,包括:
采用图像识别模型对所述字符图像进行多尺度的特征提取,得到不同尺度对应的局部特征信息;
将所述局部特征信息进行融合,得到所述字符图像的全局特征信息;
根据所述全局特征信息,在所述预设文本字符库中筛选出与所述字符图像相似的一个或多个候选文本字符。


3.根据权利要求2所述的文本识别方法,其特征在于,所述根据所述特殊字符在待识别文本的上下文信息,在所述候选文本字符中确定出所述特殊字符对应的目标文本字符,包括:
当筛选出的与所述字符图像相似的候选文本字符的数量为一个时,将所述候选文本字符作为所述特殊字符对应的目标文本字符;
当筛选出的与所述字符图像相似的候选文本字符的数量为多个时,根据所述特殊字符在待识别文本的上下文信息,在所述候选文本字符中确定出所述特殊字符对应的目标文本字符。


4.根据权利要求3所述的文本识别方法,其特征在于,所述根据所述特殊字符在待识别文本的上下文信息,在所述候选文本字符中确定出所述特殊字符对应的目标文本字符,包括:
根据所述特殊字符在待识别文本的上下文信息,在所述待识别文本中筛选出所述特殊字符的第一邻近文本字符;
确定所述第一邻近文本字符与所述候选文本字符的关联信息;
根据所述关联信息,在所述候选文本字符中确定出所述特殊字符对应的目标文本字符。


5.根据权利要求1所述文本识别方法,其特征在于,所述基于所述目标文本字符,对所述待识别文本进行识别,包括:
将所述待识别文本的文本字符中的特殊字符替换为所述目标文本字符,得到所述待识别文本的可识别文本字符,所述可识别文本字符可以通过所述预设文本字符库进行被识别;
对所述待识别文本字符的可识别文本字符进行特征提取,以得到所述待识别文本的文本特征;
根据所述待识别文本的文本特征,对所述待识别文本进行识别。


6.根据权利要求5所述的文本识别方法,其特征在于,所述对所述待识别文本字符的可识别文本字符进行特征提取,以得到所述待识别文本的文本特征,包括:
对所述待识别文本的可识别文本字符进行特征提取,得到所述可识别文本字符的文本特征;
对所述可识别文本字符的文本特征进行融合,以得到所述待识别文本的文本特征。


7.根据权利要求6所述的文本识别方法,其特征在于,所述对所述待识别文本的可识别文本字符进行特征提取,得到所述可识别文本字符的文本特征,包括:
获取所述可识别文本字符在所述待识别文本中的位置信息;
根据所述位置信息,在所述待识别文本中筛选出可识别文本字符的第二邻近文本字符;
对所述第二邻近文本字符进行特征提取,以得到所述可识别文本字符的文本特征。


8.根据权利要求7所述的文本识别方法,其特征在于,所述对所述第二邻近文本字符进行特征提取,以得到所述可识别文本字符的文本特征,包括:
对所述可识别文本字符进行特征提取,得到所述可识别文本字符的初始文本特征;
根据所述可识别文本字符的初始文本特征,确定所述第二邻近文本字符的文本特征;
基于所述第二邻近文本字符的文本特征,对...

【专利技术属性】
技术研发人员:王皓周宇超康斌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1