文本信息处理方法及装置制造方法及图纸

技术编号:23288897 阅读:53 留言:0更新日期:2020-02-08 18:44
本申请的实施例公开了文本信息处理方法及装置,涉及云计算领域。该方法的一具体实施方式包括:从包括待处理文本的图像中识别出待处理文本;将待处理文本输入预先训练的循环神经网络语言模型,识别待处理文本中的错别字;将待处理文本中的错别字输入预先训练的文本纠错模型,得到错别字对应的相似字;利用文本纠错模型,基于待处理文本的连贯性,确定相似字中与错别字对应的正确文字,采用正确文字替换错别字,得到待处理文本的纠错文本。本申请通过预先训练的循环神经网络语言模型识别错别字,通过预先训练的文本纠错模型得到错别字的正确文字,从而得到纠错文本,提高了识别结果的准确度。

Text information processing method and device

【技术实现步骤摘要】
文本信息处理方法及装置
本申请实施例涉及计算机
,具体涉及一种文本信息处理方法及装置。
技术介绍
随着计算机技术的发展,OCR(OpticalCharacterRecognition,光学字符识别)文字识别技术在各个领域被广泛应用。OCR文字识别技术能够将图片信息转换成文本信息,然后机器通过自然语言处理技术对文本进行语义分析和意图识别等处理。目前,OCR文字识别技术对于印刷体的文本识别已经非常成熟,准确度能够达到90%以上,但是,对于手写体文本的识别,现有的OCR文字识别技术准确度较低。现有技术中,对于OCR技术识别手写文本得到的识别结果的修正,通常通过技术人员人工来完成。
技术实现思路
本申请实施例提出了一种文本信息处理方法及装置。第一方面,本申请实施例提供了一种文本信息处理方法,其中,上述方法包括:从包括待处理文本的图像中识别出待处理文本;将待处理文本输入预先训练的循环神经网络语言模型,识别待处理文本中的错别字;将待处理文本中的错别字输入预先训练的文本纠错模型,得到错别字对应的相似字本文档来自技高网...

【技术保护点】
1.一种文本信息处理方法,其中,所述方法包括:/n从包括待处理文本的图像中识别出所述待处理文本;/n将所述待处理文本输入预先训练的循环神经网络语言模型,识别所述待处理文本中的错别字;/n将所述待处理文本中的错别字输入预先训练的文本纠错模型,得到所述错别字对应的相似字;/n利用所述文本纠错模型,基于所述待处理文本的连贯性,确定所述相似字中与所述错别字对应的正确文字,采用所述正确文字替换所述错别字,得到所述待处理文本的纠错文本。/n

【技术特征摘要】
1.一种文本信息处理方法,其中,所述方法包括:
从包括待处理文本的图像中识别出所述待处理文本;
将所述待处理文本输入预先训练的循环神经网络语言模型,识别所述待处理文本中的错别字;
将所述待处理文本中的错别字输入预先训练的文本纠错模型,得到所述错别字对应的相似字;
利用所述文本纠错模型,基于所述待处理文本的连贯性,确定所述相似字中与所述错别字对应的正确文字,采用所述正确文字替换所述错别字,得到所述待处理文本的纠错文本。


2.根据权利要求1所述的方法,其中,在所述利用所述文本纠错模型,基于所述待处理文本的连贯性,确定所述相似字中与所述错别字对应的正确文字,采用所述正确文字替换所述错别字,得到所述待处理文本的纠错文本之后,所述方法还包括:
将所述纠错文本输入预先训练的填充模型,根据上下文获取所述纠错文本缺失的内容,得到所述纠错文本的完整文本。


3.根据权利要求2所述的方法,其中,在所述将所述纠错文本输入预先训练的填充模型,根据上下文获取所述纠错文本缺失的内容,得到所述纠错文本的完整文本之后,所述方法还包括:
根据识别所述待处理文本时存储的所述待处理文本在所述图像中的位置信息,确定所述完整文本的显示位置。


4.根据权利要求1所述的方法,其中,所述预先训练的文本纠错模型包括:词库过滤模块、流畅度判定模块和连贯性判定模块;
所述利用所述文本纠错模型,基于所述待处理文本的连贯性,确定所述相似字中与所述错别字对应的正确文字,采用所述正确文字替换所述错别字,得到所述待处理文本的纠错文本,包括:
对于任意一个相似字,执行如下的判断步骤:
将该相似字输入所述词库过滤模块,替换所述待处理文本中对应的错别字,得到替换文本,并判断所述替换文本中含有所述相似字的词语是否与预设词库匹配;
响应于确定含有所述相似字的词语与预设词库匹配,通过所述流畅度判定模块得到待处理文本中含有所述词语的短语的流畅度,并根据所述流畅度筛选出候选词语,得到候选词文本;
将所述候选词文本输入所述连贯性判定模块,得到包括所述候选词语的句子的连贯性数值;
所述利用所述文本纠错模型,基于所述待处理文本的连贯性,确定所述错别字的正确文字,采用所述正确文字替换所述错别字,得到待处理文本的纠错文本,还包括:
根据各替换文本的连贯性数值,确定所述错别字的正确文字,采用所述正确文字替换所述错别字,得到所述纠错文本。


5.根据权利要求1所述的方法,其中,所述将所述待处理文本输入预先训练的循环神经网络语言模型,识别所述待处理文本中的错别字,包括:
通过所述预先训练的循环神经语言模型计算所述待处理文本中的单字的似然概率值,以及含有所述单字的句子的似然概率值;
响应于确定所述单字的似然概率值小于含有所述单字的句子的似然概率值,判定所述单字为错别字。


6.根据权利要求1所述的方法,其中,所述从包括待处理文本的图像中识别出所述待处理文本,包括:
根据预先选定的所述...

【专利技术属性】
技术研发人员:冯博豪陈兴波张小帅杨舰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1