文本检错方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:27248328 阅读:24 留言:0更新日期:2021-02-04 12:23
一种文本检错方法、装置、计算机设备和存储介质,所述方法包括:获取待识别图片;从所述待识别图片中识别字符,以及确定各所述字符的字符位置信息;根据各所述字符位置信息对各所述字符进行版面复原,得到待检测文本;将所述待检测文本转换为对应的文本向量;将所述文本向量输入通过训练确定的文本检错模型,获取所述文本检错模型输出的所述待检测文本的文本检错结果。上述方法在对图片进行字符识别之后,基于字符的位置对字符进行版面复原,得到待检测的文本,然后对待检测文本进行向量化,基于向量化结果和文本检错模型确定待检测文本的文本检错结果;经过版面复原得到的待检测文本更加符合应用场景,有利于提高文本检错的准确率。准确率。准确率。

【技术实现步骤摘要】
文本检错方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,特别是涉及一种文本检错方法、装置、计算机设备和存储介质。

技术介绍

[0002]中文文字中存在大量的形近字和音似字,例如通过拼音输入或者ASR(Automatic Speech Recognition,自动语音识别)语音转录得到的文本中经常会存在大量的音似字错误;而通过手写/五笔输入或者OCR识别得到的文本中经常会存在大量的形似字错误。例如“活动推荐”可能会被转录为“活动推建”,“一百项合约”可能会被识别为“一百顶合约”等。同时,由不同形近字或音似字组成的相似实体词在单独来看可能都是一个合理的实体词,只有在特定的语境中才能判断其是否是正确的。因此,对于文本进行检错是非常有必要的。

技术实现思路

[0003]基于此,有必要针对上述技术问题,提供一种文本检错方法、装置、计算机设备和存储介质。
[0004]一种文本检错方法,所述方法包括:
[0005]获取待识别图片;
[0006]从所述待识别图片中识别字符,以及确定各所述字符的字符本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本检错方法,其特征在于,所述方法包括:获取待识别图片;从所述待识别图片中识别字符,以及确定各所述字符的字符位置信息;根据各所述字符位置信息对各所述字符进行版面复原,得到待检测文本;将所述待检测文本转换为对应的文本向量;将所述文本向量输入通过训练确定的文本检错模型,获取所述文本检错模型输出的所述待检测文本的文本检错结果。2.根据权利要求1所述的文本检错方法,其特征在于,在获取所述文本检错模型输出的所述待检测文本的文本检错结果之后,还包括:若根据所述文本检错结果确定所述待检测文本中包含错误字符,获取与所述待检测文本对应的正确语句候选文本;从所述正确语句候选文本中筛选出所述待检测文本的正确文本;用所述正确文本替换所述待检测文本,得到纠正后文本。3.根据权利要求1所述的文本检错方法,其特征在于,所述根据各所述字符位置信息对各所述字符进行版面复原,得到待检测文本,包括:根据各所述字符位置信息确定两两字符之间的位置关系;基于两两字符之间的位置关系,依次将相邻的字符组合得到所述待检测文本。4.根据权利要求1所述的文本检错方法,其特征在于,所述文本检错模型包括BERT序列标注模型;将所述文本向量输入通过训练确定的文本检错模型,获取所述文本检错模型输出的所述待检测文本的文本检错结果,包括:将所述文本向量输入通过训练确定的BERT序列标注模型,获取所述BERT序列标注模型输出的所述待检测文本的序列标注结果;根据所述序列标注结果确定所述待检测文本的文本检错结果。5.根据权利要求4所述的文本检错方法,其特征在于,所述BERT序列标注模型的训练过程包括步骤:获取样本文本以及所述样本文本对应的样本序列标签;所述样本文本...

【专利技术属性】
技术研发人员:章秦刘涵许泽柯蒲昊洪科元
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1