文本检错方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:27248328 阅读:16 留言:0更新日期:2021-02-04 12:23
一种文本检错方法、装置、计算机设备和存储介质,所述方法包括:获取待识别图片;从所述待识别图片中识别字符,以及确定各所述字符的字符位置信息;根据各所述字符位置信息对各所述字符进行版面复原,得到待检测文本;将所述待检测文本转换为对应的文本向量;将所述文本向量输入通过训练确定的文本检错模型,获取所述文本检错模型输出的所述待检测文本的文本检错结果。上述方法在对图片进行字符识别之后,基于字符的位置对字符进行版面复原,得到待检测的文本,然后对待检测文本进行向量化,基于向量化结果和文本检错模型确定待检测文本的文本检错结果;经过版面复原得到的待检测文本更加符合应用场景,有利于提高文本检错的准确率。准确率。准确率。

【技术实现步骤摘要】
文本检错方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,特别是涉及一种文本检错方法、装置、计算机设备和存储介质。

技术介绍

[0002]中文文字中存在大量的形近字和音似字,例如通过拼音输入或者ASR(Automatic Speech Recognition,自动语音识别)语音转录得到的文本中经常会存在大量的音似字错误;而通过手写/五笔输入或者OCR识别得到的文本中经常会存在大量的形似字错误。例如“活动推荐”可能会被转录为“活动推建”,“一百项合约”可能会被识别为“一百顶合约”等。同时,由不同形近字或音似字组成的相似实体词在单独来看可能都是一个合理的实体词,只有在特定的语境中才能判断其是否是正确的。因此,对于文本进行检错是非常有必要的。

技术实现思路

[0003]基于此,有必要针对上述技术问题,提供一种文本检错方法、装置、计算机设备和存储介质。
[0004]一种文本检错方法,所述方法包括:
[0005]获取待识别图片;
[0006]从所述待识别图片中识别字符,以及确定各所述字符的字符位置信息;
[0007]根据各所述字符位置信息对各所述字符进行版面复原,得到待检测文本;
[0008]将所述待检测文本转换为对应的文本向量;
[0009]将所述文本向量输入通过训练确定的文本检错模型,获取所述文本检错模型输出的所述待检测文本的文本检错结果。
[0010]一种文本检错装置,所述装置包括:
[0011]图片获取模块,用于获取待识别图片;
[0012]字符识别模块,用于从所述待识别图片中识别字符,以及确定各所述字符的字符位置信息;
[0013]版面复原模块,用于根据各所述字符位置信息对各所述字符进行版面复原,得到待检测文本;
[0014]向量转换模块,用于将所述待检测文本转换为对应的文本向量;
[0015]文本检错模块,用于将所述文本向量输入通过训练确定的文本检错模型,获取所述文本检错模型输出的所述待检测文本的文本检错结果。
[0016]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0017]获取待识别图片;
[0018]从所述待识别图片中识别字符,以及确定各所述字符的字符位置信息;
[0019]根据各所述字符位置信息对各所述字符进行版面复原,得到待检测文本;
[0020]将所述待检测文本转换为对应的文本向量;
[0021]将所述文本向量输入通过训练确定的文本检错模型,获取所述文本检错模型输出的所述待检测文本的文本检错结果。
[0022]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0023]获取待识别图片;
[0024]从所述待识别图片中识别字符,以及确定各所述字符的字符位置信息;
[0025]根据各所述字符位置信息对各所述字符进行版面复原,得到待检测文本;
[0026]将所述待检测文本转换为对应的文本向量;
[0027]将所述文本向量输入通过训练确定的文本检错模型,获取所述文本检错模型输出的所述待检测文本的文本检错结果。
[0028]上述文本检错方法、装置、计算机设备和存储介质,在获取到待识别图片之后,从其中识别字符,并确定各字符的字符位置,然后根据字符位置对字符识别的结果进行版面复原,得到待检测文本;对待检测文本进行向量化操作,得到对应的待检测的文本向量,将文本向量输入到训练好的文本检错模型中,获取模型输出的待检测文本的文本检错结果。上述方法在对图片进行字符识别之后,基于字符的位置对字符进行版面复原,得到待检测的文本,然后对待检测文本进行向量化,基于向量化结果和文本检错模型确定待检测文本的文本检错结果;经过版面复原得到的待检测文本更加符合应用场景,有利于提高文本检错的准确率。
附图说明
[0029]图1为一个实施例中文本检错方法的应用环境图;
[0030]图2为一个实施例中文本检错方法的流程示意图;
[0031]图3为一个实施例中获取待检测文本的流程示意图;
[0032]图4为一个具体实施例中CRF对待检测文本输出的序列标签的示意图;
[0033]图5为一个实施例中BERT序列标注模型的训练过程;
[0034]图6为一个具体实施例中BERT模型的结构示意图;
[0035]图7为另一个实施例中文本检错方法的流程示意图;
[0036]图8为一个具体实施例中BERT-CRF模型的结构图;
[0037]图9为一个实施例中文本检错装置的结构框图;
[0038]图10为另一个实施例中文本检错装置的结构框图;
[0039]图11为一个实施例中计算机设备的内部结构图。
具体实施方式
[0040]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0041]为了下述各实施例的描述清楚简洁,首先给出相关技术的简要介绍:
[0042]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控
制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0043]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0044]机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
[0045]NLP(Natural Language Processing,自然语言处理)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
[0046]ASR(Automatic Speech Rec本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本检错方法,其特征在于,所述方法包括:获取待识别图片;从所述待识别图片中识别字符,以及确定各所述字符的字符位置信息;根据各所述字符位置信息对各所述字符进行版面复原,得到待检测文本;将所述待检测文本转换为对应的文本向量;将所述文本向量输入通过训练确定的文本检错模型,获取所述文本检错模型输出的所述待检测文本的文本检错结果。2.根据权利要求1所述的文本检错方法,其特征在于,在获取所述文本检错模型输出的所述待检测文本的文本检错结果之后,还包括:若根据所述文本检错结果确定所述待检测文本中包含错误字符,获取与所述待检测文本对应的正确语句候选文本;从所述正确语句候选文本中筛选出所述待检测文本的正确文本;用所述正确文本替换所述待检测文本,得到纠正后文本。3.根据权利要求1所述的文本检错方法,其特征在于,所述根据各所述字符位置信息对各所述字符进行版面复原,得到待检测文本,包括:根据各所述字符位置信息确定两两字符之间的位置关系;基于两两字符之间的位置关系,依次将相邻的字符组合得到所述待检测文本。4.根据权利要求1所述的文本检错方法,其特征在于,所述文本检错模型包括BERT序列标注模型;将所述文本向量输入通过训练确定的文本检错模型,获取所述文本检错模型输出的所述待检测文本的文本检错结果,包括:将所述文本向量输入通过训练确定的BERT序列标注模型,获取所述BERT序列标注模型输出的所述待检测文本的序列标注结果;根据所述序列标注结果确定所述待检测文本的文本检错结果。5.根据权利要求4所述的文本检错方法,其特征在于,所述BERT序列标注模型的训练过程包括步骤:获取样本文本以及所述样本文本对应的样本序列标签;所述样本文本...

【专利技术属性】
技术研发人员:章秦刘涵许泽柯蒲昊洪科元
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1