文本纠错方法、装置、设备以及存储介质制造方法及图纸

技术编号:28787922 阅读:40 留言:0更新日期:2021-06-09 11:23
本申请公开了文本纠错方法、装置、设备以及存储介质,涉及云计算、自然语言处理领域。具体实现方案为:接收目标文本;利用预先训练的文本纠错模型,对目标文本进行纠错,得到纠错文本;利用预先训练的分类模型,确定纠错文本的误纠概率;响应于确定误纠概率小于预设阈值,输出纠错文本。本实现方式可以提高文本纠错的正确率,降低误纠率,更贴近用户的真实诉求。求。求。

【技术实现步骤摘要】
文本纠错方法、装置、设备以及存储介质


[0001]本申请涉及计算机
,具体涉及云计算、自然语言处理领域,尤其涉及文本纠错方法、装置、设备以及存储介质。

技术介绍

[0002]文本纠错的目的是将文本中出现的错字、错词等错误纠正过来,改正成正确的字、词。文本纠错是希望可以实现将一个错误句子纠正成一个正确句子的功能。
[0003]因为在日常的客服对话系统,搜索系统等许多系统中,都需要用户输入文本或者输入语音再转换为文本,在得到文本信息后需要对文本进行处理,识别,完成对话,搜索等功能。如果文本本身存在错误那么对于下游的处理任务来说,会在很大程度上降低下游任务的准确率,召回率等等指标。所以通过文本纠错就可以对用户输入文本信息中的拼写错误等进行纠正,从而得到用户想表达的真实含义。
[0004]在工业落地场景上因为对并发以及处理速度有着很严格的要求,所以要求纠错算法的复杂度较低,任务处理时间较短。并且在满足性能要求的前提上,希望纠正的召回率较高,误纠(指将正确的字符纠正为错误字符)率较低,从而更贴近用户的真实诉求,为下游任务提供更加真实本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本纠错方法,包括:接收目标文本;利用预先训练的文本纠错模型,对所述目标文本进行纠错,得到纠错文本;利用预先训练的分类模型,确定所述纠错文本的误纠概率;响应于确定所述误纠概率小于预设阈值,输出所述纠错文本。2.根据权利要求1所述的方法,其中,所述文本纠错模型通过以下步骤得到:获取混淆文本集,所述混淆文本集包括多个正确文本以及对应的多个错误文本;将所述错误文本作为输入,将与输入的错误文本对应的正确文本作为期望输出,训练得到所述文本纠错模型。3.根据权利要求2所述的方法,其中,所述分类模型通过以下步骤得到:将所述正确文本的标签设置为第一预设值,将所述错误文本的标签设置为第二预设值;将所述混淆文本集中的文本作为输入,将输入文本的标签作为期望输出,训练得到所述分类模型。4.根据权利要求2所述的方法,其中,所述获取混淆文本集,包括:获取多个正确文本;对所述正确文本进行分词,得到多个词语;对所述多个词语进行替换,确定所述正确文本对应的错误文本,得到所述混淆文本集。5.根据权利要求4所述的方法,其中,所述对所述多个词语进行替换,确定所述正确文本对应的错误文本,包括:确定所述多个词语中的字数以及预设的字数与概率的对应关系,确定各词语的替换概率;根据所述替换概率从各词语中确定出目标词语,对所述目标词语中的字进行替换,确定所述错误文本。6.根据权利要求4或5所述的方法,其中,所述对所述多个词语进行替换,包括:确定所述多个词语中各字的替换字;利用所述替换字对所述多个词语进行替换。7.根据权利要求6所述的方法,其中,所述确定所述多个词语中各字的替换字,包括:将与所述多个词语中各字字音相近或字形相近的字作为替换字。8.根据权利要求1所述的方法,其中,所述方法还包括:响应于确定所述误纠概率大于或等于所述预设阈值,利用所述纠错文本以及所述目标文本再次训练所述文本纠错模型。9.一种文本纠错装置,包括:文本接收单元,被配置成接收目标文本;文本纠错单元,被配置成利用预先训练的文本纠错模型,对所述目标文本进行纠错,得到纠错文本;误纠判断单元,被配置成利用预先训练的分类模型,确定所述纠错文本的误纠概率;文本输出单元,被配置成响应于确定所述误纠概率小于预设阈值,输出所述纠错文本。10.根据权利要求9所述的装置,其中,所述装置还包括:
文本集获取单元,被...

【专利技术属性】
技术研发人员:李浩庞敏辉赵志新冯婧超
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1