文本纠错模型训练、文本纠错方法及相关装置制造方法及图纸

技术编号:27457099 阅读:22 留言:0更新日期:2021-02-25 05:01
本发明专利技术实施例提供了一种文本纠错模型训练、文本纠错方法及相关装置,文本纠错模型训练方法包括:利用文本纠错模型获取噪声文本;获取噪声单词的噪声单词特征,噪声单词特征包括噪声单词字母依赖信息以及噪声文本的单词依赖信息;根据噪声单词特征获取各个训练可能预测单词及其训练单词预测概率,根据各个训练单词预测概率和与噪声单词对应的准确单词的单词准确概率,获取对应的单词相似度;根据各个单词相似度获取文本相似度,根据文本相似度对文本纠错模型的参数进行调整,直至所得到的文本相似度满足相似度阈值,结束文本纠错模型的训练。本发明专利技术实施例所提供的文本纠错模型训练、文本纠错方法及相关装置,可以对文本的纠错效果。错效果。错效果。

【技术实现步骤摘要】
文本纠错模型训练、文本纠错方法及相关装置


[0001]本专利技术实施例涉及计算机领域,尤其涉及一种文本纠错模型训练、文本纠错方法及相关装置。

技术介绍

[0002]随着人工智能技术的发展,自然语言处理技术的应用也越来越广泛。
[0003]然而,当自然语言处理系统处理带有噪声的文本时,其处理性能的下降非常明显,比如:垃圾邮件识别系统,通过精心设计的手段,比如:音近字、字母顺序改变、字母简单替换等,来绕过垃圾邮件识别系统的自动识别;或者对于需要对文本进行进一步处理的系统,也需要对带有噪声的文本进行提前纠错处理。
[0004]然而,现有技术中,对噪声文本的纠错识别效果较差。
[0005]因此,如何提高对文本的纠错效果,就成为本领域技术人员亟需解决的技术问题。

技术实现思路

[0006]本专利技术实施例提供一种文本纠错模型训练、文本纠错方法及相关装置,以提高对文本的纠错效果。
[0007]为解决上述问题,本专利技术实施例提供一种文本纠错模型训练方法,包括:利用文本纠错模型获取噪声文本,所述噪声文本包括噪声单词;对各个所述噪声单词执行以下操作:获取所述噪声单词的噪声单词特征,其中,所述噪声单词特征包括所述噪声单词的各个噪声字母的字母依赖信息以及所述噪声文本的各个噪声单词的单词依赖信息;根据所述噪声单词特征获取各个训练可能预测单词和各个训练可能预测单词的训练单词预测概率,根据各个所述训练单词预测概率和与所述噪声单词对应的准确单词的单词准确概率,获取对应的单词相似度;根据所述单词相似度对所述文本纠错模型的参数进行调整,直至所得到的单词相似度满足相似度阈值,结束所述文本纠错模型的训练。
[0008]当获取所述噪声文本的各个所述单词相似度时,根据各个所述单词相似度获取文本相似度,根据所述文本相似度对所述文本纠错模型的参数进行调整,直至所得到的文本相似度满足相似度阈值,结束所述文本纠错模型的训练。
[0009]为解决上述问题,本专利技术实施例提供一种文本纠错方法,包括:利用如前述任一项所述的文本纠错模型训练方法训练得到的文本纠错模型获取待纠错文本,所述待纠错文本包括待纠错单词;获取所述待纠错文本的各个待纠错单词特征,所述待纠错单词特征包括所述待纠错单词的各个待纠错字母的字母依赖信息以及所述待纠错文本的各个待纠错单词的单词依赖信息;根据各个所述待纠错单词特征获取各个预测单词,得到纠错后文本。
[0010]为解决上述问题,本专利技术实施例提供一种文本纠错模型训练装置,包括:噪声文本获取单元,适于利用文本纠错模型获取噪声文本,所述噪声文本包括噪声单词;相似度获取单元,适于对各个所述噪声单词执行以下操作:获取所述噪声单词的噪声单词特征,其中,所述噪声单词特征包括所述噪声单词的各个噪声字母的字母依赖信息以及所述噪声文本的各个噪声单词的单词依赖信息;根据所述噪声单词特征获取各个训练可能预测单词和各个训练可能预测单词的训练单词预测概率向量,根据所述训练单词预测概率向量和与所述噪声单词对应的准确单词的单词准确概率向量,获取对应的单词相似度;文本纠错模型获取单元,适于当获取所述噪声文本的各个所述单词相似度时,根据各个所述单词相似度获取文本相似度,根据所述文本相似度对所述文本纠错模型的参数进行调整,直至所得到的文本相似度满足相似度阈值,结束所述文本纠错模型的训练。
[0011]为解决上述问题,本专利技术实施例提供一种文本纠错装置,包括:待纠错文本获取单元,适于利用如前述所述的文本纠错模型训练方法训练得到的文本纠错模型获取待纠错文本,所述待纠错文本包括待纠错单词;待纠错单词特征获取单元,适于获取所述待纠错文本的各个待纠错单词特征,所述待纠错单词特征包括所述待纠错单词的各个待纠错字母的字母依赖信息以及所述待纠错文本的各个待纠错单词的单词依赖信息;纠错后文本获取单元,适于根据各个所述纠错单词特征获取各个预测单词,得到纠错后文本。
[0012]为解决上述问题,本专利技术实施例提供一种存储介质,所述存储介质存储有适于文本纠错模型训练的程序,以实现如前述任一项所述的文本纠错模型训练方法,或者所述存储介质存储有适于文本纠错的程序,以实现如前述任一项所述的文本纠错方法。
[0013]为解决上述问题,本专利技术实施例提供一种设备,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行如前述任一项所述的文本纠错模型训练方法或者如前述任一项所述的文本纠错方法。
[0014]与现有技术相比,本专利技术的技术方案具有以下优点:本专利技术实施例所提供的文本纠错模型训练、文本纠错方法及相关装置,其中,文本纠错模型训练方法,利用文本纠错模型获取噪声文本,再对噪声文本的各个噪声单词执行单词相似度的获取,然后利用各个单词相似度获取文本相似度,并基于文本相似度实现对文本纠错模型的参数调整,得到训练完成的文本纠错模型,并且单词相似度的获取时,首先获取所述噪声单词的噪声单词特征,噪声单词特征中不仅包括了噪声单词的各个噪声字母的字母依赖信息,还包括了所述噪声文本的各个噪声单词的单词依赖信息,然后根据噪声单词特征获取各个训练可能预测单词和各个训练可能预测单词的训练单词预测概率向量,再结合与所述噪声单词对应的准确单词的单词准确概率向量,实现单词相似度的获取。这样,本专利技术实施例所提供的文本纠错模型训练方法,在进行利用待训练文本纠错模型进行单词的预测时,不仅基于一个噪声单词中噪声字母之间的依赖信息,还基于噪声文本中噪声单词之间的依赖信息,从而增多了单词预测时所使用的信息,可以提高对于文本纠错模型训练的准确性,进而提高利用训练完成后的文本纠错模型进行文本纠错的准确性,即提高对文
本的纠错效果。
[0015]可选方案中,本专利技术实施例所提供的文本纠错模型训练方法,还包括获取所述噪声单词的各个噪声字母的噪声字母特征;根据所述噪声单词的各个所述噪声字母特征以及与所述噪声单词对应的准确单词,获取所述噪声字母特征的各个可能预测字母和各个可能预测字母的字母预测概率向量,根据各个字母预测概率向量和与所述噪声字母对应的准确字母的字母准确概率向量,获取字母相似度;当获取所述噪声文本的各个所述字母相似度和各个所述单词相似度时,根据各个所述字母相似度和各个所述单词相似度获取文本相似度。可见,本专利技术实施例所提供的文本纠错模型训练方法,在进行文本相似度获取时,不仅进行单词级别的预测,进而获取单词级别的单词相似度,而且进行字母级别的预测,进而获取字母级别的相似度,并且单词相似度和字母相似度均作为进行文本纠错模型参数调整的依据,和字母级别的预测,获取单词不仅利用噪声单词预测的单词相似度,而且利用噪声单词的噪声字母预测的字母相似度,可以进一步提高对于文本纠错模型训练的准确性,进而进一步提高利用训练完成后的文本纠错模型进行文本纠错的准确性。
附图说明
[0016]图1是本专利技术实施例所提供的文本纠错模型训练方法的一流程示意图;图2是本专利技术实施例所提供的文本纠错模型训练方法的一模块结构示意图;图3为本专利技术实施例所提供的文本纠错模型训练方法的噪声单词特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本纠错模型训练方法,其特征在于,包括:利用文本纠错模型获取噪声文本,所述噪声文本包括噪声单词;对各个所述噪声单词执行以下操作:获取所述噪声单词的噪声单词特征,其中,所述噪声单词特征包括所述噪声单词的各个噪声字母的字母依赖信息,以及所述噪声文本的各个噪声单词的单词依赖信息;根据所述噪声单词特征获取各个训练可能预测单词和各个训练可能预测单词的训练单词预测概率,根据各个所述训练单词预测概率和与所述噪声单词对应的准确单词的单词准确概率,获取对应的单词相似度;当获取所述噪声文本的各个所述单词相似度时,根据各个所述单词相似度获取文本相似度,根据所述文本相似度对所述文本纠错模型的参数进行调整,直至所得到的文本相似度满足相似度阈值,结束所述文本纠错模型的训练。2.如权利要求1所述的文本纠错模型训练方法,其特征在于,所述对各个所述噪声单词执行以下操作的步骤还包括:获取所述噪声单词的各个噪声字母的噪声字母特征;根据所述噪声单词的各个所述噪声字母特征以及与所述噪声单词对应的准确单词,获取所述噪声字母特征的各个可能预测字母和各个可能预测字母的字母预测概率向量,根据各个字母预测概率向量和与所述噪声字母对应的准确字母的字母准确概率向量,获取字母相似度;所述当获取所述噪声文本的各个所述单词相似度时,根据各个所述单词相似度获取文本相似度的步骤包括:当获取所述噪声文本的各个所述字母相似度和各个所述单词相似度时,根据各个所述字母相似度和各个所述单词相似度获取文本相似度。3.如权利要求2所述的文本纠错模型训练方法,其特征在于,所述获取所述噪声单词的噪声单词特征的步骤包括:获取所述噪声文本的各个所述噪声单词的初始噪声单词特征,所述初始噪声单词特征包括所述噪声单词的各个噪声字母的字母依赖信息;根据各个所述噪声单词的初始噪声单词特征的序列获取各个所述噪声单词的所述噪声单词特征,所述噪声单词特征包括所述噪声单词的各个噪声字母的字母依赖信息以及所述噪声文本的各个噪声单词的单词依赖信息。4.如权利要求2所述的文本纠错模型训练方法,其特征在于,所述噪声文本的各个噪声单词后设置有单词结束符;所述获取所述噪声单词的各个噪声字母的噪声字母特征的步骤包括:按照所述噪声单词的排序获取噪声单词的各个噪声字母,并根据各个噪声字母获取噪声字母特征序列,直至获取到所述单词结束符;所述根据所述噪声字母的噪声字母特征以及与所述噪声字母的噪声单词对应的准确单词,获取所述噪声字母特征的各个可能预测字母和各个可能预测字母的字母预测概率向量的步骤包括:当获取到所述单词结束符时,根据所述噪声单词的各个噪声字母特征以及与所述噪声字母的噪声单词对应的准确单词,获取所述噪声字母特征的各个可能预测字母和各个可能
预测字母的字母预测概率向量。5.如权利要求4所述的文本纠错模型训练方法,其特征在于,所述获取所述噪声文本的各个所述噪声单词的初始噪声单词特征的步骤包括:当获取到所述单词结束符时,得到所述单词结束符之前的噪声单词,并获取所述噪声单词的初始噪声单词特征,直至得到各个所述噪声单词的初始噪声单词特征。6.如权利要求2所述的文本纠错模型训练方法,其特征在于,所述获取所述噪声单词的各个噪声字母的噪声字母特征的步骤包括利用多头注意力机制编码模块获取所述噪声单词的各个噪声字母的噪声字母特征。7.如权利要求2所述的文本纠错模型训练方法,其特征在于,所述根据各个所述字母相似度和各个所述单词相似度获取文本相似度的...

【专利技术属性】
技术研发人员:许国伟丁文彪刘子韬
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1