一种文本纠错方法和装置制造方法及图纸

技术编号:32566274 阅读:18 留言:0更新日期:2022-03-09 16:51
本申请实施例提供了一种文本纠错方法和装置,所述方法包括:获取待纠错文本;确定所述待纠错文本中各个词语的文本特征信息;确定所述各个词语的错误概率;根据所述词语的错误概率,对所述词语设置拼音特征信息;基于纠错模型根据所述词语的文本特征信息和所述词语的拼音特征信息,对所述待纠错文本中错误的词语进行纠错,从而限定纠错模型对错误的词语的召回集,从而可以提高纠错模型的精度。从而可以提高纠错模型的精度。从而可以提高纠错模型的精度。

【技术实现步骤摘要】
一种文本纠错方法和装置


[0001]本申请涉及自然语言处理
,特别是涉及一种文本纠错方法和一种文本纠错装置。

技术介绍

[0002]ASR(Automatic Speech Recognition,自动语音识别)是指把语音识别为文本的技术。由于语音直译的文本因用户口音、环境噪音、本身识别率的问题,会导致生成文本含有错误的字,使得句子难以理解,用户的体验不好,导致语音识别的结果难以正常的应用到下游任务中。
[0003]故需要使用自动纠错技术对语音识别结果进行机器自动纠错,自动纠正错误的词或字,让语音识别的句子更易读懂。

技术实现思路

[0004]鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种文本纠错方法和相应的一种文本纠错装置。
[0005]为了解决上述问题,本申请实施例公开了一种文本纠错方法,包括:
[0006]获取待纠错文本;
[0007]确定所述待纠错文本中各个词语的文本特征信息;
[0008]确定所述各个词语的错误概率;
[0009]根据所述词语的错误概率,对所述词语设置拼音特征信息;
[0010]基于纠错模型根据所述词语的文本特征信息和所述词语的拼音特征信息,对所述待纠错文本中错误的词语进行纠错。
[0011]可选地,所述根据所述词语的错误概率,对所述词语设置拼音特征信息,包括:
[0012]确定所述各个词语对应的拼音特征向量,以及针对所述各个词语生成对应的拼音掩码向量;r/>[0013]将所述词语对应的拼音特征向量乘以错误概率P,将所述拼音掩码向量乘以(1

P),相加得到所述词语的目标拼音向量,其中所述P的取值范围为0

100%。
[0014]可选地,所述确定所述待纠错文本中各个词语的文本特征信息,包括:
[0015]确定所述待纠错文本中各个词语的文本特征向量,以及针对所述各个词语生成对应的文本掩码向量;
[0016]将所述词语的文本特征向量乘以(1

P),将所述文本掩码向量乘以P,相加得到所述词语的目标文本向量。
[0017]可选地,所述基于纠错模型根据所述词语的文本特征信息和所述词语的拼音特征信息,对所述待纠错文本中错误的词语基于对应的拼音进行纠错,包括:
[0018]基于纠错模型根据所述各个词语的目标文本向量和目标拼音向量,对所述待纠错文本中错误的词语基于对应的拼音进行纠错。
[0019]可选地,所述确定所述各个词语的错误概率,包括:
[0020]基于检错模型根据所述各个词语的文本特征向量,确定所述各个词语的错误概率。
[0021]可选地,所述检错模型和所述纠错模型通过如下方式训练得到:
[0022]获取纠错语料训练文本;所述纠错语料训练文本包括错误文本和纠正文本;
[0023]确定所述错误文本对应的文本特征向量和所述错误文本的各个字对应的检错标签;
[0024]将所述错误文本对应的文本特征向量和所述错误文本的各个字对应的检错标签作为所述检错模型的输入,以及将所述错误文本的各个字发生错误的概率作为输出;
[0025]确定所述错误文本的文本特征向量、所述纠正文本的各个字对应的纠错标签和所述错误文本对应的目标拼音向量;
[0026]将所述错误文本的文本特征向量、所述纠正文本的各个字对应的纠错标签、所述错误文本的各个字发生错误的概率和所述错误文本对应的目标拼音向量作为输入,以及将所述错误文本的每个字对应的纠正词的概率作为输出;
[0027]根据所述检错模型的损失函数和所述纠错模型的损失函数,对所述检错模型和所述纠错模型进行联合训练。
[0028]本申请实施例还公开了一种文本纠错装置,包括:
[0029]文本获取模块,用于获取待纠错文本;
[0030]文本特征确定模块,用于确定所述待纠错文本中各个词语的文本特征信息;
[0031]概率确定模块,用于确定所述各个词语的错误概率;
[0032]拼音特征设置模块,用于根据所述词语的错误概率,对所述词语设置拼音特征信息;
[0033]纠错模块,用于基于纠错模型根据所述词语的文本特征信息和所述词语的拼音特征信息,对所述待纠错文本中错误的词语基于对应的拼音进行纠错。
[0034]可选地,所述拼音特征设置模块包括:
[0035]第一拼音向量确定子模块,用于确定所述各个词语对应的拼音特征向量,以及针对所述各个词语生成对应的拼音掩码向量;
[0036]第二拼音向量确定子模块,用于将所述词语对应的拼音特征向量乘以错误概率P,将所述拼音掩码向量乘以(1

P),相加得到所述词语的目标拼音向量,其中所述P的取值范围为0

100%。
[0037]可选地,所述文本特征确定模块包括:
[0038]第一文本向量确定子模块,用于确定所述待纠错文本中各个词语的文本特征向量,以及针对所述各个词语生成对应的文本掩码向量;
[0039]第二文本向量确定子模块,用于将所述词语的文本特征向量乘以(1

P),将所述文本掩码向量乘以P,相加得到所述词语的目标文本向量。
[0040]可选地,所述纠错模块包括:
[0041]模型纠错子模块,用于基于纠错模型根据所述各个词语的目标文本向量和目标拼音向量,对所述待纠错文本中错误的词语基于对应的拼音进行纠错。
[0042]可选地,所述概率确定模块包括:
[0043]错误概率确定子模块,用于基于检错模型根据所述各个词语的文本特征向量,确定所述各个词语的错误概率。
[0044]可选地,所述检错模型和所述纠错模型通过如下模块训练得到:
[0045]训练文本获取模块,用于获取纠错语料训练文本;所述纠错语料训练文本包括错误文本和纠正文本;
[0046]标签确定模块,用于确定所述错误文本对应的文本特征向量和所述错误文本的各个字对应的检错标签;
[0047]第一模型设置模块,用于将所述错误文本对应的文本特征向量和所述错误文本的各个字对应的检错标签作为所述检错模型的输入,以及将所述错误文本的各个字发生错误的概率作为输出;
[0048]参数确定模块,用于确定所述错误文本的文本特征向量、所述纠正文本的各个字对应的纠错标签和所述错误文本对应的目标拼音向量;
[0049]第二模型设置模块,用于将所述错误文本的文本特征向量、所述纠正文本的各个字对应的纠错标签、所述错误文本的各个字发生错误的概率和所述错误文本对应的目标拼音向量作为输入,以及将所述错误文本的每个字对应的纠正词的概率作为输出;
[0050]训练模块,用于根据所述检错模型的损失函数和所述纠错模型的损失函数,对所述检错模型和所述纠错模型进行联合训练。
[0051]本申请实施例还公开了一种电子设备,包括:
[00本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:获取待纠错文本;确定所述待纠错文本中各个词语的文本特征信息;确定所述各个词语的错误概率;根据所述词语的错误概率,对所述词语设置拼音特征信息;基于纠错模型根据所述词语的文本特征信息和所述词语的拼音特征信息,对所述待纠错文本中错误的词语进行纠错。2.根据权利要求1所述的方法,其特征在于,所述根据所述词语的错误概率,对所述词语设置拼音特征信息,包括:确定所述各个词语对应的拼音特征向量,以及针对所述各个词语生成对应的拼音掩码向量;将所述词语对应的拼音特征向量乘以错误概率P,将所述拼音掩码向量乘以(1

P),相加得到所述词语的目标拼音向量,其中所述P的取值范围为0

100%。3.根据权利要求2所述的方法,其特征在于,所述确定所述待纠错文本中各个词语的文本特征信息,包括:确定所述待纠错文本中各个词语的文本特征向量,以及针对所述各个词语生成对应的文本掩码向量;将所述词语的文本特征向量乘以(1

P),将所述文本掩码向量乘以P,相加得到所述词语的目标文本向量。4.根据权利要求3所述的方法,其特征在于,所述基于纠错模型根据所述词语的文本特征信息和所述词语的拼音特征信息,对所述待纠错文本中错误的词语基于对应的拼音进行纠错,包括:基于纠错模型根据所述各个词语的目标文本向量和目标拼音向量,对所述待纠错文本中错误的词语基于对应的拼音进行纠错。5.根据权利要求3所述的方法,其特征在于,所述确定所述各个词语的错误概率,包括:基于检错模型根据所述各个词语的文本特征向量,确定所述各个词语的错误概率。6.根据权利要求4所述的方法,其特征在于,所述检错模型和所述纠错模型通过如下方式训练得到:获取纠错语料训练文本;所述纠错语料训练文本包括错误文本和纠正文本;确定所述错误文本对应的文本特征向量和所述错误文本的各个字对应的检错标签;将所述错误文本对应的文本特征向量和所述错误文本的各个字对应的检错标签作为所述检错模型的输入,以及将所述错误文本的各个字发生错误的概率作为输出;确定所述错误文本的文本特征向量、所述纠正文本的各个字对应的纠错标签和所述错误文本对应的目标拼音向量;将所述错误文本的文本特征向量、所述纠正文本的各个字对应的纠错标签、所述错误文本的各个字发生错误的概率和所述错误文本对应的目标拼音向量作为输入,以及将所述错误文本的每个字对应的纠正词的概率作为输出;根据所述检错模型的损失函数和所述纠错模型的损失函数,对所述检错模型和所述纠错模型进行联合训练。
7.一种文本纠错装置,其特征在于,包括:文本获取模块,用于获取待纠错文本;文本特征确定模块,用于确定所述待纠错文本中各个词语的文本特征信息;概率确定模块,用于确定所述各个词语的错误概率;拼音特征设置模块,用于根据所述词语的错误概率,对所述词语设置拼音特征信息;纠错模块,用于基于纠错模型根据所述词语的文本特征信息和所述词语的拼音特征信息,对所述待纠错文本中错误的词语基于对应的拼音进行纠错。8.根...

【专利技术属性】
技术研发人员:凡子威
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1