文本纠错和文本纠错模型的生成方法、装置、设备和介质制造方法及图纸

技术编号：32821917 阅读：10 留言：0更新日期：2022-03-26 20:19

本公开提供了文本纠错方法、装置、电子设备和存储介质，涉及人工智能技术领域中的自然语言处理和深度学习技术领域。具体实现方案为：获取待纠错文本，获取待纠错文本的拼音序列，将待纠错文本和拼音序列输入至文本纠错模型，以得到纠错后的已纠错文本，其中，文本纠错模型通过以下步骤得到已纠错文本：检测待纠错文本中的错字，确定拼音序列中错字对应的拼音，将拼音对应的拼音特征添加至错字的后面，以得到拼音文本，纠正拼音文本中的错字和拼音特征，以得到已纠错文本。本公开的文本纠错方法，通过将检测到的错字的拼音特征连接到错字后面进行纠错，可以处理变长纠错的问题，提高了纠错结果的准确度。了纠错结果的准确度。了纠错结果的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
文本纠错和文本纠错模型的生成方法、装置、设备和介质

[0001]本公开涉及人工智能
中的自然语言处理和深度学习
，尤其涉及一种文本纠错和文本纠错模型的生成方法、装置、设备和介质。

技术介绍

[0002]目前，业界对于中文语音识别结果的纠错通常采用非自回归模型。
[0003]但采用非自回归模型进行纠错的方式，无法处理变长纠错的问题，导致纠错结果的准确度较低。

技术实现思路

[0004]本公开提供了一种文本纠错和文本纠错模型的生成方法、装置、设备和介质。
[0005]根据第一方面，提供了一种文本纠错方法，包括：获取待纠错文本，获取所述待纠错文本的拼音序列，将所述待纠错文本和所述拼音序列输入至文本纠错模型，以得到纠错后的已纠错文本，其中，所述文本纠错模型通过以下步骤得到所述已纠错文本：检测所述待纠错文本中的错字，确定所述拼音序列中所述错字对应的拼音，将所述拼音对应的拼音特征添加至所述错字的后面，以得到拼音文本，纠正所述拼音文本中的所述错字和所述拼音特征，以得到所述已纠错文本。
[0006]根据第二方面，提供了一种文本纠错模型的生成方法，包括：获取样本文本、样本文本的样本拼音序列和样本文本的目标文本，将样本文本和样本拼音序列输入至待训练的文本纠错模型，以得到样本已纠错文本，其中，待训练的文本纠错模型通过以下步骤得到样本已纠错文本：检测样本文本中的样本错字，确定样本拼音序列中样本错字对应的样本拼音，将样本拼音对应的样本拼音特征添加至样本错字的后面，以得到样本拼音文本，纠正样本...

【技术保护点】

【技术特征摘要】
1.一种文本纠错方法，包括：获取待纠错文本；获取所述待纠错文本的拼音序列；以及将所述待纠错文本和所述拼音序列输入至文本纠错模型，以得到纠错后的已纠错文本，其中，所述文本纠错模型通过以下步骤得到所述已纠错文本：检测所述待纠错文本中的错字，确定所述拼音序列中所述错字对应的拼音，将所述拼音对应的拼音特征添加至所述错字的后面，以得到拼音文本，纠正所述拼音文本中的所述错字和所述拼音特征，以得到所述已纠错文本。2.根据权利要求1所述的文本纠错方法，其中，所述文本纠错模型通过以下步骤检测所述待纠错文本中的所述错字：对所述待纠错文本进行错字检测，以得到检错标注序列；以及根据所述检错标注序列确定所述待纠错文本中的所述错字。3.根据权利要求1所述的文本纠错方法，其中，所述文本纠错模型通过以下步骤纠正所述拼音文本中的所述错字和所述拼音特征，以得到所述已纠错文本：对所述拼音文本中的所述错字和所述拼音特征进行纠错，以得到候选纠错文本；以及对所述候选纠错文本进行去重处理，以得到所述已纠错文本。4.一种文本纠错模型的生成方法，包括：获取样本文本、所述样本文本的样本拼音序列和所述样本文本的目标文本；将所述样本文本和所述样本拼音序列输入至待训练的文本纠错模型，以得到样本已纠错文本，其中，所述待训练的文本纠错模型通过以下步骤得到所述样本已纠错文本：检测所述样本文本中的样本错字，确定所述样本拼音序列中所述样本错字对应的样本拼音，将所述样本拼音对应的样本拼音特征添加至所述样本错字的后面，以得到样本拼音文本，纠正所述样本拼音文本中的所述样本错字和所述样本拼音特征，以得到所述样本已纠错文本；根据所述样本文本、所述样本已纠错文本和所述目标文本生成第一损失值；以及根据所述第一损失值对所述待训练的文本纠错模型进行训练，以得到文本纠错模型。5.根据权利要求4所述的生成方法，其中，所述待训练的文本纠错模型通过以下步骤检测所述样本文本中的所述样本错字：对所述样本文本进行错字检测，以得到样本检错标注序列；以及根据所述样本检错标注序列确定所述样本文本中的所述错字。6.根据权利要求4所述的生成方法，其中，所述待训练的文本纠错模型通过以下步骤纠正所述样本拼音文本中的所述样本错字和所述样本拼音特征，以得到所述样本已纠错文本：对所述样本拼音文本中的所述样本错字和所述样本拼音特征进行纠错，以得到样本候选纠错文本；以及对所述样本候选纠错文本进行去重处理，以得到所述样本已纠错文本。7.根据权利要求4所述的生成方法，还包括：获取所述样本文本的目标拼音文本；其中，所述根据所述样本文本、所述样本已纠错文本和所述目标文本生成第一损失值，包括：
根据所述样本文本、所述样本拼音文本和所述目标拼音文本生成第二损失值；根据所述目标拼音文本、所述样本已纠错文本和所述目标文本生成第三损失值；以及根据所述第二损失值和所述第三损失值生成所述第一损失值。8.一种文本纠错装置，包括：第一获取模块，用于获取待纠错文本；第二获取模块，用于获取所述待纠错文本的拼音序列；以及第一纠错模块，用于将所述待纠错文本和所述拼音序列输入至文本纠错模型，以得到纠错后的已纠错文本，其中，所述文本纠错模型通过以下步骤得到所述已纠错文本：检测所述待纠错文本中的错字，确定所述拼音序列中所述错字对应的拼音，将所述拼音对应的拼音特征添加至所述错字的后面，以得到拼音文本，纠正所述拼音文本中的所述错字和所述拼音特征，以得到所述已纠错文本。9.根据权利要...

【专利技术属性】
技术研发人员：张睿卿，何中军，吴华，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人