中文拼写检错纠错方法、装置、电子设备及存储介质制造方法及图纸

技术编号：35000239 阅读：25 留言：0更新日期：2022-09-21 14:49

本发明专利技术提供一种中文拼写检错纠错方法、装置、电子设备及存储介质，属于自然语言处理技术领域，该方法包括：将汉字输入序列输入至对比学习模型，得到对比学习模型输出的汉字输入序列中各个汉字对应的相似字向量；基于相似字向量，检测汉字输入序列中的错误汉字，获得错误汉字的位置和类型；对汉字输入序列进行编码，得到汉字输入序列对应的编码向量；基于相似字向量、错误汉字的位置和类型，以及编码向量，纠正汉字输入序列中的错误汉字，获得最优纠正文本。通过各个汉字的字音相似关系和字形相似关系，实现了汉字输入序列中错误汉字的检错和纠错，提升了复杂汉字相似错误的检测与纠正的准确率，提升了中文拼写纠错的纠正质量。提升了中文拼写纠错的纠正质量。提升了中文拼写纠错的纠正质量。

全部详细技术资料下载

【技术实现步骤摘要】
中文拼写检错纠错方法、装置、电子设备及存储介质

[0001]本专利技术涉及自然语言处理
，尤其涉及一种中文拼写检错纠错方法、装置、电子设备及存储介质。

技术介绍

[0002]中文拼写纠错是自然语言处理领域的一个新兴热点问题，其目标是识别出中文文本中的字词误用、字词乱序等拼写错误，并将含错文本修改为正确文本。
[0003]相关技术中，大部分关于中文拼写纠错的研究都集中于字音、字形等先验知识的融合上。通常的做法是使用编码器编码字音与字形，使用汉字语义、字音和字形信息共同检测文本中的拼写错误，并对拼写错误进行纠正。
[0004]然而，相关技术只是将字音和字形信息看作汉字的一种独立特征，融合过程中更多的是将字音和字形信息等先验知识用在检错端，在检错和纠错过程中均没有考虑不同汉字在字音和字形上的相似关系，使得在比较复杂的汉字相似错误识别场景下，难以高效地识别出错误，并且在错误字符的纠正过程中，难以对错误字符的解码候选做出高效选择。

技术实现思路

[0005]本专利技术提供一种中文拼写检错纠错方法、装置、电子设备及存储介质，用以解决现有技术中难以高效地识别出汉字相似错误和纠正错误的缺陷，实现了复杂汉字相似错误的检测与纠正。
[0006]本专利技术提供一种中文拼写检错纠错方法，包括：
[0007]将汉字输入序列输入至对比学习模型，得到所述对比学习模型输出的所述汉字输入序列中各个汉字对应的相似字向量；所述相似字向量包括音似向量和形似向量；所述音似向量用于表示各个汉字的字音相似关系...

【技术保护点】

【技术特征摘要】
1.一种中文拼写检错纠错方法，其特征在于，包括：将汉字输入序列输入至对比学习模型，得到所述对比学习模型输出的所述汉字输入序列中各个汉字对应的相似字向量；所述相似字向量包括音似向量和形似向量；所述音似向量用于表示各个汉字的字音相似关系；所述形似向量用于表示各个汉字的字形相似关系；所述对比学习模型是基于样本汉字三元组训练得到的；基于所述相似字向量，检测所述汉字输入序列中的错误汉字，获得所述错误汉字的位置和类型；对所述汉字输入序列进行编码，得到所述汉字输入序列对应的编码向量；基于所述相似字向量、所述错误汉字的位置和类型，以及所述编码向量，纠正所述汉字输入序列中的错误汉字，获得最优纠正文本。2.根据权利要求1所述的中文拼写检错纠错方法，其特征在于，所述基于所述相似字向量，检测所述汉字输入序列中的错误汉字，获得所述汉字输入序列中错误汉字的位置和类型，包括：对所述汉字输入序列中各个汉字的语义向量、音似向量、形似向量和所述汉字输入序列对应的全句向量进行拼接，得到拼接向量；基于所述拼接向量，计算各个汉字的音似门控值和形似门控值；基于所述音似门控值和所述形似门控值，确定所述汉字输入序列中错误汉字的位置和类型。3.根据权利要求2所述的中文拼写检错纠错方法，其特征在于，所述基于所述音似门控值和所述形似门控值，确定所述汉字输入序列中错误汉字的位置和类型，包括：将所述音似门控值和所述形似门控值分别作为所述音似向量和所述形似向量的权值；对所述语义向量、所述音似向量和所述形似向量进行加权求和，得到融合向量；基于所述融合向量，确定所述汉字输入序列中错误汉字的位置和类型。4.根据权利要求1所述的中文拼写检错纠错方法，其特征在于，所述基于所述相似字向量、所述汉字输入序列中错误汉字的位置和类型，以及所述编码向量，纠正所述汉字输入序列中的错误汉字，获得最优纠正文本，包括：基于所述错误汉字的位置和类型，对所述编码向量进行解码，计算得到所述错误汉字的前K个语义候选；基于所述错误汉字的位置和类型，确定所述错误汉字的音似向量和形似向量；基于所述K个语义候选、所述音似向量和所述形似向量，确定前M个相似候选；基于所述M个相似候选分别对应的向量、所述错误汉字对应的向量及所述错误汉字相邻位置的汉字对应的向量，确定最优路径参数；...

【专利技术属性】
技术研发人员：张家俊，李鑫，赵阳，宗成庆，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人