中文拼写检错纠错方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35000239 阅读:25 留言:0更新日期:2022-09-21 14:49
本发明专利技术提供一种中文拼写检错纠错方法、装置、电子设备及存储介质,属于自然语言处理技术领域,该方法包括:将汉字输入序列输入至对比学习模型,得到对比学习模型输出的汉字输入序列中各个汉字对应的相似字向量;基于相似字向量,检测汉字输入序列中的错误汉字,获得错误汉字的位置和类型;对汉字输入序列进行编码,得到汉字输入序列对应的编码向量;基于相似字向量、错误汉字的位置和类型,以及编码向量,纠正汉字输入序列中的错误汉字,获得最优纠正文本。通过各个汉字的字音相似关系和字形相似关系,实现了汉字输入序列中错误汉字的检错和纠错,提升了复杂汉字相似错误的检测与纠正的准确率,提升了中文拼写纠错的纠正质量。提升了中文拼写纠错的纠正质量。提升了中文拼写纠错的纠正质量。

【技术实现步骤摘要】
中文拼写检错纠错方法、装置、电子设备及存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种中文拼写检错纠错方法、装置、电子设备及存储介质。

技术介绍

[0002]中文拼写纠错是自然语言处理领域的一个新兴热点问题,其目标是识别出中文文本中的字词误用、字词乱序等拼写错误,并将含错文本修改为正确文本。
[0003]相关技术中,大部分关于中文拼写纠错的研究都集中于字音、字形等先验知识的融合上。通常的做法是使用编码器编码字音与字形,使用汉字语义、字音和字形信息共同检测文本中的拼写错误,并对拼写错误进行纠正。
[0004]然而,相关技术只是将字音和字形信息看作汉字的一种独立特征,融合过程中更多的是将字音和字形信息等先验知识用在检错端,在检错和纠错过程中均没有考虑不同汉字在字音和字形上的相似关系,使得在比较复杂的汉字相似错误识别场景下,难以高效地识别出错误,并且在错误字符的纠正过程中,难以对错误字符的解码候选做出高效选择。

技术实现思路

[0005]本专利技术提供一种中文拼写检错纠错方法、装置、电子设备及存储介质,用以解决现有技术中难以高效地识别出汉字相似错误和纠正错误的缺陷,实现了复杂汉字相似错误的检测与纠正。
[0006]本专利技术提供一种中文拼写检错纠错方法,包括:
[0007]将汉字输入序列输入至对比学习模型,得到所述对比学习模型输出的所述汉字输入序列中各个汉字对应的相似字向量;所述相似字向量包括音似向量和形似向量;所述音似向量用于表示各个汉字的字音相似关系;所述形似向量用于表示各个汉字的字形相似关系;所述对比学习模型是基于样本汉字三元组训练得到的;
[0008]基于所述相似字向量,检测所述汉字输入序列中的错误汉字,获得所述错误汉字的位置和类型;
[0009]对所述汉字输入序列进行编码,得到所述汉字输入序列对应的编码向量;
[0010]基于所述相似字向量、所述错误汉字的位置和类型,以及所述编码向量,纠正所述汉字输入序列中的错误汉字,获得最优纠正文本。
[0011]根据本专利技术提供的一种中文拼写检错纠错方法,所述基于所述相似字向量,检测所述汉字输入序列中的错误汉字,获得所述汉字输入序列中错误汉字的位置和类型,包括:
[0012]对所述汉字输入序列中各个汉字的语义向量、音似向量、形似向量和所述汉字输入序列对应的全句向量进行拼接,得到拼接向量;
[0013]基于所述拼接向量,计算各个汉字的音似门控值和形似门控值;
[0014]基于所述音似门控值和所述形似门控值,确定所述汉字输入序列中错误汉字的位置和类型。
[0015]根据本专利技术提供的一种中文拼写检错纠错方法,所述基于所述音似门控值和所述形似门控值,确定所述汉字输入序列中错误汉字的位置和类型,包括:
[0016]将所述音似门控值和所述形似门控值分别作为所述音似向量和所述形似向量的权值;
[0017]对所述语义向量、所述音似向量和所述形似向量进行加权求和,得到融合向量;
[0018]基于所述融合向量,确定所述汉字输入序列中错误汉字的位置和类型。
[0019]根据本专利技术提供的一种中文拼写检错纠错方法,所述基于所述相似字向量、所述汉字输入序列中错误汉字的位置和类型,以及所述编码向量,纠正所述汉字输入序列中的错误汉字,获得最优纠正文本,包括:
[0020]基于所述错误汉字的位置和类型,对所述编码向量进行解码,计算得到所述错误汉字的前K个语义候选;
[0021]基于所述错误汉字的位置和类型,确定所述错误汉字的音似向量和形似向量;
[0022]基于所述K个语义候选、所述音似向量和所述形似向量,确定前M个相似候选;
[0023]基于所述M个相似候选分别对应的向量、所述错误汉字对应的向量及所述错误汉字相邻位置的汉字对应的向量,确定最优路径参数;
[0024]基于所述最优路径参数,确定最优纠正文本。
[0025]根据本专利技术提供的一种中文拼写检错纠错方法,所述基于所述K个语义候选、所述音似向量和所述形似向量,确定前M个相似候选,包括:
[0026]基于所述K个语义候选、所述音似向量和所述形似向量,计算所述K个语义候选分别与所述音似向量和所述形似向量之间的相似度;
[0027]对所述相似度进行排序,选取前M个相似度对应的相似候选。
[0028]根据本专利技术提供的一种中文拼写检错纠错方法,所述基于所述M个相似候选分别对应的向量、所述错误汉字对应的向量及所述错误汉字的相邻位置的汉字对应的向量,确定最优路径参数,包括:
[0029]基于所述M个相似候选分别对应的向量、所述错误汉字对应的向量及所述错误汉字的相邻位置的汉字对应的向量,分别计算所述M个相似候选分别对应的向量与所述错误汉字对应的向量之间的依赖关系值;
[0030]基于所述依赖关系值,选取最大的依赖关系值为最优路径参数。
[0031]本专利技术还提供一种中文拼写检错纠错装置,包括:
[0032]对比学习模块,用于汉字输入序列输入至对比学习模型,得到所述对比学习模型输出的所述汉字输入序列中各个汉字对应的相似字向量;所述相似字向量包括音似向量和形似向量;所述音似向量用于表示各个汉字的字音相似关系;所述形似向量用于表示各个汉字的字形相似关系;所述对比学习模型是基于样本汉字三元组训练得到的;
[0033]检错模块,用于基于所述相似字向量,检测汉字输入序列中的错误汉字,获得所述错误汉字的位置和类型;
[0034]编码模块,用于对所述汉字输入序列进行编码,得到所述汉字输入序列对应的编码向量;
[0035]纠错模块,用于基于所述相似字向量、所述错误汉字的位置和类型,以及所述编码向量,纠正所述汉字输入序列中的错误汉字,获得最优纠正文本。
[0036]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述中文拼写检错纠错方法。
[0037]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述中文拼写检错纠错装置方法。
[0038]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述中文拼写检错纠错装置方法。
[0039]本专利技术提供的中文拼写检错纠错方法、装置、电子设备及存储介质,通过对比学习模型得到汉字输入序列中各个汉字的字音相似关系和字形相似关系,再将字音相似关系和字形相似关系融合至汉字输入序列的检错过程中,基于错误汉字的检错结果,对汉字输入序列中错误汉字的纠正,实现了汉字输入序列中错误汉字的检错和纠错,提升了复杂汉字相似错误的检测与纠正的准确率,提升了中文拼写纠错的纠正质量。
附图说明
[0040]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中文拼写检错纠错方法,其特征在于,包括:将汉字输入序列输入至对比学习模型,得到所述对比学习模型输出的所述汉字输入序列中各个汉字对应的相似字向量;所述相似字向量包括音似向量和形似向量;所述音似向量用于表示各个汉字的字音相似关系;所述形似向量用于表示各个汉字的字形相似关系;所述对比学习模型是基于样本汉字三元组训练得到的;基于所述相似字向量,检测所述汉字输入序列中的错误汉字,获得所述错误汉字的位置和类型;对所述汉字输入序列进行编码,得到所述汉字输入序列对应的编码向量;基于所述相似字向量、所述错误汉字的位置和类型,以及所述编码向量,纠正所述汉字输入序列中的错误汉字,获得最优纠正文本。2.根据权利要求1所述的中文拼写检错纠错方法,其特征在于,所述基于所述相似字向量,检测所述汉字输入序列中的错误汉字,获得所述汉字输入序列中错误汉字的位置和类型,包括:对所述汉字输入序列中各个汉字的语义向量、音似向量、形似向量和所述汉字输入序列对应的全句向量进行拼接,得到拼接向量;基于所述拼接向量,计算各个汉字的音似门控值和形似门控值;基于所述音似门控值和所述形似门控值,确定所述汉字输入序列中错误汉字的位置和类型。3.根据权利要求2所述的中文拼写检错纠错方法,其特征在于,所述基于所述音似门控值和所述形似门控值,确定所述汉字输入序列中错误汉字的位置和类型,包括:将所述音似门控值和所述形似门控值分别作为所述音似向量和所述形似向量的权值;对所述语义向量、所述音似向量和所述形似向量进行加权求和,得到融合向量;基于所述融合向量,确定所述汉字输入序列中错误汉字的位置和类型。4.根据权利要求1所述的中文拼写检错纠错方法,其特征在于,所述基于所述相似字向量、所述汉字输入序列中错误汉字的位置和类型,以及所述编码向量,纠正所述汉字输入序列中的错误汉字,获得最优纠正文本,包括:基于所述错误汉字的位置和类型,对所述编码向量进行解码,计算得到所述错误汉字的前K个语义候选;基于所述错误汉字的位置和类型,确定所述错误汉字的音似向量和形似向量;基于所述K个语义候选、所述音似向量和所述形似向量,确定前M个相似候选;基于所述M个相似候选分别对应的向量、所述错误汉字对应的向量及所述错误汉字相邻位置的汉字对应的向量,确定最优路径参数;...

【专利技术属性】
技术研发人员:张家俊李鑫赵阳宗成庆
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1