中文纠错方法技术

技术编号:39669165 阅读:9 留言:0更新日期:2023-12-11 18:33
本申请提供一种中文纠错方法

【技术实现步骤摘要】
中文纠错方法、系统、模型训练方法、介质及设备


[0001]本申请涉及一种中文纠错方法,特别是涉及一种中文纠错方法

系统

模型训练方法

介质及设备


技术介绍

[0002]文本纠错的主流方法与技术的发展密切相关


2018
年之前,主要采用传统的统计语言模型进行文本纠错,通过计算词语之间的搭配情况来检测错误,并通过替换混淆集中的词语来进行纠错

随后,深度学习与统计模型相结合的方法开始出现,根据文本差错需要采取的编辑动作类型,深度学习纠错方法可以分为两类:第一类是仅限于错别字的检测

这种方法将常见的替换类错误视为汉字分类问题,通过捕捉句子的细微语义来检测替换类错误

这种方法将句子输入到深度网络中,网络会输出隐藏向量,并通过
SOFTMAX
进行候选字概率计算,通过上下文判断每个位置的最佳目标字符

第二类是考虑冗余和缺失的情况

这种方法通过序列标记技术来定位错误的位置和类型,并修正目标

然而,冗余和缺失差错会导致纠错后句子的长度与原始句子不同

针对这种长度不同的序列转换问题,一种直观的解决方式是使用
Encoder

Decoder
架构的自回归语言模型

例如,基于
BART

T5<br/>等文本到文本的转换模型,可以将错误句子编码后解码生成正确句子

然而,自回归语言模型的参数规模较大且解码速度较慢,限制了其实际应用

[0003]因此,现有技术中缺少一种具有更加良好效果且更加快捷地进行中文纠错的方法


技术实现思路

[0004]本申请的目的在于提供一种中文纠错方法

系统

模型训练方法

介质及设备,从而提高中文拼写纠错的实际效果,并保持较快的推理速度

[0005]为实现上述目的及其他相关目的,本申请的第一方面提供一种中文纠错模型的训练方法,包括将待纠错文本序列输入中文纠错模型以获取所述待纠错文本序列的多模态特征;基于所述多模态特征获取编辑标记序列以获取目标文本;基于所述待纠错文本序列和所述编辑标记序列对所述中文纠错模型进行训练以获取训练好的中文纠错模型

[0006]于所述第一方面的一实施例中,获取所述待纠错文本序列的多模态特征包括:基于字义编码网络获取所述待纠错文本序列的字义特征;基于字音编码网络获取所述待纠错文本序列的字音特征;基于字形编码网络获取所述待纠错文本序列的字形特征

[0007]于所述第一方面的一实施例中,基于字义编码网络获取所述待纠错文本序列的字义特征包括:基于嵌入层获取所述待纠错文本序列的词嵌入向量;基于
RoBERTa
模型获取所述待纠错文本序列的语义编码结果;基于所述词嵌入向量和所述语义编码结果获取所述字义特征

[0008]于所述第一方面的一实施例中,基于字音编码网络获取所述待纠错文本序列的字音特征包括:基于嵌入编码获取所述字音特征

[0009]于所述第一方面的一实施例中,基于字形编码网络获取所述待纠错文本序列的字形特征包括:将汉字字形作为图片输入至
ResNet101
网络进行目标检测以获取所述字形特征

[0010]于所述第一方面的一实施例中,基于所述多模态特征获取编辑标记序列以获取目标文本包括:基于所述字义特征进行中文错误检测;基于所述字义特征

所述字音特征和所述字形特征计算所述待纠错文本序列中汉字编辑类别的概率以获取编辑标记序列;基于所述编辑标记序列对所述待纠错文本序列进行纠错以获取目标文本

[0011]本申请的第二方面提供一种中文纠错方法,包括:获取待纠错文本;基于中文纠错模型对所述待纠错文本进行纠错以获取目标文本;所述中文纠错模型为经权利要求1~6任一项所述的训练方法训练好的中文纠错模型

[0012]本申请的第三方面提供一种中文纠错系统,包括获取模块,用于获取待纠错文本;纠错模块,用于基于中文纠错模型对所述待纠错文本进行纠错以获取目标文本;所述中文纠错模型为经权上述的训练方法训练好的中文纠错模型

[0013]本申请的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请第一方面所述的中文纠错模型的训练方法和
/
或本申请第二方面所述的中文纠错方法

[0014]本申请的第五方面提供一种电子设备,所述电子设备包括:存储器,存储有一计算机程序;处理器,与所述存储器通信相连,调用所述计算机程序时执行本申请第一方面所述的中文纠错模型的训练方法和
/
或本申请第二方面所述的中文纠错方法

[0015]如上所述,本申请实施例提供的中文纠错方法

系统

模型训练方法

介质及设备,具有以下有益效果:本申请基于多模态特征将待纠错文本序列转换为编辑标记序列,编辑变换涵盖了常见汉字,并高效融入了中文的音义特征,实现了音义增强,从而提高中文拼写纠错的实际效果,并保持了较快的推理速度,在处理中文拼写错误时取得了良好的效果

附图说明
[0016]图1显示为本申请实施例中中文纠错模型的训练方法的流程示意图

[0017]图2显示为本申请实施例中中文纠错模型的训练方法的流程示意图

[0018]图3显示为本申请实施例中中文纠错模型的训练方法的流程示意图

[0019]图4显示为本申请实施例中中文纠错模型中的字形编码网络特征提取的结果示意图

[0020]图5显示为本申请实施例中中文纠错模型的训练方法的流程示意图

[0021]图6显示为本申请实施例中中文纠错模型的结构流程示意图

[0022]图7显示为本申请实施例中中文纠错模型的编辑变换标记示意图

[0023]图8显示为本申请实施例中中文纠错方法的流程示意图

[0024]图9显示为本申请实施例中中文纠错系统的结构示意图

[0025]图
10
显示为本申请实施例中电子设备的结构示意图

[0026]元件标号说明
[0027]20
获取模块
[0028]30
纠错模块
[0029]50
电子设备
[0030]501
存储器
[0031]502
处理器...

【技术保护点】

【技术特征摘要】
1.
一种中文纠错模型的训练方法,其特征在于,包括:将待纠错文本序列输入中文纠错模型以获取所述待纠错文本序列的多模态特征;基于所述多模态特征获取编辑标记序列以获取目标文本;基于所述待纠错文本序列和所述编辑标记序列对所述中文纠错模型进行训练以获取训练好的中文纠错模型
。2.
根据权利要求1所述的中文纠错模型的训练方法,其特征在于,获取所述待纠错文本序列的多模态特征包括:基于字义编码网络获取所述待纠错文本序列的字义特征;基于字音编码网络获取所述待纠错文本序列的字音特征;基于字形编码网络获取所述待纠错文本序列的字形特征
。3.
根据权利要求2所述的中文纠错模型的训练方法,其特征在于,基于字义编码网络获取所述待纠错文本序列的字义特征包括:基于嵌入层获取所述待纠错文本序列的词嵌入向量;基于
RoBERTa
模型获取所述待纠错文本序列的语义编码结果;基于所述词嵌入向量和所述语义编码结果获取所述字义特征
。4.
根据权利要求2所述的中文纠错模型的训练方法,其特征在于,基于字音编码网络获取所述待纠错文本序列的字音特征包括:基于嵌入编码获取所述字音特征
。5.
根据权利要求2所述的中文纠错模型的训练方法,其特征在于,基于字形编码网络获取所述待纠错文本序列的字形特征包括:将汉字字形作为图片输入至
ResNet101
网络进行目标检测以获取所述字形特征
。6.
根据...

【专利技术属性】
技术研发人员:付俊英
申请(专利权)人:上海蜜度信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1