细粒度自适应字音预测任务辅助的中文拼写纠错方法技术

技术编号:35432327 阅读:13 留言:0更新日期:2022-11-03 11:37
本发明专利技术涉及自然语言理解领域,公开了一种细粒度自适应字音预测任务辅助的中文拼写纠错方法,在多模态语言模型进行中文拼写纠错的基础上,为模型设计了一个细粒度的发音预测的辅助任务,并且为辅助任务设置一个自适应权重,可以引导模型正确地利用发音信息帮助中文拼写纠错;本发明专利技术还设计一种有约束的迭代策略,在能够解决具有连续错别字的困难样本的同时,也能一定程度上避免过度纠正的问题。也能一定程度上避免过度纠正的问题。也能一定程度上避免过度纠正的问题。

【技术实现步骤摘要】
细粒度自适应字音预测任务辅助的中文拼写纠错方法


[0001]本专利技术涉及自然语言理解领域,具体涉及一种细粒度自适应字音预测任务辅助的中文拼写纠错方法。

技术介绍

[0002]随着语音识别技术、光学字符识别等智能信息转换系统的广泛应用以及键盘写作的普及,识别错误和拼写错误的场景不可避免,那么就越来越需要计算机系统能够更准确地理解和纠正人类语言。另外,在许多自然语言处理领域的应用中,文本纠错都是这些应用的重要组成部分,比如搜索优化,机器翻译,词性标注。而且相比较其他语言,中文的汉字众多,更加容易出现用词不规范,拼写错误导致的文本错误。因此,中文拼写纠错技术具有很高的研究价值与实用价值。
[0003]现有的中文拼写纠错技术多采用基于多模态模型进行端到端地预测纠正文本的方法。由于中文拼写错误一般是由正误字符之间发音相近导致的,那么使用多模态模型对字音和语义分别进行编码,从而联合预测纠正文本,这种方法是合理的。然而这里存在缺陷:对于新引入的字音编码,虽然可以提取文本的发音信息,但是发音信息在中文拼写纠错上的利用方式是没有显式的优化的,即没有设置显式的辅助任务来引导模型利用发音信息更好的进行中文拼写纠错,大部分纠错技术没有考虑到这一点。另外,在拼写错误中往往会出现连续错别字的困难样本,以及在纠错过程中模型往往会出现过度纠正的问题,这都会导致模型纠错性能的下降。

技术实现思路

[0004]为解决上述技术问题,本专利技术提供一种细粒度自适应字音预测任务辅助的中文拼写纠错方法。以提升拼写纠错的表现。本专利技术提出两种创新性的思想,第一,在多模态语言模型进行中文拼写纠错的基础上,为模型设计了一个细粒度的发音预测的辅助任务,并且为辅助任务设置一个自适应权重,可以引导模型正确地利用发音信息帮助中文拼写纠错;第二,设计一种有约束的迭代策略,在能够解决连续错别字的困难样本的同时也能一定程度上避免过度纠正的问题。
[0005]为解决上述技术问题,本专利技术采用如下技术方案:一种细粒度自适应字音预测任务辅助的中文拼写纠错方法,通过字音预测辅助任务来引导多模态语言模型利用发音信息进行在中文拼写纠错;多模态语言模型的训练步骤包括:步骤一:将含错文本送到多模态编码器进行文本编码,将编码结果通过不同的映射得到字符编码和字音编码,将字符编码和字音编码分别输入至汉字解码器和字音解码器中,解码出纠正字符以及纠正字符对应的字音;其中,映射得到字音编码并解码出纠正字符对应字音的过程即为字音预测辅助任务;步骤二:字音预测辅助任务的自适应权重计算:
文本第i个位置的纠正字符的优化目标;文本第i个位置的纠正字符对应字音的优化目标;其中分别表示第i个位置的纠正字符及对应的字音;为文本长度,表示预测为纠正字符对应字音的概率,表示预测为纠正字符的概率;字音预测辅助任务的自适应权重字音预测辅助任务的自适应权重;其中表示文本中第i个位置的错误字符的编码结果经过映射后的字音编码,表示第i个位置的纠正字符的字音编码;表示文本第i个位置的错误字符和纠正字符的字音编码余弦相似度;多模态语言模型的最终训练时的优化目标;通过训练完成的多模态语言模型对含错文本进行拼写纠错。
[0006]具体地,多模态编码器进行文本编码时,文本中第i个位置的错误字符即文本中第i个单词,文本中第i个单词的编码结果文本中第i个单词的编码结果经过映射后的字符编码文本中第i个单词的编码结果经过映射后的字音编码其中S表示整个文本,为映射层参数。
[0007]具体地,字音包括声母、韵母、音调;文本中第i个单词预测为词表中第j个单词可能性文本中第i个单词的声母预测为词表中第j个单词的声母的可能性文本中第i个单词的韵母预测为词表中第j个单词的韵母的可能性文本中第i个单词的音调预测为词表中第j个单词的音调的可能性
为词表长度,分别代表声母总数量、韵母总数量、声调总数量,具体来说,声母为23个,韵母为34个,声调为5个,c表示纠正字符,分别对应着纠正字符的声母、韵母和音调,Decoder选择多层感知机MLP。
[0008]进一步地,训练完成的多模态语言模型对含错文本进行中文拼写纠错时,对于每一个输入的文本,以迭代方式检测并纠正拼写错误:在每一次迭代中,满足条件A的纠正字符被保留下来,不满足条件A的纠正字符被舍弃,在迭代完成后,如果一个位置的字符在每次迭代时都会被纠正,则将该位置恢复成不做任何纠正的原始字符;条件A:,其中pos为本次迭代纠正字符的位置,a为上一次迭代纠正字符的位置,为上一次迭代纠正字符的集合,w为人为设置的窗口大小参数;即在每一次迭代中,只有出现在上次纠正位置附近窗口内的纠正字符被保留下来,其余不在窗口内的纠正字符被舍弃,当w=2时,以每个上次的纠正字符的位置为中心,取大小为4的窗口,窗口内新的纠正字符将被保留,其余将被舍弃。。
[0009]与现有技术相比,本专利技术的有益技术效果是:本专利技术提出了一种细粒度自适应字音预测任务辅助的中文拼写纠错方法,包括训练时的细粒度字音预测辅助任务的设置、该辅助任务自适应权重的设计、推理时带约束的迭代策略三部分:(1)字音预测辅助任务的设置使得在拼写纠错任务中多模态的字音编码发挥更大的作用;(2)进一步,在训练时针对不同样本输入输出发音上不同的相似度给予辅助任务以不同的优化权重,使得不同样本能通过辅助任务对拼写纠错不同程度上的增益充分发挥;(3)最后在模型推理时,带约束的迭代策略有效地解决了连续错别字的困难样本和模型容易过度纠正的问题。
[0010]另外,辅助任务的设置只存在于训练阶段,单纯地为了提升模型在中文拼写纠错任务上的性能而存在,并不会导致推理阶段模型占用内存的增大和推理时间的增加;带约束的迭代策略不局限于特定模型,具有通用性。
附图说明
[0011]图1为本专利技术的模型训练流程图。
具体实施方式
[0012]下面结合附图对本专利技术的一种优选实施方式作详细的说明。
[0013]中文拼写纠错任务通常被定义为:给定一段可能包含拼写错误的文本作为输入数据,确定错误文本位置(错误检测),然后针对错误位置进行字符纠正,生成对应的正确文本;即拼写纠错包括错误检测和字符纠正。
[0014]本专利技术提出的模型的训练流程如图1所示,包括以下部分:(1)模型训练时设置细粒度的字音预测辅助任务;(2)为字音预测辅助任务设置自适应权重;(3)另外,本专利技术在模型进行拼写纠错时引入:带有约束的迭代策略。
[0015](1)细粒度的字音预测辅助任务首先将含错文本送到多模态编码器进行文本编码,本实施例中,多模态编码器选择预训练模型ChineseBERT。
[0016]然后,将编码结果通过不同的映射得到字符编码和字音编码,最后分别送到汉字解码器和字音解码器中,解码出纠正字符以及纠正字符对应的字音,解码的过程也可称为预测;其中字音包括声母、韵母、音调三部分。
[0017]文本中第i个单词的编码结果文本中第i个单词的编码结果经过映射后的字符编码文本中第i个单词的编码结果经过映射后的字音编码其中S表示整个文本,为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种细粒度自适应字音预测任务辅助的中文拼写纠错方法,通过字音预测辅助任务来引导多模态语言模型利用发音信息进行在中文拼写纠错;多模态语言模型的训练步骤包括:步骤一:将含错文本送到多模态编码器进行文本编码,将编码结果通过不同的映射得到字符编码和字音编码,将字符编码和字音编码分别输入至汉字解码器和字音解码器中,解码出纠正字符以及纠正字符对应的字音;其中,映射得到字音编码并解码出纠正字符对应字音的过程即为字音预测辅助任务;步骤二:字音预测辅助任务的自适应权重计算:文本第i个位置的纠正字符的优化目标;文本第i个位置的纠正字符对应字音的优化目标文本第i个位置的纠正字符对应字音的优化目标;其中分别表示第i个位置的纠正字符及对应的字音;为文本长度,表示预测为纠正字符对应字音的概率,表示预测为纠正字符的概率;字音预测辅助任务的自适应权重字音预测辅助任务的自适应权重;其中表示文本中第i个位置的错误字符的编码结果经过映射后的字音编码,表示第i个位置的纠正字符的字音编码;表示文本第i个位置的错误字符和纠正字符的字音编码余弦相似度;多模态语言模型的最终训练时的优化目标;通过训练完成的多模态语言模型对含错文本进行拼写纠错。2.根据权利要求1所述的细粒度自适应字音预测任务辅助的中文拼写纠错方法,其特征在于:多模态编码器进行文本编码时,文本中第i个位置的错误字符即文本中第i个单词,文本中第i...

【专利技术属性】
技术研发人员:毛震东张勇东王泉郭俊波靳国庆李佳豪
申请(专利权)人:北京邮电大学人民网股份有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1