一种基于弱化语法错误特征表示的中文语法错误更正方法技术

技术编号:25915820 阅读:46 留言:0更新日期:2020-10-13 10:34
本发明专利技术提供了一种基于弱化语法错误特征表示的中文语法错误更正方法,在用于中文语法错误更正任务的Transformer神经网络的基础上,通过编码器所提取得到字符特征表示和上下文特征表示,为待纠错文本中每一个字符学习得到一个弱化因子。弱化因子能够通过联合方程将编码器提取得到的字符特征表示和上下文特征表示联合,使得编码器所提取得到的待纠错文本的特征表示中,语法错误的特征信息得到抑制,从而弱化了语法错误特征信息对中文语法错误更正模型的负面影响,提升了基于Transformer的序列到序列神经网络模型在中文语法错误更正任务中的性能。

【技术实现步骤摘要】
一种基于弱化语法错误特征表示的中文语法错误更正方法
本专利技术涉及互联网
,尤其涉及一种基于Transformer神经网络的中文语法错误更正方法。
技术介绍
中文是世界上最古老、最复杂的一门语言之一。随着中国的不断发展,越来越多的外国人将中文作为第二语言进行学习。自动化地中文语法错误更正能够替代传统耗时耗力的人工中文语法错误更正,提高外国人学习中文的效率。同时,中文语法错误更正任务能够作为自然语言处理领域中生成任务的辅助任务,提高生成任务中生成文本的质量和合理性。因此,近年来中文语法错误更正任务引起了学术界和工业界的普遍关注。中文语法错误更正任务即通过某种算法,使计算机自动地对包含语法错误的中文句子进行语法错误更正,输出正确的中文句子。目前,最普遍的中文语法错误更正方法是把语法错误更正任务作为翻译任务来完成。通过使用序列到序列神经网络模型,将包含语法错误的中文句子“翻译”为正确的中文句子。现有用于中文语法错误更正的“翻译”技术,一部分方法是利用多模型,对包含语法错误的中文句子进行多次处理实现中文语法错误更正;另一部分方法则是直接改进序列到序列神经网络模型,加强序列到序列神经网络模型对中文句子的建模能力,实现中文语法错误更正。如图1所示,现有技术之一的“ATwo-StageModelforChineseGrammaticalErrorCorrection”文章中,使用拼写检查(SpellingCheck)+Transformer双模型进行中文语法错误更正。对于拼写检查(SpellingCheck)模型,首先利用JIEBA分词器和给定词典找出分词结果中未在给定词典内的词;其次,通过相似字符集合给出未在给定词典内的词的可能候选词集合;最后使用预训练好的5-gram语言模型在可能候选词集合中选择最高概率候选词,得到一次纠错结果。对于Transformer神经网络模型,首先使用通过拼写检查(SpellingCheck)模型得到的一次纠错结果作为编码器的输入;其次,编码器通过多头注意力对输入句子进行建模,得到输入句子的特征表示;最后解码器直接使用编码器提取得到的特征表示进行解码,得到二次纠错结果。如图2所示,现有技术之二的“ImprovingGrammaticalErrorCorrectionviaPre-TrainingaCopy-AugmentedArchitecturewithUnlabeledData”文章中提出通过加入复制增强机制(Copy-Augmented)改进Transformer,解决语法纠错任务中未知词(OOV,OutOfVocabulary)问题和部分词无需纠错问题。首先,将待纠错句子作为Transformer模型编码器的输入,通过多头注意力对待纠错句子进行建模,得到待纠错句子的特征表示;其次,将待纠错句子的特征表示作为Transformer模型解码器的输入,解码得到解码器预测字符概率分布;同时,使用待纠错句子的特征表示和Transformer解码器最后一层的隐藏状态作为复制增强模块的输入,得到待纠错句子中每个字符被复制到解码器输出的复制概率分布;最后,联合解码器预测字符概率分布和待纠错句子中每个字符的复制概率分布得到每个预测字符的最终概率分布,最终概率分布如下所示:其中,t表示解码器当前预测第t个字符;表示Transformer解码器预测字符概率分布;表示待纠错句子中每个字符的复制概率分布;表示联合两个概率分布的平衡因子。通过每个预测字符的最终概率分布,解码得到最优输出序列,完成语法错误更正任务。专利技术人在研究过程中发现,对于“ATwo-StageModelforChineseGrammaticalErrorCorrection”、“ImprovingGrammaticalErrorCorrectionviaPre-TrainingaCopy-AugmentedArchitecturewithUnlabeledData”现有技术中,Transformer网络模型解码器直接使用由编码器所提取的待纠错句子的特征表示作为输入。其中该特征表示中包含了语法错误的特征信息,导致现有技术中Transformer神经网络模型被包含语法错误信息的特征表示所影响,在语法纠错任务中表现不佳。
技术实现思路
为了解决现有技术问题,本专利技术提供了一种基于弱化语法错误特征表示的中文错误更正方法。方案如下:(1)将中文语法错误更正语料划分为待纠错文本数据和正确文本数据;(2)将待纠错文本和正确文本的中文字符,利用相同字典,映射为向量表示,输入的待纠错文本和正确文本即数值化为每个字符向量列连接而成的数值矩阵;(3)将步骤(2)中得到的待纠错文本数值矩阵输入编码器提取得到待纠错文本特征表示;(4)将步骤(3)中得到的待纠错文本特征表示和步骤(2)中得到的正确文本数值矩阵作为解码器的两个输入,得到每一个预测字符概率分布;(5)使用交叉熵损失函数,计算每一个预测字符的概率分布和真实字符之间的交叉熵损失,用反向传播算法(BackPropagation,BP)计算更新网络各层权重。进一步的,非训练情况下,中文语法错误更正时,将步骤(1)~(5)予以替换,替换如下:(1)将待纠错文本作为神经网络的输入;(2)将待纠错文本中的中文字符,利用与训练过程中相同的字典,映射为向量表示,输入的待纠错文本即数值化为每个字符向量列连接而成的数值矩阵;(3)将向量表示输入编码器,提取得到待纠错文本的特征表示;(4)将待纠错文本的特征表示输入解码器,利用集束搜索算法(BeamSearch)对字符进行逐个解码,得到最优输出序列,完成语法错误更正。进一步的,所述步骤(2)中,将待纠错文本和正确文本的中文字符,利用相同字典,映射为向量表示,包括:首先,随机初始化字符到字符向量的映射索引和字符向量矩阵;其次,通过映射索引将字符映射为对应的字符编号;再次,通过各个字符的字符编号取得字符向量矩阵中对应的字符向量;最后,将字符向量连接,各个字符的字符向量列连接而成的数值矩阵。进一步的,所述步骤(3)中,将待纠错文本数值矩阵输入编码器提取得到待纠错文本的特征表示,具体包括:首先,将待纠错文本数值矩阵或上层编码器层的输出输入至当前编码器层,通过多头注意力+全连接网络和上下文注意力+全连接网络分别提取得到待纠错文本中每一个字符在当前编码器层中的字符特征表示和上下文特征表示。对于待纠错文本中每一个字符在当前编码器层中的字符特征表示的提取,计算如下:其中,Hl-1为待纠错文本数值矩阵或上层编码器层的输出;表示当前编码器层提取得到的字符特征表示;LN(·)为输入归一化函数;FFN(·)表示全连接网络;MultiHead(·)表示多头注意力模块;其中,MultiHead(·)计算公式如下:MultiHead(X)=Concat(head1,…,headh)本文档来自技高网
...

【技术保护点】
1.一种基于弱化语法错误特征表示的中文语法错误更正方法,其特征在于,所述方法包含以下步骤:/n(1)将中文语法错误更正语料划分为待纠错文本数据和正确文本数据;/n(2)将待纠错文本和正确文本的中文字符,利用相同字典,映射为向量表示,输入的待纠错文本和正确文本即数值化为每个字符向量列连接而成的数值矩阵;/n(3)将步骤(2)中得到的待纠错文本数值矩阵输入编码器提取得到待纠错文本特征表示;/n(4)将步骤(3)中得到的待纠错文本特征表示和步骤(2)中得到的正确文本数值矩阵作为解码器的两个输入,得到每一个预测字符概率分布;/n(5)使用交叉熵损失函数,计算每一个预测字符的概率分布和真实字符之间的交叉熵损失,用反向传播算法(Back Propagation,BP)计算更新网络各层权重。/n

【技术特征摘要】
1.一种基于弱化语法错误特征表示的中文语法错误更正方法,其特征在于,所述方法包含以下步骤:
(1)将中文语法错误更正语料划分为待纠错文本数据和正确文本数据;
(2)将待纠错文本和正确文本的中文字符,利用相同字典,映射为向量表示,输入的待纠错文本和正确文本即数值化为每个字符向量列连接而成的数值矩阵;
(3)将步骤(2)中得到的待纠错文本数值矩阵输入编码器提取得到待纠错文本特征表示;
(4)将步骤(3)中得到的待纠错文本特征表示和步骤(2)中得到的正确文本数值矩阵作为解码器的两个输入,得到每一个预测字符概率分布;
(5)使用交叉熵损失函数,计算每一个预测字符的概率分布和真实字符之间的交叉熵损失,用反向传播算法(BackPropagation,BP)计算更新网络各层权重。


2.如权利要求1所述的方法,其特征在于,非训练情况下,中文语法错误更正时,将步骤(1)~(5)予以替换,替换如下:
(1)将待纠错文本作为神经网络的输入;
(2)将待纠错文本中的中文字符,利用与训练过程中相同的字典,映射为向量表示,输入的待纠错文本即数值化为每个字符向量列连接而成的数值矩阵;
(3)将向量表示输入编码器,提取得到待纠错文本的特征表示;
(4)将待纠错文本的特征表示输入解码器,利用集束搜索算法(BeamSearch)对字符进行逐个解码,得到最优输出序列,完成语法错误更正。


3.如权利要求1所述的方法中,其特征在于,所述步骤(2)具体包括:
(2.1)随机初始化字符到字符向量编号的映射索引和字符向量矩阵;
(2.2)通过映射索引将字符映射为对应的字符编号;
(2.3)通过各个字符的字符编号取得字符向量矩阵中对应的字符向量;
(2.4)将字符向量连接,得到各个字符的字符向量列连接而成的数值矩阵。


4.如权利要求1所述的方法中,其特征在于,所述步骤(3)中,将待纠...

【专利技术属性】
技术研发人员:李思梁景贵陆树栋李明正孙忆南
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1