一种基于弱化语法错误特征表示的中文语法错误更正方法技术

技术编号：25915820 阅读：46 留言：0更新日期：2020-10-13 10:34

本发明专利技术提供了一种基于弱化语法错误特征表示的中文语法错误更正方法，在用于中文语法错误更正任务的Transformer神经网络的基础上，通过编码器所提取得到字符特征表示和上下文特征表示，为待纠错文本中每一个字符学习得到一个弱化因子。弱化因子能够通过联合方程将编码器提取得到的字符特征表示和上下文特征表示联合，使得编码器所提取得到的待纠错文本的特征表示中，语法错误的特征信息得到抑制，从而弱化了语法错误特征信息对中文语法错误更正模型的负面影响，提升了基于Transformer的序列到序列神经网络模型在中文语法错误更正任务中的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于弱化语法错误特征表示的中文语法错误更正方法
本专利技术涉及互联网
，尤其涉及一种基于Transformer神经网络的中文语法错误更正方法。
技术介绍
中文是世界上最古老、最复杂的一门语言之一。随着中国的不断发展，越来越多的外国人将中文作为第二语言进行学习。自动化地中文语法错误更正能够替代传统耗时耗力的人工中文语法错误更正，提高外国人学习中文的效率。同时，中文语法错误更正任务能够作为自然语言处理领域中生成任务的辅助任务，提高生成任务中生成文本的质量和合理性。因此，近年来中文语法错误更正任务引起了学术界和工业界的普遍关注。中文语法错误更正任务即通过某种算法，使计算机自动地对包含语法错误的中文句子进行语法错误更正，输出正确的中文句子。目前，最普遍的中文语法错误更正方法是把语法错误更正任务作为翻译任务来完成。通过使用序列到序列神经网络模型，将包含语法错误的中文句子“翻译”为正确的中文句子。现有用于中文语法错误更正的“翻译”技术，一部分方法是利用多模型，对包含语法错误的中文句子进行多次处理实现中文语法错误更正；另一部分方法则是直接改进序列到序列神经网络模型，加强序列到序列神经网络模型对中文句子的建模能力，实现中文语法错误更正。如图1所示，现有技术之一的“ATwo-StageModelforChineseGrammaticalErrorCorrection”文章中，使用拼写检查(SpellingCheck)+Transformer双模型进行中文语法错误更正。对于拼写检查(Spelli...

【技术保护点】
1.一种基于弱化语法错误特征表示的中文语法错误更正方法，其特征在于，所述方法包含以下步骤：/n(1)将中文语法错误更正语料划分为待纠错文本数据和正确文本数据；/n(2)将待纠错文本和正确文本的中文字符，利用相同字典，映射为向量表示，输入的待纠错文本和正确文本即数值化为每个字符向量列连接而成的数值矩阵；/n(3)将步骤(2)中得到的待纠错文本数值矩阵输入编码器提取得到待纠错文本特征表示；/n(4)将步骤(3)中得到的待纠错文本特征表示和步骤(2)中得到的正确文本数值矩阵作为解码器的两个输入，得到每一个预测字符概率分布；/n(5)使用交叉熵损失函数，计算每一个预测字符的概率分布和真实字符之间的交叉熵损失，用反向传播算法(Back Propagation,BP)计算更新网络各层权重。/n

【技术特征摘要】
1.一种基于弱化语法错误特征表示的中文语法错误更正方法，其特征在于，所述方法包含以下步骤：
(1)将中文语法错误更正语料划分为待纠错文本数据和正确文本数据；
(2)将待纠错文本和正确文本的中文字符，利用相同字典，映射为向量表示，输入的待纠错文本和正确文本即数值化为每个字符向量列连接而成的数值矩阵；
(3)将步骤(2)中得到的待纠错文本数值矩阵输入编码器提取得到待纠错文本特征表示；
(4)将步骤(3)中得到的待纠错文本特征表示和步骤(2)中得到的正确文本数值矩阵作为解码器的两个输入，得到每一个预测字符概率分布；
(5)使用交叉熵损失函数，计算每一个预测字符的概率分布和真实字符之间的交叉熵损失，用反向传播算法(BackPropagation,BP)计算更新网络各层权重。

2.如权利要求1所述的方法，其特征在于，非训练情况下，中文语法错误更正时，将步骤(1)～(5)予以替换，替换如下：
(1)将待纠错文本作为神经网络的输入；
(2)将待纠错文本中的中文字符，利用与训练过程中相同的字典，映射为向量表示，输入的待纠错文本即数值化为每个字符向量列连接而成的数值矩阵；
(3)将向量表示输入编码器，提取得到待纠错文本的特征表示；
(4)将待纠错文本的特征表示输入解码器，利用集束搜索算法(BeamSearch)对字符进行逐个解码，得到最优输出序列，完成语法错误更正。

3.如权利要求1所述的方法中，其特征在于，所述步骤(2)具体包括：
(2.1)随机初始化字符到字符向量编号的映射索引和字符向量矩阵；
(2.2)通过映射索引将字符映射为对应的字符编号；
(2.3)通过各个字符的字符编号取得字符向量矩阵中对应的字符向量；
(2.4)将字符向量连接，得到各个字符的字符向量列连接而成的数值矩阵。

4.如权利要求1所述的方法中，其特征在于，所述步骤(3)中，将待纠...

【专利技术属性】
技术研发人员：李思，梁景贵，陆树栋，李明正，孙忆南，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人