基于数据增强的中文语法纠错方法及装置制造方法及图纸

技术编号：31501988 阅读：24 留言：0更新日期：2021-12-22 23:21

本发明专利技术公开了一种基于数据增强的中文语法纠错方法及装置，其中该方法包括：在训练神经语法纠错模型过程中，以预设固定概率，将当前轮训练批次的输入源语句中的每个字通过BART噪声函数进行映射处理，得到含有不同类型语法错误的句子；将含有不同语法错误的句子及对应的目标语句作为当前轮的含噪样本对，训练神经语法纠错模型，得到数据增强处理后的神经语法纠错模型；利用增强处理后的该模型进行中文语法纠错处理。本发明专利技术可以通过基于BART噪声器来实现数据增强，在模型训练的过程中自动生成大量含有不同类型语法错误的含噪文本，进而得到高性能的神经语法纠错模型，利用该高性能的神经语法纠错模型可以实现高效准确地进行中文语法纠错。中文语法纠错。中文语法纠错。

全部详细技术资料下载

【技术实现步骤摘要】
基于数据增强的中文语法纠错方法及装置

[0001]本专利技术涉人工智能
，尤其涉及一种基于数据增强的中文语法纠错方法及装置。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]随着计算机技术的发展，机器学习和深度学习的研究取得了一系列重要成果，自然语言处理逐渐得到了广泛应用，例如通过情感分析技术挖掘商品评论中的用户喜好，通过机器翻译技术自动为用户翻译外文内容等。在如今信息量与日俱增的大数据时代，每天都会产生大量的文本信息，随之而来的语法纠错任务也越来越繁重。传统的人工纠错不仅周期长、劳动强度大，而且效率低，研究快速高效的自动纠错方法是十分必要的。中文语法纠错任务是近些年发展起来的一项自然语言理解任务，其目的是利用自然语言处理技术，自动识别并纠正文本包含中的缺失词、冗余词、选词错误、语序错误等语法错误。中文语法纠错在搜索、OCR、文章评分等领域有着广泛应用。
[0004]早期，解决语法纠错任务的主流方法是先检测错误再利用大型的字典对错误处的文本进行匹配，得到更正文本。近年来，为了修正更多类型的错误，语法纠错任务常被作为翻译任务处理，并引入统计机器翻译方法来提高语法纠错任务的性能。最近，随着深度学习的广泛应用，基于神经机器翻译的方法也被应用到语法纠错领域，如循环神经网络、卷积神经网络、Transformer架构等，在语法纠错任务的公开数据集上取得了不错的效果。
[0005]然而，在中文语法纠错任...

【技术保护点】

【技术特征摘要】
1.一种基于数据增强的中文语法纠错方法，其特征在于，包括：在训练神经语法纠错模型过程中，以预设固定概率，将当前轮训练批次的输入源语句中的每个字通过BART噪声器中的噪声函数进行映射处理，得到含有不同类型语法错误的句子；将含有不同类型语法错误的句子及输入源语句对应的目标语句作为所述当前轮训练批次的含噪样本对，训练所述神经语法纠错模型，直至满足预设训练终止条件，得到数据增强处理后的神经语法纠错模型；利用增强处理后的神经语法纠错模型进行中文语法纠错处理。2.如权利要求1所述的基于数据增强的中文语法纠错方法，其特征在于，所述BART噪声器中的噪声函数包括字屏蔽、随机字替换和文本填充的其中之一或任意组合。3.如权利要求2所述的基于数据增强的中文语法纠错方法，其特征在于，在训练神经语法纠错模型过程中，以预设固定概率，将当前轮训练批次的输入源语句中的每个字通过BART噪声器中的噪声函数进行映射处理，得到含有不同类型语法错误的句子，包括按照如下公式得到含有不同类型语法错误的句子：其中的第i个字由下式给出：式中，X
(t)
为第t轮的输入源语句，f
s
(x
i
)是BART噪声器中的噪声函数，s∈{TM,RS,TI,Mixed}，TM为字屏蔽，RS为随机字替换，TI为文本填充，Mixed为字屏蔽、随机字替换和文本填充的任意组合，p是在[0,1]的均匀分布上产生的随机数，δ是固定概率。4.如权利要求3所述的基于数据增强的中文语法纠错方法，其特征在于，将含有不同类型语法错误的句子及输入源语句对应的目标语句作为所述当前轮训练批次的含噪样本对，训练所述神经语法纠错模型，包括：将及Y构建成新的句子对S
(t)
，训练所述神经语法纠错模型，其中：为含有不同类型语法错误的句子，Y为输入源语句对应的目标语句，S
(t)
为所述当前轮训练批次的含噪样本对。5.如权利要求1所述的基于数据增强的中文语法纠错方法，其特征在于，...

【专利技术属性】
技术研发人员：孙邱杰，王凯，樊小伟，蓝海波，闵睿，刘剑青，张锐，宋磊，刘晓敏，张昊，王明轩，高欣，耿艳，李思，
申请(专利权)人：国家电网有限公司北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人