基于数据增强的中文语法纠错方法及装置制造方法及图纸

技术编号:31501988 阅读:24 留言:0更新日期:2021-12-22 23:21
本发明专利技术公开了一种基于数据增强的中文语法纠错方法及装置,其中该方法包括:在训练神经语法纠错模型过程中,以预设固定概率,将当前轮训练批次的输入源语句中的每个字通过BART噪声函数进行映射处理,得到含有不同类型语法错误的句子;将含有不同语法错误的句子及对应的目标语句作为当前轮的含噪样本对,训练神经语法纠错模型,得到数据增强处理后的神经语法纠错模型;利用增强处理后的该模型进行中文语法纠错处理。本发明专利技术可以通过基于BART噪声器来实现数据增强,在模型训练的过程中自动生成大量含有不同类型语法错误的含噪文本,进而得到高性能的神经语法纠错模型,利用该高性能的神经语法纠错模型可以实现高效准确地进行中文语法纠错。中文语法纠错。中文语法纠错。

【技术实现步骤摘要】
基于数据增强的中文语法纠错方法及装置


[0001]本专利技术涉人工智能
,尤其涉及一种基于数据增强的中文语法纠错方法及装置。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]随着计算机技术的发展,机器学习和深度学习的研究取得了一系列重要成果,自然语言处理逐渐得到了广泛应用,例如通过情感分析技术挖掘商品评论中的用户喜好,通过机器翻译技术自动为用户翻译外文内容等。在如今信息量与日俱增的大数据时代,每天都会产生大量的文本信息,随之而来的语法纠错任务也越来越繁重。传统的人工纠错不仅周期长、劳动强度大,而且效率低,研究快速高效的自动纠错方法是十分必要的。中文语法纠错任务是近些年发展起来的一项自然语言理解任务,其目的是利用自然语言处理技术,自动识别并纠正文本包含中的缺失词、冗余词、选词错误、语序错误等语法错误。中文语法纠错在搜索、OCR、文章评分等领域有着广泛应用。
[0004]早期,解决语法纠错任务的主流方法是先检测错误再利用大型的字典对错误处的文本进行匹配,得到更正文本。近年来,为了修正更多类型的错误,语法纠错任务常被作为翻译任务处理,并引入统计机器翻译方法来提高语法纠错任务的性能。最近,随着深度学习的广泛应用,基于神经机器翻译的方法也被应用到语法纠错领域,如循环神经网络、卷积神经网络、Transformer架构等,在语法纠错任务的公开数据集上取得了不错的效果。
[0005]然而,在中文语法纠错任务中,错误数据的订正标注难度较大,需要有专业语言学知识的人员才能准确标注,这使得中文语法纠错任务中难以获得大量的标注数据。因此,采用基于神经机器翻译方法的语法纠错模型难以得到充分的训练,无法获取高效的信息特征,使得模型纠错的准确率不高。

技术实现思路

[0006]本专利技术实施例提供一种基于数据增强的中文语法纠错方法,用以高效准确地进行中文语法纠错,该方法包括:
[0007]在训练神经语法纠错模型过程中,以预设固定概率,将当前轮训练批次的输入源语句中的每个字通过BART噪声器中的噪声函数进行映射处理,得到含有不同类型语法错误的句子;
[0008]将含有不同类型语法错误的句子及输入源语句对应的目标语句作为所述当前轮训练批次的含噪样本对,训练所述神经语法纠错模型,直至满足预设训练终止条件,得到数据增强处理后的神经语法纠错模型;
[0009]利用增强处理后的神经语法纠错模型进行中文语法纠错处理。
[0010]本专利技术实施例还提供一种基于数据增强的中文语法纠错装置,用以高效准确地进
行中文语法纠错,该装置包括:
[0011]数据增强单元,用于在训练神经语法纠错模型过程中,以预设固定概率,将当前轮训练批次的输入源语句中的每个字通过BART噪声器中的噪声函数进行映射处理,得到含有不同类型语法错误的句子,包括按照如下公式得到含有不同类型语法错误的句子;
[0012]训练单元,用于将含有不同类型语法错误的句子及输入源语句对应的目标语句作为所述当前轮训练批次的含噪样本对,训练所述神经语法纠错模型,直至满足预设训练终止条件,得到数据增强处理后的神经语法纠错模型;
[0013]处理单元,用于利用增强处理后的神经语法纠错模型进行中文语法纠错处理。
[0014]本专利技术实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于数据增强的中文语法纠错方法。
[0015]本专利技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述基于数据增强的中文语法纠错方法的步骤。
[0016]本专利技术实施例中,基于数据增强的中文语法纠错方案,通过:在训练神经语法纠错模型过程中,以预设固定概率,将当前轮训练批次的输入源语句中的每个字通过BART噪声器中的噪声函数进行映射处理,得到含有不同类型语法错误的句子;将含有不同类型语法错误的句子及输入源语句对应的目标语句作为所述当前轮训练批次的含噪样本对,训练所述神经语法纠错模型,直至满足预设训练终止条件,得到数据增强处理后的神经语法纠错模型;利用增强处理后的神经语法纠错模型进行中文语法纠错处理,可以通过基于BART噪声器的数据增强算法,在模型训练的过程中自动生成大量含有不同类型语法错误的含噪文本,进而得到高性能的神经语法纠错模型,利用该高性能的神经语法纠错模型可以实现高效准确地进行中文语法纠错。
附图说明
[0017]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0018]图1为本专利技术实施例中基于数据增强的中文语法纠错的原理示意图;
[0019]图2为本专利技术实施例中不同噪声方案引入的噪声示例图;
[0020]图3为本专利技术实施例中基于数据增强的中文语法纠错方法的流程示意图;
[0021]图4为本专利技术实施例中基于数据增强的中文语法纠错装置的结构示意图;
[0022]图5为本专利技术另一实施例中基于数据增强的中文语法纠错装置的结构示意图。
具体实施方式
[0023]为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。
[0024]专利技术人发现现有的中文语法纠错方案存在的技术问题是:现有的中文语法纠错任
务的技术主要从下述三方面缓解训练数据不足的问题:(1)引入外部资源,将外部的拼音、形状等信息作为额外特征的形式集成到模型中。(2)使用预训练神经网络模型引入信息,通过使用分布式词表征来初始化模型,如Word2Vec、基于BERT的预训练模型。(3)使用随机遮蔽、纠错模型回译等数据增强的方法。
[0025]现有技术之一的“SpellGCN:Incorporating Phonological and Visual Similarities into Language Models for Chinese Spelling Check”通过图卷积神经网络引入中文的拼音以及形状信息:首先,通过混淆集中的字构建拼音相似度图和形状相似度图;然后,通过图卷积神经网络提取两个相似度图中的特征,将其构建成一个生成分类器;最后,将BERT模型抽取到的语义信息和图神经网络抽取到的形状、拼音信息进行进一步推理得到输出。
[0026]现有技术之二的“Chinese Grammatical Correction Using BERT

based Pre

trained Model”通过使用基于BERT的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据增强的中文语法纠错方法,其特征在于,包括:在训练神经语法纠错模型过程中,以预设固定概率,将当前轮训练批次的输入源语句中的每个字通过BART噪声器中的噪声函数进行映射处理,得到含有不同类型语法错误的句子;将含有不同类型语法错误的句子及输入源语句对应的目标语句作为所述当前轮训练批次的含噪样本对,训练所述神经语法纠错模型,直至满足预设训练终止条件,得到数据增强处理后的神经语法纠错模型;利用增强处理后的神经语法纠错模型进行中文语法纠错处理。2.如权利要求1所述的基于数据增强的中文语法纠错方法,其特征在于,所述BART噪声器中的噪声函数包括字屏蔽、随机字替换和文本填充的其中之一或任意组合。3.如权利要求2所述的基于数据增强的中文语法纠错方法,其特征在于,在训练神经语法纠错模型过程中,以预设固定概率,将当前轮训练批次的输入源语句中的每个字通过BART噪声器中的噪声函数进行映射处理,得到含有不同类型语法错误的句子,包括按照如下公式得到含有不同类型语法错误的句子:其中的第i个字由下式给出:式中,X
(t)
为第t轮的输入源语句,f
s
(x
i
)是BART噪声器中的噪声函数,s∈{TM,RS,TI,Mixed},TM为字屏蔽,RS为随机字替换,TI为文本填充,Mixed为字屏蔽、随机字替换和文本填充的任意组合,p是在[0,1]的均匀分布上产生的随机数,δ是固定概率。4.如权利要求3所述的基于数据增强的中文语法纠错方法,其特征在于,将含有不同类型语法错误的句子及输入源语句对应的目标语句作为所述当前轮训练批次的含噪样本对,训练所述神经语法纠错模型,包括:将及Y构建成新的句子对S
(t)
,训练所述神经语法纠错模型,其中:为含有不同类型语法错误的句子,Y为输入源语句对应的目标语句,S
(t)
为所述当前轮训练批次的含噪样本对。5.如权利要求1所述的基于数据增强的中文语法纠错方法,其特征在于,...

【专利技术属性】
技术研发人员:孙邱杰王凯樊小伟蓝海波闵睿刘剑青张锐宋磊刘晓敏张昊王明轩高欣耿艳李思
申请(专利权)人:国家电网有限公司北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1