一种用于训练英语语法改错模型的文本数据生成方法技术

技术编号:22444916 阅读:32 留言:0更新日期:2019-11-02 04:44
本发明专利技术涉及数据生成技术领域,尤其是一种用于训练英语语法改错模型的文本数据生成方法,其步骤为:(1)句子错误数量的引入;(2)确定错误类型;(3)根据错误类型进行相应的Word Tree替换;(4)利用WMT11单语言数据与One‑Billion‑Word单语言数据生成作为语法改错模型预训练数据,本发明专利技术有效提高语法改错模型的效果。

A text data generation method for training English grammar correction model

【技术实现步骤摘要】
一种用于训练英语语法改错模型的文本数据生成方法
本专利技术涉及数据生成
,具体领域为一种用于训练英语语法改错模型的文本数据生成方法。
技术介绍
自动语法改错(GrammaticalErrorCorrection)可以看成一个翻译问题:把需要进行纠正的语言作为源语言,把改错后的语言作为目标语言的翻译过程。经典的统计翻译模型与神经翻译模型均在这个问题里都体现出了巨大的潜力。尤其随着近年来神经翻译的技术的发展,新模型、新算法的不断提出,基于神经翻译模型的自动语法改错模型性能得到了很大的提高。然而与翻译问题相比,自动语法改错的标注数据远远少于翻译的数据。而训练神经翻译模型,尤其是如Transformer需要较大的数据量才能充分发挥模型的表达能力。利用单语言数据被证明是个能够提高语法改错模型性能的有效方法。对于单语言数据的利用主要有几种策略:a.利用单语言数据预训练语法该错模型中的解码器;b.利用单语言数据人工构造错误数据。Junczys-Dowmunt等提出了利用大量单语言数据预训练改错模型的解码器的方法,该方法被证明可以有效提高语法改错模型的效果[1]。Lichtarge等提出利用WikipediaRevisions数据,人工构造错误数据,可以取得更好的效果,利用该方法构建的模型是CoNLL2014与JFLEG两个标准测试集上效果最好的。
技术实现思路
本专利技术的目的在于提供一种用于训练英语语法改错模型的文本数据生成方法,以解决现有技术中自动语法改错的标注数据远远少于翻译的数据的问题。为实现上述目的,本专利技术提供如下技术方案:一种用于训练英语语法改错模型的文本数据生成方法,其步骤为:(1)句子错误数量的引入;(2)确定错误类型;(3)根据错误类型进行相应的WordTree替换;(4)利用WMT11单语言数据与One-Billion-Word单语言数据生成作为语法改错模型预训练数据。优选的,根据步骤(1),以句子为单位引入错误,对每一句句子,根据一个与长度相关的随机变量决定该句引入多少个错误;当某一句子需要引入的错误数量确定之后,随机地从该句句子中挑选相应数量的词作为错误。优选的,根据步骤(2),针对挑选的每个词,引入另外一个随机变量确定该词所要引入的错误类型。优选的,错误类型包括拼接错误、拼写错误、替换错误、删除错误、移位错误。优选的,若该错误是一个拼写错误,则需要另外一个随机变量根据单词长度来确认该单词中引入字符错误的数量。优选的,根据单词长度确定需要在单词中插入的字符数量之后,随机抽取单词中相应数量的字符作为字符错误,针对一个单词中的每个字符错误,引入一个随机变量确认每个字符错误类型;字符错误的类型包括删除当前字符、随机插入一个英文字符、与后一个字符交换位置、随机替换为任意一个英语字母。优选的,替换错误的替换方式包括介词间替换、冠词间替换、单数人称代词间替换、复数人称代词间替、Wh词替换、情态动词间替、WordTree中的替换。优选的,根据步骤(3),WordTree是一组拥有相同词根、不同后缀的单词。优选的,根据EPOS制定规则或确定概率分布决定哪些替换容易发生。优选的,根据步骤(4),在生成数据上训练1epoch后,在Lang-8数据集上训练20epoch。与现有技术相比,本专利技术的有益效果是:通过本方法训练的Singsound系统,在CoNLL2014上,无论单模型还是四模型融合都超过了之前的state-of-the-art系统,融合模型得到了8.4%的显著提升。在CoNLL10与JFLEG上均达到了人类水平;利用该方法生成数据训练的语法改错模型在CoNLL2014与JFLEG两个语法改错标准数据集上均取得了更好的结果。附图说明图1为本专利技术的WordTree替换的实施例树状衍生图;具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。利用单语言数据人工构造语法错误,对于训练基于神经翻译框架的语法改错模型是一种有效的方法。然而Lichtarge等提出的构造语法错误的方法——句子中每个字符有0.03的概率突变——比较简单,错误类型比较单一。针对该问题,本专利公开一种系统地构建语法错误的方法。表1:生成数据样列如表1所示,该方法可以构建出拼写错误(如,price→puice),移位错误(如,independentvoters→votersindependent),拼接错误(如,theman→theman),词形错误(如,ramped→ramping)等。利用该方法生成数据训练的语法改错模型在CoNLL2014与JFLEG两个语法改错标准数据集上均取得了更好的结果。本专利技术提供一种技术方案:一种用于训练英语语法改错模型的文本数据生成方法,其步骤为:(1)句子错误数量的引入;(2)确定错误类型;(3)根据错误类型进行相应的WordTree替换;(4)利用WMT11单语言数据与One-Billion-Word单语言数据生成作为语法改错模型预训练数据。根据步骤(1),以句子为单位引入错误,对每一句句子,根据一个与长度相关的随机变量(随机变量参数见表2)决定该句引入多少个错误;当某一句子需要引入的错误数量确定之后,随机地从该句句子中挑选相应数量的词作为错误。表2句子错误数量根据步骤(2),针对挑选的每个词,引入另外一个随机变量确定该词所要引入的错误类型。表3错误类型错误类型包括:拼接错误,如helloworld→helloworld;拼写错误,如computer→camputer;删除错误,删除当前的词;移位错误,与句子中下一个词交换位置;替换错误的替换方式包括介词间替换、冠词间替换、单数人称代词间替换、复数人称代词间替、Wh词替换、情态动词间替、WordTree中的替换:本专利技术设计了七种替换方式:a.介词间替换,如:in,on,at,through,for,with;b.冠词间替换,如:a,an,the;c.单数人称代词间替换,如:he,she,his,him,her,hers;d.复数人称代词间替换,如:their,them,they,theirs;e.Wh词替换,如:which,where,what,how,when,who,whose,whom;f.情态动词间替换,如:will,shall,can,may,would,could,might;g.WordTree中的替换。针对挑选的每个词,引入另外一个随机变量来(表3)确定该词所要引入的错误类型。若该错误是一个拼写错误,则需要另外一个随机变量根据单词长度来确认该单词中引入字符错误的数量(表4);表4拼写错误数量根据单词长度确定需要在单词中插入的字符数量之后,随机抽取单词中相应数量的字符作为字符错误,针对一个单词中的每个字符错误,引入一个随机变量确认每个字符错误类型;字符错误的类型本文设计了四种字符错误类型:a.删除:删除当前字符;b.插入:随机插入一个英文字符;c.交换:与后一个字符交换位置;d.替换:随机替换为任意一个英语字母。根据单词本文档来自技高网...

【技术保护点】
1.一种用于训练英语语法改错模型的文本数据生成方法,其特征在于:其步骤为:(1)句子错误数量的引入;(2)确定错误类型;(3)根据错误类型进行相应的Word Tree替换;(4)利用WMT11单语言数据与One‑Billion‑Word单语言数据生成作为语法改错模型预训练数据。

【技术特征摘要】
1.一种用于训练英语语法改错模型的文本数据生成方法,其特征在于:其步骤为:(1)句子错误数量的引入;(2)确定错误类型;(3)根据错误类型进行相应的WordTree替换;(4)利用WMT11单语言数据与One-Billion-Word单语言数据生成作为语法改错模型预训练数据。2.根据权利要求1所述的一种用于训练英语语法改错模型的文本数据生成方法,其特征在于:根据步骤(1),以句子为单位引入错误,对每一句句子,根据一个与长度相关的随机变量决定该句引入多少个错误;当某一句子需要引入的错误数量确定之后,随机地从该句句子中挑选相应数量的词作为错误。3.根据权利要求2所述的一种用于训练英语语法改错模型的文本数据生成方法,其特征在于:根据步骤(2),针对挑选的每个词,引入另外一个随机变量确定该词所要引入的错误类型。4.根据权利要求3所述的一种用于训练英语语法改错模型的文本数据生成方法,其特征在于:错误类型包括拼接错误、拼写错误、替换错误、删除错误、移位错误。5.根据权利要求4所述的一种用于训练英语语法改错模型的文本数据生成方法,其特征在于:若该错误是一个拼写错误,则需要另外一个随机变量根据单词长度来确认该单词中引入字符错误的数量。...

【专利技术属性】
技术研发人员:徐书尧秦龙陈进
申请(专利权)人:北京先声智能科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1