一种用于训练英语语法改错模型的文本数据生成方法技术

技术编号：22444916 阅读：32 留言：0更新日期：2019-11-02 04:44

本发明专利技术涉及数据生成技术领域，尤其是一种用于训练英语语法改错模型的文本数据生成方法，其步骤为：(1)句子错误数量的引入；(2)确定错误类型；(3)根据错误类型进行相应的Word Tree替换；(4)利用WMT11单语言数据与One‑Billion‑Word单语言数据生成作为语法改错模型预训练数据，本发明专利技术有效提高语法改错模型的效果。

A text data generation method for training English grammar correction model

全部详细技术资料下载

【技术实现步骤摘要】
一种用于训练英语语法改错模型的文本数据生成方法
本专利技术涉及数据生成
，具体领域为一种用于训练英语语法改错模型的文本数据生成方法。
技术介绍
自动语法改错(GrammaticalErrorCorrection)可以看成一个翻译问题：把需要进行纠正的语言作为源语言，把改错后的语言作为目标语言的翻译过程。经典的统计翻译模型与神经翻译模型均在这个问题里都体现出了巨大的潜力。尤其随着近年来神经翻译的技术的发展，新模型、新算法的不断提出，基于神经翻译模型的自动语法改错模型性能得到了很大的提高。然而与翻译问题相比，自动语法改错的标注数据远远少于翻译的数据。而训练神经翻译模型，尤其是如Transformer需要较大的数据量才能充分发挥模型的表达能力。利用单语言数据被证明是个能够提高语法改错模型性能的有效方法。对于单语言数据的利用主要有几种策略：a.利用单语言数据预训练语法该错模型中的解码器；b.利用单语言数据人工构造错误数据。Junczys-Dowmunt等提出了利用大量单语言数据预训练改错模型的解码器的方法，该方法被证明可以有效提高语法改错模型的效果[1]。Lichtarge等提出利用WikipediaRevisions数据，人工构造错误数据，可以取得更好的效果，利用该方法构建的模型是CoNLL2014与JFLEG两个标准测试集上效果最好的。
技术实现思路
本专利技术的目的在于提供一种用于训练英语语法改错模型的文本数据生成方法，以解决现有技术中自动语法改错的标注数据远远少于翻译的数据的问题。为实现上述目的，本专利技术提供如下技术方案：一种用于训练英语语法改错模型的...

【技术保护点】
1.一种用于训练英语语法改错模型的文本数据生成方法，其特征在于：其步骤为：(1)句子错误数量的引入；(2)确定错误类型；(3)根据错误类型进行相应的Word Tree替换；(4)利用WMT11单语言数据与One‑Billion‑Word单语言数据生成作为语法改错模型预训练数据。

【技术特征摘要】
1.一种用于训练英语语法改错模型的文本数据生成方法，其特征在于：其步骤为：(1)句子错误数量的引入；(2)确定错误类型；(3)根据错误类型进行相应的WordTree替换；(4)利用WMT11单语言数据与One-Billion-Word单语言数据生成作为语法改错模型预训练数据。2.根据权利要求1所述的一种用于训练英语语法改错模型的文本数据生成方法，其特征在于：根据步骤(1)，以句子为单位引入错误，对每一句句子，根据一个与长度相关的随机变量决定该句引入多少个错误；当某一句子需要引入的错误数量确定之后，随机地从该句句子中挑选相应数量的词作为错误。3.根据权利要求2所述的一种用于训练英语语法改错模型的文本数据生成方法，其特征在于：根据步骤(2)，针对挑选的每个词，引入另外一个随机变量确定该词所要引入的错误类型。4.根据权利要求3所述的一种用于训练英语语法改错模型的文本数据生成方法，其特征在于：错误类型包括拼接错误、拼写错误、替换错误、删除错误、移位错误。5.根据权利要求4所述的一种用于训练英语语法改错模型的文本数据生成方法，其特征在于：若该错误是一个拼写错误，则需要另外一个随机变量根据单词长度来确认该单词中引入字符错误的数量。...

【专利技术属性】
技术研发人员：徐书尧，秦龙，陈进，
申请(专利权)人：北京先声智能科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人