【技术实现步骤摘要】
一种文本纠错数据的构造方法、装置和存储介质
[0001]本专利技术涉及自然语言处理
,尤其涉及一种文本纠错数据的构造方法
、
装置和存储介质
。
技术介绍
[0002]基于预训练模型的方法在自然语言处理的很多下游任务中取得良好的效果,然而,为了使模型获得领域内的一些先验知识,模型需在某些下游任务,例如文本纠错任务中,进行二次预训练,伪数据的构造是文本纠错预训练过程的一个重要组成部分
。
伪数据为带有与目标任务近似的标注的训练数据,伪数据构造的初衷是由于有关文本纠错的数据比较少,人工标注文本纠错的数据代价也比较大,因此需要利用伪数据构造来进一步扩充数据,以此作为预训练的数据
。
伪数据构造的基本原则是使得构造的伪数据的错误类型尽可能的覆盖所有可能或已知的错误类型
。
[0003]现有的文本纠错伪数据构造主要是关注字音
、
字形
、
语言流畅性等信息
。
技术路线主要是通过混淆词典来构造伪数据或者将原始句
【技术保护点】
【技术特征摘要】
1.
一种文本纠错数据的构造方法,其特征在于,包括:获取第一语料数据,对所述第一语料数据进行词性标注,生成词性标签,根据所述词性标签对所述第一语料数据进行句法分析,生成句法标签;其中所述句法标签包括:主谓关系
、
动宾关系和状中关系;根据第一语料数据的词性标签和句法标签,构造对应错误类型的文本纠错数据;所述错误类型包括语序不当
、
成分残缺和成分赘余
。2.
如权利要求1所述的一种文本纠错数据的构造方法,其特征在于,所述对所述第一语料数据进行词性标注,生成词性标签,具体为:提取若干个第一语料数据的分词,对每个所述分词的词语标注词性标签;所述词性标签包括名词
、
动词和形容词
。3.
如权利要求2所述的一种文本纠错数据的构造方法,其特征在于,所述根据所述词性标签对所述第一语料数据进行句法分析,生成句法标签,具体为:确定第一语料数据的每个分词之间的依存关系,生成每个词的句法标签;所述句法标签包括主谓关系
、
动宾关系和状中关系
。4.
如权利要求1所述的一种文本纠错数据的构造方法,其特征在于,所述根据第一语料数据的词性标签和句法标签,构造对应的文本纠错数据,具体为:根据词性标签和句法标签依次判断第一语料数据中是否包含预设类型的分词;其中,所述预设类型包括同义词
、
近义词
、
关联词和状语;判断第一语料数据中的分词是否能够在近义词词表中匹配到近义词,若是,则生成成分赘余的构造信息;若所述第一语料数据中的分词不能够在近义词词表中匹配到近义词,则判断所述第一语料数据中是否包含关联词的分词;若是,则生成关联词语序不当的构造信息;若所述第一语料数据中不包含关联词的分词,则判断所述第一语料数据中是否包含状语的分词,若是,则生成状语语序不当的构造信息;若所述第一语料数据中不包含状语的分词,则生成成分残缺的构造信息;根据所述构造信息
、
词性标签和句法标签,构造对应的文本纠错数据
。5.
如权利要求4所述的一种文本纠错数据的构造方法,其特征在于,所述根据所述构造信息
、
词性标签和句法标签,构造对应的文本纠错数据,具体为:若构造信息为成分赘余,获取第一语料数据的近义词分词,在所述近义词分词左边或者右边随机插入近义词词表中对应的近义词,标注成分赘余的错误类型,生成文本纠错数据;若构造信息为关联词语序不当,则根据词性标签和句法标签,获取第一语料数据的一对关联词分词和主语分词,将所述主语分词移动到第一个关联词之前,标注关联词语序不当的错误类型,生成文本纠错数据;若构造信息为状语语序不当,则根据词性标签和句法标签,获取第一语料数据的状语分词及其修饰的动词或者宾语;若所述状语分词修饰宾语,则将所述状语分词移动到动词前面;若所述状语分词修饰动词,则将所述状语分词移动到动词宾语前面;标注状语语序不当的错误类型,生成文本纠错数据;若构造信息为成分残缺,则根据句法标签,将第一语料数据的句子的主语
、
谓语或者宾
语删除,并对应标注主语
、
谓语或者宾语残缺的错误类型,生成文本纠错数据
【专利技术属性】
技术研发人员:车万翔,王一轩,孙博,朱庆福,杨件,
申请(专利权)人:广东南方网络信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。