一种知识蒸馏过程中增强文本数据的方法及装置制造方法及图纸

技术编号:24938350 阅读:50 留言:0更新日期:2020-07-17 21:01
本发明专利技术公开了一种知识蒸馏过程中增强文本数据的方法及装置,包括:获取第一预设数目个当前文本数据;根据判定结果对当前文本数据进行增强处理;输出增强处理后的当前文本数据。通过获取第一预设数目个当前文本数据保证了知识蒸馏的需要,通过对当前文本数据进行判定并根据判定结果来对当前文本数据进行增强处理来获得更多的文本数据,进而可以使得训练模型可以获得大量的训练数据,解决了现有技术中由于训练模型得不到足够的训练数据会导致模型的学习能力降低、训练过程中出现数据拟合的问题。

【技术实现步骤摘要】
一种知识蒸馏过程中增强文本数据的方法及装置
本专利技术涉及数据处理
,尤其涉及一种知识蒸馏过程中增强文本数据的方法及装置。
技术介绍
知识蒸馏是一种常见的模型压缩方法,目前,知识蒸馏的方法越来越被普及,在“教师-学生”框架中,将复杂、学习能力强的教师网络学到的特征知识迁移到简单、学习能力弱的学生网络,以提高学生网络的精度,但是,这种方法只是从教师网络发送定量的文本数据到学生网络,教师端和学生端之间训练模型的数据有限,由于在蒸馏过程中教师网络需要需要推送大量的数据作为知识载体所以从而无法满足知识蒸馏的需要,并且训练模型得不到足够的训练数据会导致模型的学习能力降低、训练过程中出现数据拟合。
技术实现思路
针对上述所显示出来的问题,本方法基于在知识蒸馏过程中获取预设数目个当前文本数据以保证能够满足知识蒸馏的需要,然后对当前文本数据进行判定,根据判定结果对当前文本数据进行增强处理最后输出增强处理后的当前年文本数据来实现知识蒸馏过程中增强文本数据。一种知识蒸馏过程中增强文本数据的方法,包括以下步骤:获取第一预设数目个当前文本数据;对所述当前文本数据进行判定,获得判定结果;根据所述判定结果对所述当前文本数据进行增强处理;输出增强处理后的所述当前文本数据。优选的,所述获取第一预设数目个当前文本数据,包括:接收教师端发出的远大于所述第一预设数目个第一文本数据;将所述第一文本数据进行查重处理;将查重处理之后的第一文本数据确认为第二文本数据;将第一预设数目个所述第二文本数据进行压缩;获取压缩后的第二文本数据,将所述压缩后的第二文本数据确定为所述当前文本数据。优选的,所述对所述当前文本数据进行判定,获得判定结果,包括:对所述当前文本数据进行解压获得第一预设数目个当前文本数据;获取所述第一预设数目个当前文本数据中的每个当前文本数据的文本内容;设定所述每个当前文本数据的文本内容中的第一单词序列为{W1,...,Wn};其中,所述w1为每个文本内容中的第一个单词,所述wn为每个文本内容中的最后一个单词;计算所述第一单词序列中的每一个单词的随机数值Xi,其中XI的取值范围为(0,1);设定第一阈值参数Pmask∈[0,1],第二阈值参数PPOS∈[0,1];判定所述随机数值Xi与所述第一阈值参数和第二阈值参数的大小关系,获得所述判定结果。优选的,所述根据判定结果对所述当前文本数据进行增强处理,包括:当所述随机数值Xi小于所述第一阈值参数时,将所述Xi替换为[MASK];当所述随机数值Xi大于等于所述第一阈值参数并且小于第一阈值参数和第二阈值参数之和时,将所述随机数值Xi替换为与其词性相同的单词;当所述随机数值Xi大于等于所述第一阈值参数和第二阈值参数之和时,无需进行改动;保存改动后的第一单词序列;对改动后的每个单词序列迭代N次,获得N个增强后的单词序列;将改动后的每个单词序列和其对应的N个增强后的单词序列利用语言模型计算困惑度并将计算出来的困惑度按照从小到大的顺序排列;选取困惑度最小的单词序列作为第二单词序列;将所述第二单词序列替换为所述当前文本数据中的所述第一单词序列。优选的,所述输出增强处理后的所述当前文本数据,包括:当所述当前文本数据中的第一单词序列都替换完毕后,将所述当前文本数据进行二次压缩;将二次压缩后的所述当前文本数据发送到学生端。一种知识蒸馏过程中增强文本数据的装置,该装置包括:获取模块,用于获取第一预设数目个当前文本数据;判定模块,用于对所述当前文本数据进行判定,获得判定结果;增强处理模块,用于根据所述判定结果对所述当前文本数据进行增强处理;输出模块,用于输出增强处理后的所述当前文本数据。优选的,所述获取模块,包括:接收子模块,用于接收教师端发出的远大于所述第一预设数目个第一文本数据;查重子模块,用于将所述第一文本数据进行查重处理;确认子模块,用于将查重处理之后的第一文本数据确认为第二文本数据;压缩子模块,用于将第一预设数目个所述第二文本数据进行压缩;获取压缩后的第二文本数据,将所述压缩后的第二文本数据确定为所述当前文本数据。优选的,所述判定模块,包括:解压子模块,用于对所述当前文本数据进行解压获得第一预设数目个当前文本数据;获取子模块,用于获取所述第一预设数目个当前文本数据中的每个当前文本数据的文本内容;第一设定子模块,用于设定所述每个当前文本数据的文本内容中的第一单词序列为{W1,...,Wn};其中,所述w1为每个文本内容中的第一个单词,所述wn为每个文本内容中的最后一个单词;第一计算子模块,用于计算所述第一单词序列中的每一个单词的随机数值Xi,其中XI的取值范围为(0,1);第二设定子模块,用于设定第一阈值参数Pmask∈[0,1],第二阈值参数PPOS∈[0,1];判定子模块,用于判定所述随机数值Xi与所述第一阈值参数和第二阈值参数的大小关系,获得所述判定结果。优选的,所述增强处理模块,包括:第一替换子模块,用于当所述判定子模块判定所述随机数值Xi小于所述第一阈值参数时,将所述Xi替换为[MASK];第二替换子模块,用于当所述判定子模块判定所述随机数值Xi大于等于所述第一阈值参数并且小于第一阈值参数和第二阈值参数之和时,将所述随机数值Xi替换为与其词性相同的单词;保持子模块,用于当所述判定子模块判定所述随机数值Xi大于等于所述第一阈值参数和第二阈值参数之和时,无需进行改动;保存子模块,用于保存改动后的第一单词序列;迭代子模块,用于对改动后的每个单词序列迭代N次,获得N个增强后的单词序列;第二计算子模块,用于将改动后的每个单词序列和其对应的N个增强后的单词序列利用语言模型计算困惑度并将计算出来的困惑度按照从小到大的顺序排列;选取子模块,用于选取困惑度最小的单词序列作为第二单词序列;第三替换子模块,用于将所述第二单词序列替换为所述当前文本数据中的所述第一单词序列。优选的,所述输出模块,包括:二次压缩子模块,用于当所述当前文本数据中的第一单词序列都替换完毕后,将所述当前文本数据进行二次压缩;发送子模块,用于将二次压缩后的所述当前文本数据发送到学生端。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明图1为本专利技术所提供的一种知识蒸馏过程中增强文本数据的方法的工作流程图;图2为本专利技术所提供的一种知识蒸馏过程中增强文本数据的方法的另一工本文档来自技高网...

【技术保护点】
1.一种知识蒸馏过程中增强文本数据的方法,其特征在于,包括以下步骤:/n获取第一预设数目个当前文本数据;/n对所述当前文本数据进行判定,获得判定结果;/n根据所述判定结果对所述当前文本数据进行增强处理;/n输出增强处理后的所述当前文本数据。/n

【技术特征摘要】
1.一种知识蒸馏过程中增强文本数据的方法,其特征在于,包括以下步骤:
获取第一预设数目个当前文本数据;
对所述当前文本数据进行判定,获得判定结果;
根据所述判定结果对所述当前文本数据进行增强处理;
输出增强处理后的所述当前文本数据。


2.根据权利要求1所述知识蒸馏过程中增强文本数据的方法,其特征在于,所述获取第一预设数目个当前文本数据,包括:
接收教师端发出的远大于所述第一预设数目个第一文本数据;
将所述第一文本数据进行查重处理;
将查重处理之后的第一文本数据确认为第二文本数据;
将第一预设数目个所述第二文本数据进行压缩;获取压缩后的第二文本数据,将所述压缩后的第二文本数据确定为所述当前文本数据。


3.根据权利要求1所述知识蒸馏过程中增强文本数据的方法,其特征在于,所述对所述当前文本数据进行判定,获得判定结果,包括:
对所述当前文本数据进行解压获得第一预设数目个当前文本数据;
获取所述第一预设数目个当前文本数据中的每个当前文本数据的文本内容;
设定所述每个当前文本数据的文本内容中的第一单词序列为{W1,...,Wn};其中,所述w1为每个文本内容中的第一个单词,所述wn为每个文本内容中的最后一个单词;
计算所述第一单词序列中的每一个单词的随机数值Xi,其中XI的取值范围为(0,1);
设定第一阈值参数Pmask∈[0,1],第二阈值参数PPOS∈[0,1];
判定所述随机数值Xi与所述第一阈值参数和第二阈值参数的大小关系,获得所述判定结果。


4.根据权利要求1所述知识蒸馏过程中增强文本数据的方法,其特征在于,所述根据判定结果对所述当前文本数据进行增强处理,包括:
当所述随机数值Xi小于所述第一阈值参数时,将所述Xi替换为[MASK];
当所述随机数值Xi大于等于所述第一阈值参数并且小于第一阈值参数和第二阈值参数之和时,将所述随机数值Xi替换为与其词性相同的单词;
当所述随机数值Xi大于等于所述第一阈值参数和第二阈值参数之和时,无需进行改动;
保存改动后的第一单词序列;
对改动后的每个单词序列迭代N次,获得N个增强后的单词序列;
将改动后的每个单词序列和其对应的N个增强后的单词序列利用语言模型计算困惑度并将计算出来的困惑度按照从小到大的顺序排列;
选取困惑度最小的单词序列作为第二单词序列;
将所述第二单词序列替换为所述当前文本数据中的所述第一单词序列。


5.根据权利要求1所述知识蒸馏过程中增强文本数据的方法,其特征在于,所述输出增强处理后的所述当前文本数据,包括:
当所述当前文本数据中的第一单词序列都替换完毕后,将所述当前文本数据进行二次压缩;
将二次压缩后的所述当前文本数据发送到学生端。


6.一种知识蒸馏过程中增强文本数据的装置,其特征在于,该装置包括:
获取模块,用于获取第一预设数目个当前文本数据;
判定模块,用于对所述当前文本数据进行判...

【专利技术属性】
技术研发人员:姜姗
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1