数据增强方法、装置、电子设备及存储介质制造方法及图纸

技术编号：32570098 阅读：18 留言：0更新日期：2022-03-09 16:57

本公开是关于一种数据增强方法、装置、电子设备及存储介质。该数据增强方法包括：对训练模型进行预处理；向所述训练模型输入带有训练标签及标识有掩码的训练语句；基于所述训练标签，通过所述训练模型对所述训练语句进行词汇扩展训练，得到扩展词汇；输出带有所述扩展词汇的扩展语句，其中，所述扩展语句通过所述扩展词汇替代所述掩码的位置得到。本申请中，由于放置扩展词汇的位置事先通过掩码确定出，因此得到的大量扩展词汇可放置于训练语句中的相同位置，从而可得到相同语序的扩展语句，有利于后续数据训练时对词汇的提取，进而实现数据增强。数据增强。数据增强。

全部详细技术资料下载

【技术实现步骤摘要】
数据增强方法、装置、电子设备及存储介质

[0001]本公开涉及计算机应用
，尤其涉及一种数据增强方法、装置、电子设备及存储介质。

技术介绍

[0002]深度学习是机器学习领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能(AI，Artificial Intelligence)。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。在深度学习时代，通过数据进行模型训练时，数据直接决定了模型能力的上限。而高质量、大规模的标注好的数据常常是难以获得的。

技术实现思路

[0003]本公开提供一种数据增强方法、数据增强装置、终端及存储介质。
[0004]本公开实施例的第一方面，提供一种数据增强方法，包括：
[0005]对训练模型进行预处理；
[0006]向所述训练模型输入带有训练标签及标识有掩码的训练语句；
[0007]基于所述训练标签，通过所述训练模型对所述训练语句进行词汇扩展训练，得到扩展词汇；
[0008]输出带有所述扩展词汇的扩展语句，其中，所述扩展语句通过所述扩展词汇替代所述掩码的位置得到。
[0009]在一些实施例中，所述基于所述训练标签，通过所述训练模型对所述训练语句进行词汇扩展训练，得到扩展词汇，包括：
[0010]确定待扩展词汇与所述训练标签间的关联关系；
[...

【技术保护点】

【技术特征摘要】
1.一种数据增强方法，其特征在于，所述方法包括：对训练模型进行预处理；向所述训练模型输入带有训练标签及标识有掩码的训练语句；基于所述训练标签，通过所述训练模型对所述训练语句进行词汇扩展训练，得到扩展词汇；输出带有所述扩展词汇的扩展语句，其中，所述扩展语句通过所述扩展词汇替代所述掩码的位置得到。2.根据权利要求1所述的数据增强方法，其特征在于，所述基于所述训练标签，通过所述训练模型对所述训练语句进行词汇扩展训练，得到扩展词汇，包括：确定待扩展词汇与所述训练标签间的关联关系；基于所述训练标签以及确定的所述关联关系，对所述训练语句进行训练，得到所述扩展词汇。3.根据权利要求2所述的数据增强方法，其特征在于，所述训练标签至少包括：表征情绪的情绪标签；所述关联关系为所述扩展词汇用于表征所述情绪标签中所述情绪产生原因；所述基于所述训练标签以及确定的所述关联关系，对所述训练语句进行训练，得到所述扩展词汇，至少包括：基于所述情绪标签以及所述关联关系，训练得到表征所述情绪产生原因的扩展词汇。4.根据权利要求1所述的数据增强方法，其特征在于，所述基于所述训练标签，通过所述训练模型对所述训练语句进行词汇扩展训练，得到扩展词汇，包括：确定所述掩码位置能够容纳的所述扩展词汇的词汇长度；基于所述训练标签，训练得到符合所述词汇长度的所述扩展词汇。5.根据权利要求1所述的数据增强方法，其特征在于，向所述训练模型输入带有训练标签及标识有掩码的训练语句之前，所述方法还包括：获取初始语句，所述...

【专利技术属性】
技术研发人员：李可，李嫣然，
申请(专利权)人：北京小米松果电子有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人