数据增强方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32570098 阅读:18 留言:0更新日期:2022-03-09 16:57
本公开是关于一种数据增强方法、装置、电子设备及存储介质。该数据增强方法包括:对训练模型进行预处理;向所述训练模型输入带有训练标签及标识有掩码的训练语句;基于所述训练标签,通过所述训练模型对所述训练语句进行词汇扩展训练,得到扩展词汇;输出带有所述扩展词汇的扩展语句,其中,所述扩展语句通过所述扩展词汇替代所述掩码的位置得到。本申请中,由于放置扩展词汇的位置事先通过掩码确定出,因此得到的大量扩展词汇可放置于训练语句中的相同位置,从而可得到相同语序的扩展语句,有利于后续数据训练时对词汇的提取,进而实现数据增强。数据增强。数据增强。

【技术实现步骤摘要】
数据增强方法、装置、电子设备及存储介质


[0001]本公开涉及计算机应用
,尤其涉及一种数据增强方法、装置、电子设备及存储介质。

技术介绍

[0002]深度学习是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI,Artificial Intelligence)。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。在深度学习时代,通过数据进行模型训练时,数据直接决定了模型能力的上限。而高质量、大规模的标注好的数据常常是难以获得的。

技术实现思路

[0003]本公开提供一种数据增强方法、数据增强装置、终端及存储介质。
[0004]本公开实施例的第一方面,提供一种数据增强方法,包括:
[0005]对训练模型进行预处理;
[0006]向所述训练模型输入带有训练标签及标识有掩码的训练语句;
[0007]基于所述训练标签,通过所述训练模型对所述训练语句进行词汇扩展训练,得到扩展词汇;
[0008]输出带有所述扩展词汇的扩展语句,其中,所述扩展语句通过所述扩展词汇替代所述掩码的位置得到。
[0009]在一些实施例中,所述基于所述训练标签,通过所述训练模型对所述训练语句进行词汇扩展训练,得到扩展词汇,包括:
[0010]确定待扩展词汇与所述训练标签间的关联关系;
[0011]基于所述训练标签以及确定的所述关联关系,对所述训练语句进行训练,得到所述扩展词汇。
[0012]在一些实施例中,所述训练标签至少包括:表征情绪的情绪标签;
[0013]所述关联关系为所述扩展词汇用于表征所述情绪标签中所述情绪产生原因;
[0014]所述基于所述训练标签以及确定的所述关联关系,对所述训练语句进行训练,得到所述扩展词汇,至少包括:
[0015]基于所述情绪标签以及所述关联关系,训练得到表征所述情绪产生原因的扩展词汇。
[0016]在一些实施例中,所述基于所述训练标签,通过所述训练模型对所述训练语句进行词汇扩展训练,得到扩展词汇,包括:
[0017]确定所述掩码位置能够容纳的所述扩展词汇的词汇长度;
[0018]基于所述训练标签,训练得到符合所述词汇长度的所述扩展词汇。
[0019]在一些实施例中,向所述训练模型输入带有训练标签及标识有掩码的训练语句之前,所述方法还包括:
[0020]获取初始语句,所述初始语句包括用户问询语句;
[0021]用所述掩码遮挡所述初始语句中与所述训练标签关联的词汇;
[0022]确定被遮挡词汇所在位置为所述掩码的位置。
[0023]在一些实施例中,所述对训练模型进行预处理,至少包括:
[0024]获取预定领域内未带有所述训练标签的训练词汇,其中所述训练词汇具有所述预定领域的语言特征;
[0025]向所述训练模型输入所述训练词汇;
[0026]基于所述训练词汇对所述训练模型进行训练。
[0027]在一些实施例中,所述方法还包括:
[0028]在情感对话任务中,确定出所述训练标签,其中,所述训练标签用于表征所述情感对话任务中涉及到的情绪类别;
[0029]基于表征所述情绪类别的训练标签,训练得到所述扩展词汇。
[0030]本公开实施例的第二方面,提供一种数据增强装置,所述装置包括:
[0031]第一处理单元,用于对训练模型进行预处理;
[0032]第二处理单元,用于向所述训练模型输入带有训练标签及标识有掩码的训练语句;
[0033]第三处理单元,用于基于所述训练标签,通过所述训练模型对所述训练语句进行词汇扩展训练,得到扩展词汇;
[0034]第四处理单元,用于输出带有所述扩展词汇的扩展语句,其中,所述扩展语句通过所述扩展词汇替代所述掩码的位置得到。
[0035]本公开实施例的第三方面,提供一种终端,包括:处理器和存储器,所述存储器上存储有能够在处理器上运行的计算机程序,所述处理器用于运行所述计算机程序时,执行第一方面所述方法的步骤。
[0036]本公开实施例的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现第一方面所述方法的步骤。
[0037]本公开的实施例提供的技术方案可以包括以下有益效果:
[0038]本公开实施例中的数据增强方法包括:对训练模型进行预处理;向训练模型输入带有训练标签及标识有掩码的训练语句;基于训练标签,通过训练模型对训练语句进行词汇扩展训练,得到扩展词汇;输出带有扩展词汇的扩展语句,其中,扩展语句通过扩展词汇替代掩码的位置得到。本申请中,通过训练模型进行训练语句时,可先通过掩码确定出训练语句中放置扩展词汇的位置,然后将标识有掩码的训练语句输入训练模型;基于训练标签对训练语句进行训练来得到与训练标签关联的扩展词汇;最后通过扩展词汇替代所述掩码的位置得到带有扩展词汇的扩展语句。由于放置扩展词汇的位置事先通过掩码确定出,因此得到的大量扩展词汇可放置于训练语句中的相同位置,从而可得到相同语序的扩展语句,有利于后续数据训练时对词汇的提取(扩展语句语序相同,且扩展词汇位于同一位置),进而实现数据增强。
[0039]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不
能限制本公开。
附图说明
[0040]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0041]图1是根据本公开一示例性实施例示出的一种数据增强方法流程图。
[0042]图2是根据本公开一示例性实施例示出的一种数据增强方法应用示意图一。
[0043]图3是根据本公开一示例性实施例示出的一种数据增强方法应用示意图二。
[0044]图4是根据本公开一示例性实施例示出的一种数据增强装置结构示意图。
[0045]图5是根据本公开一示例性实施例示出的一种电子设备的框图。
具体实施方式
[0046]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置的例子。
[0047]深度学习是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI,Artificial Intelligence)。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据增强方法,其特征在于,所述方法包括:对训练模型进行预处理;向所述训练模型输入带有训练标签及标识有掩码的训练语句;基于所述训练标签,通过所述训练模型对所述训练语句进行词汇扩展训练,得到扩展词汇;输出带有所述扩展词汇的扩展语句,其中,所述扩展语句通过所述扩展词汇替代所述掩码的位置得到。2.根据权利要求1所述的数据增强方法,其特征在于,所述基于所述训练标签,通过所述训练模型对所述训练语句进行词汇扩展训练,得到扩展词汇,包括:确定待扩展词汇与所述训练标签间的关联关系;基于所述训练标签以及确定的所述关联关系,对所述训练语句进行训练,得到所述扩展词汇。3.根据权利要求2所述的数据增强方法,其特征在于,所述训练标签至少包括:表征情绪的情绪标签;所述关联关系为所述扩展词汇用于表征所述情绪标签中所述情绪产生原因;所述基于所述训练标签以及确定的所述关联关系,对所述训练语句进行训练,得到所述扩展词汇,至少包括:基于所述情绪标签以及所述关联关系,训练得到表征所述情绪产生原因的扩展词汇。4.根据权利要求1所述的数据增强方法,其特征在于,所述基于所述训练标签,通过所述训练模型对所述训练语句进行词汇扩展训练,得到扩展词汇,包括:确定所述掩码位置能够容纳的所述扩展词汇的词汇长度;基于所述训练标签,训练得到符合所述词汇长度的所述扩展词汇。5.根据权利要求1所述的数据增强方法,其特征在于,向所述训练模型输入带有训练标签及标识有掩码的训练语句之前,所述方法还包括:获取初始语句,所述...

【专利技术属性】
技术研发人员:李可李嫣然
申请(专利权)人:北京小米松果电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1