【技术实现步骤摘要】
数据增强方法及装置、存储介质及电子设备
本公开涉及数据处理
,具体而言,涉及一种数据增强方法、数据增强装置、计算机可读存储介质及电子设备。
技术介绍
数据增强是一种用于扩充数据样本规模,提高数据质量的方法,属于深度学习的一种。数据增强可以应用于图像数据或文本数据。针对图像数据,常见的增强方式包括对图像数据进行空间几何变换、像素颜色变换等;针对文本数据,常见的增强方式包括对文本数据进行随机跳过或者同义词替换等。在文本数据中包括一种特殊数据——关系数据。关系数据包括用于表示两个对象之间的关系的数据,例如,在保险行业中,每一保险单上至少包括一个投保人和一个被保人,以及投保人和被保人之间的关系,因此保险单可以作为一种关系数据。然而,在通过传统的随机跳过或同义词替换对关系数据进行增强时,往往无法实现提高关系数据的质量的目的。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种数据增强方法、 ...
【技术保护点】
1.一种数据增强方法,其特征在于,包括:/n对待处理数据集中所有待处理数据包含的关系数据进行分类,以获取正常数据集和异常数据集;其中,所述关系数据包括两个目标对象的属性信息和两个所述目标对象之间的关系类别;/n根据所述正常数据集构建所述属性信息和所述关系类别之间的映射规则;/n根据所述映射规则将所述异常数据集中的异常数据包括的属性信息映射为目标关系类别,根据所述目标关系类别更新所述待处理数据集中对应的关系数据得到增强数据集。/n
【技术特征摘要】 【专利技术属性】
1.一种数据增强方法,其特征在于,包括:
对待处理数据集中所有待处理数据包含的关系数据进行分类,以获取正常数据集和异常数据集;其中,所述关系数据包括两个目标对象的属性信息和两个所述目标对象之间的关系类别;
根据所述正常数据集构建所述属性信息和所述关系类别之间的映射规则;
根据所述映射规则将所述异常数据集中的异常数据包括的属性信息映射为目标关系类别,根据所述目标关系类别更新所述待处理数据集中对应的关系数据得到增强数据集。
2.根据权利要求1所述的方法,其特征在于,所述映射规则包括预设转换规则和映射关系;
所述根据所述正常数据集构建所述属性信息和所述关系类别之间的映射规则,包括:
根据预设转换规则将各所述正常数据对应的属性信息转换为对应的特征标记;
构建各所述特征标记与各所述关系类别之间的映射关系。
3.根据权利要求2所述的方法,其特征在于,所述构建各所述特征标记与各所述关系类别之间的映射关系,包括:
从各所述特征标记中确定第一特征标记;
在所述正常数据集中提取所述特征标记等于所述第一特征标记的目标正常数据,并计算目标正常数据中不同关系类别出现的关系概率;
将最大的所述关系概率对应的关系类别确定为第一关系类别,构建所述第一特征标记与所述第一关系类别的映射关系。
4.根据权利要求2所述的方法,其特征在于,所述属性信息包括性别信息和年龄信息,所述特征标记对应的包括性别特征标记和年龄特征标记,所述预设转换规则对应的包括性别规则和年龄规则;
所述根据预设转换规则将各所述正常数据对应的属性信息转换为对应的特征标记,包括:
根据所述性别规则将各所述正常数据对应的性别信息转换为性别特征标记;
根据所述年龄规则将各所述正常数据对应的年龄信息转换为年龄特征标记。
5.根据权利要求4所述的方法,其特征在于,所述根据所述性别规则将所述性别信息转换为性别特征标记,包括:
在所述正常数据中包括的两个目标对象的性别信息相同时,将所述性别特征标记配置为第一预设标记;
在所述正常数据中包括的两个目标对象的性别信息不同时,将所述性别特征标记配置为第二预设标记。
6.根据权利要求4所述的方法,其特征在于,所述根据所述年龄规则将各所述正常数据对应的年龄信息转换为年龄特征标记,包括:
计算所述正常数据中包括的两个目标对象的年龄信息的差值,并将所述差值确定为所述年龄特征标记。
7.根据权利要求2所述的方法,其特征在于,所述根据所述映射规则将所述异常数据包括的属性信息映射为目标关系类别,包括:
技术研发人员:冯卉,崔星汉,鲍强,郭潇宇,
申请(专利权)人:天津幸福生命科技有限公司,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。