本发明专利技术提供了一种数据处理方法、装置及数据深度学习系统,其方法包括:获取采样样本的样本类别;按照预设代价函数,计算网络输出值和样本期望值之间的误差信息;其中,网络输出值是采样样本的样本数据经深度学习处理后的值,样本期望值是与样本类别对应的;根据样本类别和误差信息,计算代价函数的类别权重。本发明专利技术支持随机样本采样,提高处理效率,可以实现不均衡类别的类别权重的自适应,降低专业性要求。
A data processing method, device and data deep learning system
【技术实现步骤摘要】
一种数据处理方法、装置及数据深度学习系统
本专利技术涉及通信
,尤其涉及一种数据处理方法、装置及数据深度学习系统。
技术介绍
在深度学习中,样本不均衡是指不同类别的数据量差别较大,利用不均衡样本训练出来的模型泛化能力差并且容易发生过拟合。通常对不均衡数据的处理方法有对数据重采样,对数量多的样本进行降采样,或者对数量少的样本进行过采样以增加数据,这样不仅需要花费时间收集和整理数据,而且往往因为数据的低频特性难以执行。另外对不均衡数据的处理方法有对代价函数进行加权,由于权重的搜索空间大,同时受制于技术人员的经验水平,往往耗费时间而无法得到最优解。这些方法都需要技术人员花费时间和精力去完成,而且对技术人员有相当高的水平要求。
技术实现思路
本专利技术提供一种数据处理方法、装置及数据深度学习系统,解决了不均衡数据处理过程中处理效率低、专业要求高的问题。本专利技术的实施例提供了一种数据处理方法,应用于数据深度学习系统,其中,数据处理方法包括:获取采样样本的样本类别;按照代价函数,计算网络输出值和样本期望值之间的误差信息;其中,网络输出值是采样样本的样本数据经深度学习处理后的值,样本期望值是与样本类别对应的;根据样本类别和误差信息,计算代价函数的类别权重。可选地,根据样本类别和误差信息,计算代价函数的类别权重的步骤,包括:根据样本类别和误差信息,计算相同样本类别的采样样本的误差值;根据样本类别和误差值,计算不同样本类别的采样样本的误差反比;根据误差反比,计算代价函数的类别权重。可选地,根据样本类别和误差信息,计算相同样本类别的采样样本的误差值的步骤,包括:根据样本类别和误差信息,计算相同样本类别的多个采样样本的平均误差值;平均误差值为多个采样样本的算术平均误差,或者,平均误差值为多个采样样本的加权平均误差。可选地,根据样本类别和误差信息,计算代价函数的类别权重的步骤,包括:当需要更新数据深度学习系统的网络参数时,根据样本类别和误差信息,计算代价函数的类别权重。可选地,网络参数包括:深度学习神经网络层的参数、误差信息的均值和代价函数的类别权重中的至少一项。可选地,样本类别不同所对应的样本期望值不同。可选地,获取采样样本的样本类别的步骤,包括:逐次获取一个样本批次的采样样本,一个样本批次包括预设数目的采样样本,一个采样样本对应一个样本类别及一个样本数据。本专利技术的实施例还提供了一种数据处理装置,应用于数据深度学习系统,该数据处理装置包括:获取模块,用于获取采样样本的样本类别;第一计算模块,用于按照代价函数,计算网络输出值和样本期望值之间的误差信息;其中,网络输出值是采样样本的样本数据经深度学习处理后的值,样本期望值是与样本类别对应的;第二计算模块,用于根据样本类别和误差信息,计算代价函数的类别权重。可选地,第二计算模块包括:第一计算子模块,用于根据样本类别和误差信息,计算相同样本类别的采样样本的误差值;第二计算子模块,用于根据样本类别和误差值,计算不同样本类别的采样样本的误差反比;第三计算子模块,用于根据误差反比,计算代价函数的类别权重。可选地,第一计算子模块包括:第一计算单元,用于根据样本类别和误差信息,计算相同样本类别的多个采样样本的平均误差值;平均误差值为多个采样样本的算术平均误差,或者,平均误差值为多个采样样本的加权平均误差。可选地,第二计算模块还包括:计算子模块,用于当需要更新数据深度学习系统的网络参数时,根据样本类别和误差信息,计算代价函数的类别权重。可选地,网络参数包括:深度学习神经网络层的参数、误差信息的均值和代价函数的类别权重中的至少一项。可选地,样本类别不同所对应的样本期望值不同。可选地,获取模块包括:获取子模块,用于逐次获取一个样本批次的采样样本,一个样本批次包括预设数目的采样样本,一个采样样本对应一个样本类别及一个样本数据。本专利技术的实施例还提供了一种数据深度学习系统,包括:样本训练集、类别误差计算层、代价函数层和深度学习神经网络层;其中,深度学习神经网络层,用于将样本训练集输出的采样样本的样本数据进行处理,并向代价函数层输出相应的网络输出值;代价函数层,用于计算网络输出值与样本训练集输出的采样样本的样本期望值之间的误差信息,并向类别误差计算层输出误差信息;类别误差计算层,用于执行以下步骤:接收样本训练集输出的采样样本的样本类别;接收代价函数层输出的网络输出值和样本期望值之间的误差信息;根据样本类别和误差信息,计算代价函数层中代价函数的类别权重,以调整代价函数层。本专利技术的上述技术方案的有益效果是:支持随机样本采样,提高处理效率,可以实现不均衡类别的类别权重的自适应,降低专业性要求。附图说明图1表示本专利技术实施例的数据处理方法的流程示意图;图2表示本专利技术实施例的数据处理装置的模块结构示意图;图3表示本专利技术实施例的数据深度学习系统的框图。具体实施方式为使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本专利技术的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本专利技术的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本专利技术的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。在本专利技术的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本专利技术实施例的实施过程构成任何限定。在本申请所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。如图1所示,本专利技术的实施例提供了一种数据处理方法,具体包括以下步骤:步骤11:获取采样样本的样本类别。其中,采样样本可以包括不均衡数据,采样样本的样本不均衡,即不同样本类别的数据量差别较大。采样样本可以是从训练数据中随机采样训练得到的,采样样本具有各自的属性信息,属性信息可以包括但不限于:样本类别和样本数据。也就是说,每个采样样本对应各自的样本类别和样本数据。其中,样本类别指的是采样样本的类别粒度,即不能再划分的样本类别,例如采样样本中有关于人、猫和狗的数据,对于人的采样样本中,类别包括:年龄、性别、职业、身高和体重等,而对于年本文档来自技高网...
【技术保护点】
1.一种数据处理方法,应用于数据深度学习系统,其特征在于,所述数据处理方法包括:/n获取采样样本的样本类别;/n按照代价函数,计算网络输出值和样本期望值之间的误差信息;其中,所述网络输出值是所述采样样本的样本数据经深度学习处理后的值,所述样本期望值是与所述样本类别对应的;/n根据所述样本类别和所述误差信息,计算所述代价函数的类别权重。/n
【技术特征摘要】
1.一种数据处理方法,应用于数据深度学习系统,其特征在于,所述数据处理方法包括:
获取采样样本的样本类别;
按照代价函数,计算网络输出值和样本期望值之间的误差信息;其中,所述网络输出值是所述采样样本的样本数据经深度学习处理后的值,所述样本期望值是与所述样本类别对应的;
根据所述样本类别和所述误差信息,计算所述代价函数的类别权重。
2.根据权利要求1所述的数据处理方法,其特征在于,根据所述样本类别和所述误差信息,计算所述代价函数的类别权重的步骤,包括:
根据所述样本类别和所述误差信息,计算相同样本类别的采样样本的误差值;
根据所述样本类别和所述误差值,计算不同样本类别的采样样本的误差反比;
根据所述误差反比,计算所述代价函数的类别权重。
3.根据权利要求2所述的数据处理方法,其特征在于,根据所述样本类别和所述误差信息,计算相同样本类别的采样样本的误差值的步骤,包括:
根据所述样本类别和所述误差信息,计算相同样本类别的多个采样样本的平均误差值;所述平均误差值为所述多个采样样本的算术平均误差,或者,所述平均误差值为所述多个采样样本的加权平均误差。
4.根据权利要求1至3任一项所述的数据处理方法,其特征在于,根据所述样本类别和所述误差信息,计算所述代价函数的类别权重的步骤,包括:
当需要更新所述数据深度学习系统的网络参数时,根据所述样本类别和所述误差信息,计算所述代价函数的类别权重。
5.根据权利要求4所述的数据处理方法,其特征在于,所述网络参数包括:深度学习神经网络的参数、所述误差信息的均值和所述代价函数的类别权重中的至少一项。
6.根据权利要求1所述的数据处理方法,其特征在于,所述样本类别不同所对应的样本期望值不同。
7.根据权利要求1所述的数据处理方法,其特征在于,获取采样样本的样本类别的步骤,包括:
逐次获取一个样本批次的采样样本,所述一个样本批次包括预设数目的采样样本,一个采样样本对应一个样本类别及一个样本数据。
8.一种数据处理装置,应用于数据深度学习系统,其特征在于,所述数据处理装置包括:
获取模块,用于获取采样样本的样本类别;
第一计算模块,用于按照代价函数,计算网络输出值和样本期望值之间的误差信息;其中,所述网络输出值是所述采样样本的样本数据经深度学习处理后的值,所述样本期望值是与所述样本类别对应的;
第二计...
【专利技术属性】
技术研发人员:郭勐,
申请(专利权)人:中国移动通信有限公司研究院,中国移动通信集团有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。