一种数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39255713 阅读:10 留言:0更新日期:2023-10-30 12:07
本申请公开了一种数据处理方法、装置、电子设备及存储介质,涉及人工智能技术领域,该方法包括:获取多个第一训练数据集,多个第一训练数据集对应不同的测试批次;每个第一训练数据集包括多个多媒体样本和每个多媒体样本在对应测试批次测试得到的测试结果标签;确定每个多媒体样本对应的测试结果误差;基于测试结果误差,对多个第一训练数据集进行误差分布关联分析,得到表征两两第一训练数据集间噪声分布相似程度的误差关联信息;基于误差关联信息,对多个第一训练数据集进行聚类处理,得到多个第二训练数据集;对多个第二训练数据集分别进行降噪过滤处理,得到目标训练数据集。利用本申请提供的技术方案可以消除噪声批次效应。应。应。

【技术实现步骤摘要】
一种数据处理方法、装置、电子设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]近年来,深度神经网络被应用于AI(Artificial Intelligence,人工智能)医疗与AI制药的各种场景。这些场景中,训练数据往往来自于不同批次的实验测试,而由于实验环境的不同,往往导致实验测试结果的噪声等级不同,即存在批次噪声效应。以AI制药中的药物活性预测为例,训练数据中的样本为药物分子,训练数据中的测量结果标签“药物活性数据”是由实验测试而得,而不同批次实验环境,参数等往往存在较大差异,因此导致测试得到的药物活性数据噪声分布不一致,即上述的批次噪声效应。AI算法的目标在于基于这些训练数据,训练深度神经网络预测药物活性数据,而深度神经网络的训练极易受到标签噪声的影响,上述批次噪声效应带来的训练数据噪声问题,会降低深度神经网络的分类识别性能。因此,需要提供一种可靠有效的方案。

技术实现思路

[0003]本申请提供了一种数据处理方法、装置、设备、存储介质及计算机程序产品,可以消除批次噪声效应,大大提升了噪声过滤效果,进而也可以提升后续基于噪声过滤后的目标训练数据集,所训练出的目标分类网络的分类识别性能。
[0004]一方面,本申请提供了一种数据处理方法,所述方法包括:
[0005]获取多个第一训练数据集,所述多个第一训练数据集对应不同的测试批次;每个第一训练数据集包括多个多媒体样本和所述多个多媒体样本中每个多媒体样本在对应测试批次测试得到的测试结果标签;
[0006]确定所述每个多媒体样本对应的测试结果误差,所述测试结果误差表征所述每个多媒体样本对应的测试结果标签和所述每个多媒体样本对应的预测测试结果间的差异,所述预测测试结果为基于待训练分类网络对所述每个多媒体样本进行测试结果识别所得到的测试结果;
[0007]基于所述测试结果误差,对所述多个第一训练数据集进行误差分布关联分析,得到所述多个第一训练数据集中两两第一训练数据集间的误差关联信息,所述误差关联信息表征所述两两第一训练数据集间噪声分布的相似程度;
[0008]基于所述误差关联信息,对所述多个第一训练数据集进行聚类处理,得到所述多个第二训练数据集;所述多个第二训练数据集的数量小于所述多个第一训练数据集的数量;
[0009]对所述多个第二训练数据集分别进行降噪过滤处理,得到目标训练数据集。
[0010]另一方面提供了一种数据处理装置,所述装置包括:
[0011]第一训练数据集获取模块,被配置为执行获取多个第一训练数据集,所述多个第
一训练数据集对应不同的测试批次;每个第一训练数据集包括多个多媒体样本和所述多个多媒体样本中每个多媒体样本在对应测试批次测试得到的测试结果标签;
[0012]测试结果误差确定模块,被配置为执行确定所述每个多媒体样本对应的测试结果误差,所述测试结果误差表征所述每个多媒体样本对应的测试结果标签和所述每个多媒体样本对应的预测测试结果间的差异,所述预测测试结果为基于待训练分类网络对所述每个多媒体样本进行测试结果识别所得到的测试结果;
[0013]误差分布关联分析模块,被配置为执行基于所述测试结果误差,对所述多个第一训练数据集进行误差分布关联分析,得到所述多个第一训练数据集中两两第一训练数据集间的误差关联信息,所述误差关联信息表征所述两两第一训练数据集间噪声分布的相似程度;
[0014]聚类处理模块,被配置为执行基于所述误差关联信息,对所述多个第一训练数据集进行聚类处理,得到所述多个第二训练数据集;所述多个第二训练数据集的数量小于所述多个第一训练数据集的数量;
[0015]降噪过滤处理模块,被配置为执行对所述多个第二训练数据集分别进行降噪过滤处理,得到目标训练数据集。
[0016]另一方面提供了一种电子设备,包括:处理器;
[0017]用于存储所述处理器可执行指令的存储器;
[0018]其中,所述处理器被配置为执行所述指令,以实现上述任一项所述的数据处理方法。
[0019]另一方面提供了一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行上述任一数据处理方法。
[0020]另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的数据处理方法。
[0021]本申请提供的数据处理方法、装置、设备、存储介质及计算机程序产品,具有如下技术效果:
[0022]本申请针对不同测试批次的多个第一训练数据集,先确定可以表征每个第一训练数据集中每个多媒体样本在对应测试批次测试得到的测试结果标签和基于待训练分类网络对每个多媒体样本进行测试结果识别所得到的预测测试结果间的测试结果误差,可以实现对不同测试批次的训练数据集进行噪声分布表征,接着,结合测试结果误差,对多个第一训练数据集进行误差分布关联分析,可以得到多个第一训练数据集中两两第一训练数据集间的误差关联信息,并结合误差关联信息,对多个第一训练数据集进行聚类处理,可以便于将不同测试批次噪声分布相似的第一训练数据集聚到一起,实现按照噪声分布进行不同测试批次的训练数据集的聚类分组,接着,对多个第二训练数据集分别进行噪声过滤处理,可以针对不同噪声分布的训练数据集分别进行噪声过滤处理,消除了噪声批次效应,大大提升了噪声过滤效果,进而可以提升后续基于噪声过滤后的目标训练数据集,所训练出的目标分类网络的分类识别性能。
附图说明
[0023]为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0024]图1是本申请实施例提供的一种数据处理方法的应用环境的示意图;
[0025]图2是本申请实施例提供的一种数据处理方法的流程示意图;
[0026]图3是本申请实施例提供的一种对多个第二训练数据集分别进行降噪过滤处理,得到目标训练数据集的流程示意图;
[0027]图4是本申请实施例提供的一种训练得到目标分类网络的过程示意图;
[0028]图5是本申请实施例提供的一种数据处理装置的结构示意图;
[0029]图6是本申请实施例提供的一种用于数据处理的电子设备的框图;
[0030]图7是根据一示例性实施例示出的另一种用于数据处理的电子设备的框图。
具体实施方式
[0031]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取多个第一训练数据集,所述多个第一训练数据集对应不同的测试批次;每个第一训练数据集包括多个多媒体样本和所述多个多媒体样本中每个多媒体样本在对应测试批次测试得到的测试结果标签;确定所述每个多媒体样本对应的测试结果误差,所述测试结果误差表征所述每个多媒体样本对应的测试结果标签和所述每个多媒体样本对应的预测测试结果间的差异,所述预测测试结果为基于待训练分类网络对所述每个多媒体样本进行测试结果识别所得到的测试结果;基于所述测试结果误差,对所述多个第一训练数据集进行误差分布关联分析,得到所述多个第一训练数据集中两两第一训练数据集间的误差关联信息,所述误差关联信息表征所述两两第一训练数据集间噪声分布的相似程度;基于所述误差关联信息,对所述多个第一训练数据集进行聚类处理,得到所述多个第二训练数据集;所述多个第二训练数据集的数量小于所述多个第一训练数据集的数量;对所述多个第二训练数据集分别进行降噪过滤处理,得到目标训练数据集。2.根据权利要求1所述的方法,其特征在于,所述基于所述测试结果误差,对所述多个第一训练数据集进行误差分布关联分析,得到所述多个第一训练数据集中两两第一训练数据集间的误差关联信息包括:根据所述测试结果误差,确定所述每个第一训练数据集对应的第一误差分布信息,所述第一误差分布信息表征所述每个第一训练数据集中多媒体样本对应的所述测试结果误差的分布情况;根据所述第一误差分布信息,对所述多个第一训练数据集进行关联分析,得到所述误差关联信息。3.根据权利要求1所述的方法,其特征在于,所述对所述多个第二训练数据集分别进行降噪过滤处理,得到目标训练数据集包括:基于每个第二训练数据集中多媒体样本对应的所述测试结果误差,对所述每个第二训练数据集中的多媒体样本进行聚类处理,得到所述每个第二训练数据集对应的多个第三训练数据集;确定所述多个第三训练数据集中每个第三训练数据集对应的第二误差分布信息,所述第二误差分布信息表征所述每个第三训练数据集中多媒体样本对应的所述测试结果误差的分布情况;根据所述第二误差分布信息,对所述每个第二训练数据集对应的所述多个第三训练数据集进行噪声过滤处理,得到所述目标训练数据集。4.根据权利要求3所述的方法,其特征在于,所述根据所述第二误差分布信息,对所述每个第二训练数据集对应的所述多个第三训练数据集进行噪声过滤处理,得到所述目标训练数据集包括:确定所述每个第二训练数据集对应的所述多个第三训练数据集中,对应的所述第二误差分布信息满足预设过滤条件的目标过滤数据集;对所述每个第二训练数据集对应的所述多个第三训练数据集中的所述目标过滤数据集进行过滤处理,得到所述目标训练数据集。
5.根据权利要求1至4任一所述的方法,其特征在于,所述确定所述...

【专利技术属性】
技术研发人员:吴秉哲
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1