训练样本数据的优化方法、系统、存储介质及电子设备技术方案

技术编号：28675514 阅读：17 留言：0更新日期：2021-06-02 02:52

本公开涉及一种训练样本数据的优化方法、系统、存储介质及电子设备，涉及人工智能技术领域，该优化方法包括：获取待优化训练集；对所述待优化训练集中的样本数据进行降维处理，得到处理后的坐标数据；对所述坐标数据进行筛选，得到筛选后的坐标数据；根据所述筛选后的坐标数据优化所述待优化训练集。本公开的有益效果：利用降维处理，可以对待优化训练集中的正样本数据和负样本数据进行可视化分析，通过可视化分析可以针对性对待优化训练集中的样本数据进行增加或删除，从而针对性去除待优化训练集中的“脏”数据、或“异常”数据，使得根据优化后的训练集对神经网络模型进行训练能够提高神经网络模型的识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
训练样本数据的优化方法、系统、存储介质及电子设备
本公开涉及人工智能
，尤其涉及一种训练样本数据的优化方法、系统、存储介质及电子设备。
技术介绍
现有的模型训练往往是基于大量的训练样本数据进行的，例如，根据历史数据以及对应的结果生成至少包含正负两种样本的样本集，进而利用样本集训练特定的模型。一般来说，模型的准确度与训练样本直接相关，如果训练样本中存在过多的“脏”数据、或“异常”数据、或训练样本不平衡，会直接影响模型训练的效果，使得模型的预测结果出现偏差。
技术实现思路
为克服相关技术中存在的问题，本公开提供一种训练样本数据的优化方法、系统、存储介质及电子设备。根据本公开实施例的第一方面，提供一种训练样本数据的优化方法，包括：获取待优化训练集；对所述待优化训练集中的样本数据进行降维处理，得到处理后的坐标数据；对所述坐标数据进行筛选，得到筛选后的坐标数据；根据所述筛选后的坐标数据优化所述待优化训练集。在一些实施例中，所述对所述待优化训练集中的样本数据进行降维处理，得到处理后的坐标数据，包括：将所述待优化训练集中的样本数据输入预训练模型，得到每个所述样本数据对应类型的概率分布信息；针对每个所述样本数据对应的概率分布信息，对所述概率分布信息进行降维处理，得到该概率分布信息对应的坐标数据。在一些实施例中，所述待优化训练集中的样本数据包括正样本数据以及负样本数据；所述对所述坐标数据进行筛选，得到筛选后的坐标数据，包括：>基于得到的各个所述样本数据的坐标数据，确定所述正样本数据与所述负样本数据之间的分界线；确定各个所述样本数据的坐标数据与所述分界线之间的距离；根据所述距离，对所述坐标数据进行筛选，得到筛选后的坐标数据。在一些实施例中，所述根据所述距离，对所述坐标数据进行筛选，得到筛选后的坐标数据，包括：根据所述距离，获取所述待优化训练集中与所述分界线的距离满足预设条件的坐标数据，得到筛选后的坐标数据；其中，所述预设条件为所述正样本数据对应的坐标数据与所述分界线的距离小于第一预设距离阈值，和/或，所述负样本数据对应的坐标数据与所述分界线的距离大于第二预设距离阈值，所述第一预设距离阈值小于所述第二预设距离阈值；所述根据所述筛选后的坐标数据优化所述待优化训练集，包括：将满足所述预设条件的坐标数据对应的样本数据从所述待优化训练集中筛除。在一些实施例中，所述根据所述距离，对所述坐标数据进行筛选，得到筛选后的坐标数据，包括：根据所述距离，获取所述待优化训练集中的第一样本数据以及第二样本数据对应的坐标数据，其中，所述第一样本数据包括与所述分界线的距离小于第三预设距离阈值的负样本数据，所述第二样本数据包括与所述分界线的距离大于第四预设距离阈值的正样本数据，所述第三预设距离阈值小于所述第四预设距离阈值；所述根据所述筛选后的坐标数据优化所述待优化训练集，包括：获取新添加的样本数据；确定所述新添加的样本数据、所述第一样本数据及所述第二样本数据的样本特征信息；统计所述第一样本数据出现频率最多的第一样本特征信息、以及所述第二样本数据中出现频率最多的第二样本特征信息；在所述新添加的样本数据对应的所述样本特征信息与所述第一样本特征信息或所述第二样本特征信息的相似度达到预设相似度阈值的情况下，将所述新添加的样本数据添加到所述待优化训练集中。在一些实施例中，当所述样本数据为音频类的样本数据时，所述样本特征信息包括梅尔谱特征、短时平均过零率、样本数据中的有声部分占比、以及样本数据中的无声部分占比中的至少一种。根据本公开实施例的第二方面，提供一种训练样本数据的优化系统，包括：获取模块，配置为获取待优化训练集；降维模块，配置为对所述待优化训练集中的样本数据进行降维处理，得到处理后的坐标数据；筛选模块，配置为对所述坐标数据进行筛选，得到筛选后的坐标数据；优化模块，配置为根据所述筛选后的坐标数据优化所述待优化训练集。在一些实施例中，所述降维模块包括：提取单元，配置为将所述待优化训练集中的样本数据输入预训练模型，得到每个所述样本数据对应类型的概率分布信息；降维单元，配置为针对每个所述样本数据对应的概率分布信息，对所述概率分布信息进行降维处理，得到该概率分布信息对应的坐标数据。根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所提供的训练样本数据的优化方法的步骤，或实现本公开第二方面所提供的神经网络模型训练方法的步骤。根据本公开实施例的第四方面，提供一种电子设备，包括：存储器，其上存储有计算机程序；处理器，用于执行所述存储器中的所述计算机程序，以本公开第一方面所提供的训练样本数据的优化方法的步骤，或实现本公开第二方面所提供的神经网络模型训练方法的步骤。本公开的实施例提供的技术方案可以包括以下有益效果：利用降维处理，可以对待优化训练集中的正样本数据和负样本数据进行可视化分析，通过可视化分析可以针对性对待优化训练集中的样本数据进行增加或删除，从而针对性去除待优化训练集中的“脏”数据、或“异常”数据，如此，根据优化后的训练集对神经网络模型进行训练能够提高神经网络模型的识别准确率。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。图1是根据一示例性实施例示出的一种训练样本数据的优化方法的流程图；图2是根据一示例性实施例示出的对样本数据进行降维处理的流程示意图；图3是根据一示例性实施例示出的一种神经网络模型的结构示意图；图4是根据一示例性实施例示出的经UMAP算法降维得到的坐标数据的分布示意图；图5是根据一示例性实施例示出的对坐标数据进行筛选的流程示意图；图6是根据一示例性实施例示出的经支持向量机分类后的分界线分布位置的示意图；图7是根据一示例性实施例示出的构建支持向量机的流程图；图8是根据一示例性实施例示出的一种训练样本数据的优化系统的结构示意图；图9是根据一示例性实施例示出的一种电子设备的框图。具体实施方式这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。图1是根据一示例性实施例示出的一种训练样本数据的优化方法的流程图。如图1所示，该方法可以应用于电子设备中，包括以下步骤。在步骤S11本文档来自技高网...

【技术保护点】
1.一种训练样本数据的优化方法，其特征在于，包括：/n获取待优化训练集；/n对所述待优化训练集中的样本数据进行降维处理，得到处理后的坐标数据；/n对所述坐标数据进行筛选，得到筛选后的坐标数据；/n根据所述筛选后的坐标数据优化所述待优化训练集。/n

【技术特征摘要】
1.一种训练样本数据的优化方法，其特征在于，包括：
获取待优化训练集；
对所述待优化训练集中的样本数据进行降维处理，得到处理后的坐标数据；
对所述坐标数据进行筛选，得到筛选后的坐标数据；
根据所述筛选后的坐标数据优化所述待优化训练集。

2.根据权利要求1所述的训练样本数据的优化方法，其特征在于，所述对所述待优化训练集中的样本数据进行降维处理，得到处理后的坐标数据，包括：
将所述待优化训练集中的样本数据输入预训练模型，得到每个所述样本数据对应类型的概率分布信息；
针对每个所述样本数据对应的概率分布信息，对所述概率分布信息进行降维处理，得到该概率分布信息对应的坐标数据。

3.根据权利要求1所述的训练样本数据的优化方法，其特征在于，所述待优化训练集中的样本数据包括正样本数据以及负样本数据；
所述对所述坐标数据进行筛选，得到筛选后的坐标数据，包括：
基于得到的各个所述样本数据的坐标数据，确定所述正样本数据与所述负样本数据之间的分界线；
确定各个所述样本数据的坐标数据与所述分界线之间的距离；
根据所述距离，对所述坐标数据进行筛选，得到筛选后的坐标数据。

4.根据权利要求3所述的训练样本数据的优化方法，其特征在于，所述根据所述距离，对所述坐标数据进行筛选，得到筛选后的坐标数据，包括：
根据所述距离，获取所述待优化训练集中与所述分界线的距离满足预设条件的坐标数据，得到筛选后的坐标数据；
其中，所述预设条件为所述正样本数据对应的坐标数据与所述分界线的距离小于第一预设距离阈值，和/或，所述负样本数据对应的坐标数据与所述分界线的距离大于第二预设距离阈值，所述第一预设距离阈值小于所述第二预设距离阈值；
所述根据所述筛选后的坐标数据优化所述待优化训练集，包括：
将满足所述预设条件的坐标数据对应的样本数据从所述待优化训练集中筛除。

5.根据权利要求3所述的训练样本数据的优化方法，其特征在于，所述根据所述距离，对所述坐标数据进行筛选，得到筛选后的坐标数据，包括：
根据所述距离，获取所述待优化训练集中的第一样本数据以及第二样本数据对应的坐标数据，其中，所述第一样本数据包括与所述分...

【专利技术属性】
技术研发人员：王昭，
申请(专利权)人：北京小米松果电子有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人