数据获取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:25835544 阅读:24 留言:0更新日期:2020-10-02 14:16
本申请公开了一种数据获取方法、装置、电子设备及存储介质,涉及数据处理技术领域,该方法包括:获取候选数据集,所述候选数据集包括多个第一候选子数据;将每个所述第一候选子数据输入至初级网络模型,得到每个所述第一候选子数据对应的第一标签、类别置信度和数据置信度;确定每个所述第一候选子数据对应的所述类别置信度和所述数据置信度是否满足预设条件;若所述第一候选子数据对应的类别置信度和所述数据置信度满足预设条件,则将所述第一标签和所述第一标签对应的第一候选子数据存储至所述预训练数据集,得到目标数据。本申请通过确定类别置信度与数据置信度是否满足预设条件可以更加快速有效的获取到目标数据。

【技术实现步骤摘要】
数据获取方法、装置、电子设备及存储介质
本申请涉及数据处理
,更具体地,涉及一种数据获取方法、装置、电子设备及存储介质。
技术介绍
随着计算机技术的发展,机器学习算法的应用越来越广泛,人工智能正走入人们的生活,如平时线上购物中智能客服机器人就是基于用户的问答训练数据获取的,然而由于用户的不断增加,用户数据正飞速累计,对海量的数据进行标记也成为目前急需解决的问题之一。
技术实现思路
鉴于上述问题,本申请提出了一种数据获取方法、装置、电子设备及存储介质。第一方面,本申请实施例提供了一种数据获取方法,该方法包括:获取候选数据集,候选数据集包括多个第一候选子数据,将每个第一候选子数据输入至初级网络模型,得到每个第一候选子数据对应的第一标签、类别置信度和数据置信度,第一标签为第一候选子数据对应的标签数据,初级网络模型由预训练数据集训练而成,预训练数据集包括多个训练数据和多个标签数据,每个训练数据对应一个标签数据,数据置信度用于表示初级网络模型在第一候选子数据上的训练效果,确定每个第一候选子数据对应的类别置信度和数据置信度本文档来自技高网...

【技术保护点】
1.一种数据获取方法,其特征在于,所述方法包括:/n获取候选数据集,所述候选数据集包括多个第一候选子数据;/n将每个所述第一候选子数据输入至初级网络模型,得到每个所述第一候选子数据对应的第一标签、类别置信度和数据置信度,所述第一标签为所述第一候选子数据对应的标签数据,所述初级网络模型由预训练数据集训练而成,所述预训练数据集包括多个训练数据和多个标签数据,每个所述训练数据对应一个标签数据,所述数据置信度用于表示所述初级网络模型在所述第一候选子数据上的训练效果;/n确定每个所述第一候选子数据对应的所述类别置信度和所述数据置信度是否满足预设条件;/n若所述第一候选子数据对应的类别置信度和所述数据置信...

【技术特征摘要】
1.一种数据获取方法,其特征在于,所述方法包括:
获取候选数据集,所述候选数据集包括多个第一候选子数据;
将每个所述第一候选子数据输入至初级网络模型,得到每个所述第一候选子数据对应的第一标签、类别置信度和数据置信度,所述第一标签为所述第一候选子数据对应的标签数据,所述初级网络模型由预训练数据集训练而成,所述预训练数据集包括多个训练数据和多个标签数据,每个所述训练数据对应一个标签数据,所述数据置信度用于表示所述初级网络模型在所述第一候选子数据上的训练效果;
确定每个所述第一候选子数据对应的所述类别置信度和所述数据置信度是否满足预设条件;
若所述第一候选子数据对应的类别置信度和所述数据置信度满足预设条件,则将所述第一标签和所述第一标签对应的第一候选子数据存储至所述预训练数据集,得到目标数据。


2.根据权利要求1所述的方法,其特征在于,所述确定每个所述第一候选子数据对应的所述类别置信度和所述数据置信度是否满足预设条件,包括:
确定所述每个所述第一候选子数据的类别置信度是否大于第一置信阈值,所述第一置信阈值用于判断所述第一候选子数据的类别置信度是否属于高类别置信度;
如果所述类别置信度大于第一置信阈值,
则确定每个所述第一候选子数据的数据置信度是否大于第二置信阈值,所述第二置信阈值用于确定所述第一候选子数据的数据置信度的高低;
若所述数据置信度大于第二置信阈值,则确定所述类别置信度和所述数据置信度满足预设条件。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
如果所述类别置信度小于第一置信阈值,则确定所述类别置信度是否大于第三置信阈值,所述第三置信阈值小于所述第一置信阈值,所述第三置信阈值用于判断所述第一候选子数据的类别置信度是否属于中类别置信度或者低类别置信度;
若所述类别置信度大于第三置信阈值,则接收用户输入的第二标签,所述第二标签与所述第一候选子数据对应;
将所述第二标签和所述第一候选子数据存储至所述预训练数据集,得到目标数据。


4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
如果所述类别置信度小于第三置信阈值,则确定所述数据置信度是否大于第二置信阈值;
若所述数据置信度大于第二置信阈值,则接收用户输入的第二标签,所述第二标签与所述第一候选子数据对应;
将所述第二标签和所述第一候选子数据存储至所述预训练数据集,得到目标数据。


5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
当所述类别置信度小于第三置信阈值,且所述数据置信度小于第二置信阈值时,接收用户输入的第二候选子数据,所述第二候选子数据与所述第一标签对应;
将所述第二候选子数据和所述第一标签存储至所述预训练数据集,得到目标数据。


6.根据权利要求1所述方法,其特征在于,所述将每个所述第一候选子数据输入至初级网络模型,得到每个所述第一候选子数据对应的第一标签、类别置信度和数据置信度之前,还包括:
获取验证数据集,所述验证数据集包括多个标准候选数据和所述标准候选数据对应的标准标签;
将所述验证数据集输入至所述初级网络模型,得到每个所述标准候选数据对应的预测标签和预测概率;
根据所述标准标签和所述预测标签对所述标准候选数据进行分类,得到多个类别的验证子数据集;
获取每个类别下所述验证子数据集对应的预测概率平均值,并将所述预测概率平均值作为该类别对应的类别置信度。


7.根据权利要求6所述的方法,其特征在于,所述获取每个类别下所述验证子数据集对应的预测概率平均值,并将所述预测概率平均值作为该类别对应的类别置信度之后,包括:
将所述验证数据集下每个...

【专利技术属性】
技术研发人员:杨华胡毅奇刘云峰
申请(专利权)人:深圳追一科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1