一种有标注价值的数据样本的确定方法及装置制造方法及图纸

技术编号：30828759 阅读：10 留言：0更新日期：2021-11-18 12:35

本说明书提供了一种有标注价值的数据样本的确定方法，先获取未标注数据样本集合，然后根据未标注数据样本集合中各数据样本的特征向量值的分布，估计出针对任一特征向量值的概率密度函数，使得根据概率密度函数，能够确定出任一特征向量值所在空间点的样本分布浓度。在确定未标注数据样本集合中的数据样本的标注价值度时，利用得到的概率密度函数确定每个数据样本的特征向量值所在空间点的数据样本浓度，浓度越小，说明该特征向量值对应的数据样本的数量，相对于其他特征向量值对应的数据样本的数量少很多，对平衡数据样本分布的贡献会更大，因此对预测模型的构建越有价值。因此对预测模型的构建越有价值。因此对预测模型的构建越有价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种有标注价值的数据样本的确定方法及装置

[0001]本说明书一个或多个实施例涉及机器学习领域，尤其涉及一种有标注价值的数据样本的确定方法及装置。

技术介绍

[0002]在机器学习中，一般需要人工为数据样本添加标签得到训练样本(即，人工标注)，然后利用训练样本构建预测模型。为了减少人工标注的成本，主动学习应运而生。
[0003]主动学习是指，人工预先抽取少量数据样本，为其添加标签并作为训练样本，然后利用这少量有标签的训练样本构建预测模型。预测模型构建好后，利用预测模型对没有添加标签的数据样本进行预测，并通过查询函数对每个没有添加标签的数据样本的预测结果，进行预测结果不确定性评估，筛选出有添加标签的数据样本，其中，未添加标签数据样本的预测结果不确定性越高，对预测模型的构建越有价值，越有添加标签的价值。人工对筛选出的未添加标签的数据样本添加完标签后，将这部分数据样本扩充至训练样本，然后利用扩充后的训练样本再次训练预测模型，并重复进行如上述的步骤，直至达到停止条件。
[0004]在数据样本均衡的情况，每次构建的预测模型的预测结果相对准确，上述的查询函数是能够有效减少人工标注的成本。但在实际应用中，会存在数据样本不均衡的情况，例如金融反欺诈领域，获取到的交易样本绝大多数都是不存在欺诈问题的交易样本，只有少量交易样本是存在欺诈问题的，此时，预测模型预测结果会出现倾斜，上述的查询函数并不能有效减少人工标注的成本。

技术实现思路

[0005]有鉴于此，本说明书一个或多个实施例提供一种有标注价值的数据...

【技术保护点】

【技术特征摘要】
1.一种有标注价值的数据样本的确定方法，包括：获取未标注数据样本集合；任一未标注数据样本i包括一个特征向量值x
i
；根据{x
i
|i＝1、2、3
……
n，n＝未标注数据样本集合的样本数量}的分布，确定针对特征向量值x的概率密度函数f(x)；针对任一未标注数据样本i，确定该样本的特征向量值x
i
，利用f(x)计算f(x
i
)；根据f(x
i
)确定该数据样本的标注价值度，若标注价值度大于预设值，则确定该数据样本具有标注价值；其中，f(x
i
)越小，未标注数据样本i的标注价值越大。2.如权利要求1所述的方法，根据f(x
i
)确定该数据样本的标注价值度，包括：获取构建完成的预测模型，所述预测模型利用已标注数据样本集合训练得到；针对任一未标注数据样本i，将x
i
输入至所述预测模型，根据所述预测模型的输出结果，确定所述预测模型针对该数据样本的预测结果不确定度；根据f(x
i
)以及该数据样本的不确定度，确定该数据样本的标注价值度。3.如权利要求1所述的方法，根据f(x
i
)确定该数据样本的标注价值度，包括：获取已标注数据样本集合；针对任一未标注数据样本i，根据x
i
与已标注数据样本集合中各个已标注数据样本的特征向量值，得到该数据样本与已标注数据样本集合的特征差异度；根据f(x
i
)以及该数据样本的特征差异度，确定该数据样本的标注价值度。4.如权利要求1所述的方法，确定针对特征向量值x的概率密度函数f(x)，包括：利用核密度函数，确定针对特征向量值x的概率密度函数f(x)。5.一种预测模型构建方法，包括：获取未标注数据样本集合以及已标注数据样本集合；循环执行以下步骤，直至满足预设条件：将当前已标注数据样本作为训练样本构建预测模型；利用如权利要求1
‑
4任一所述的方法，确定当前未标注数据样本集合中任一未标注数据样本是否具有标注价值，得到有标注价值数据样本集合；为有标注价值数据样本集合中的样本添加标签，并将有标注价值数据样本集合从未标注数据样本集合移至已标注数据样本集合；循环执行完成后，将当前预测模型作为训练完成的预测模型。6.一种有标注价值的交易样本的确定方法，包括：获取未标注交易样本集合；任一未标注交易样本j包括一个交易特征向量值x
j
；根据{x
j
|j＝1、2、3
……
m，m＝未标注交易样本集合的样本数量}的分布，确定针对特征向量值x的概率密度函数f(x)；针对任一未标注交易样本j，确定该交易样本的特征向量值x
j
，利用f(x)计算f(x
j
)；根据f(x

【专利技术属性】
技术研发人员：纪忠光，凌芳觉，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人