难样本挖掘方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号：23672722 阅读：36 留言：0更新日期：2020-04-04 18:07

本发明专利技术涉及一种难样本挖掘方法、装置、电子设备及计算机可读存储介质，属于数据挖掘领域。该方法包括：在获得收敛的神经网络模型之后，统计训练集中各样本在网络反向传播过程中的梯度值，然后设定阈值，分别把训练集中样本分类为容易样本、难样本、极难样本三个类别。然后选取适量难样本，将难样本与原训练集融合，得到更新后的训练集。在用于更新训练集所添加的难样本中，已过滤掉极难样本。当把过滤掉极难样本的难样本加入到原训练集时，使得原训练集中的难样本比例增加，极难样本比例降低。当后续基于新的训练集训练神经网络模型时，可以避免神经网络模型对极难样本过度学习，从而得到性能较高的神经网络模型。

Hard sample mining methods, devices, electronic equipment and computer readable storage media

全部详细技术资料下载

【技术实现步骤摘要】
难样本挖掘方法、装置、电子设备及计算机可读存储介质
本申请属于数据挖掘领域，具体涉及一种难样本挖掘方法、装置、电子设备及计算机可读存储介质。
技术介绍
神经网络在对数字病理切片进行识别时，可能将正常区域(正常区域对应的小图为阴性小图，阴性小图对应的样本为负样本)以及癌症区域(癌症区域对应的小图为阳性小图，阳性小图对应的样本为正样本)识别错误，这些识别错误的区域对应的小图称之为难样本，反之，位于识别正确的区域对应的小图是容易样本。挑选一定数量的难样本与原来的训练集合并构建新的训练集，这一过程称为难样本挖掘。难样本的挖掘可以调整训练模型的训练集中难易样本不均衡的问题，从而提高训练出的神经网络模型的识别精度。现有的难样本挖掘方法统称为二分法，通过一定的手段把训练集中的样本划分为难样本以及容易样本，后续再将得到的难样本与训练集进行融合。后续利用进行融合后的训练集重新训练卷积神经网络模型时，由于难样本中包含大量的极难样本(很容易导致识别错误)，会使得后续的训练过程中，卷积神经网络模型对极难样本过度学习。如此，难样本挖掘...

【技术保护点】
1.一种难样本挖掘方法，其特征在于，所述方法包括：/n计算训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值，所述已收敛的神经网络模型由所述训练集训练至收敛；/n将梯度值的大小位于预设的第一阈值与第二阈值之间的样本确定为难样本，并加入到难样本集；/n从所述难样本集中选取预设比例的正标签难样本、负标签难样本加入到所述训练集，得到更新后的训练集；/n其中，所述第一阈值小于所述第二阈值。/n

【技术特征摘要】
1.一种难样本挖掘方法，其特征在于，所述方法包括：
计算训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值，所述已收敛的神经网络模型由所述训练集训练至收敛；
将梯度值的大小位于预设的第一阈值与第二阈值之间的样本确定为难样本，并加入到难样本集；
从所述难样本集中选取预设比例的正标签难样本、负标签难样本加入到所述训练集，得到更新后的训练集；
其中，所述第一阈值小于所述第二阈值。

2.根据权利要求1所述的方法，其特征在于，所述计算训练集中的每个样本在已收敛的神经网络模型中的反向传播过程中的梯度值，包括：
针对每个样本，根据所述神经网络模型的激活函数，计算该样本被预测为正样本的概率值、被预测为负样本的概率值；
针对每个样本，根据其被预测为正样本的概率值、其被预测为负样本的概率值确定该样本在所述已收敛的神经网络模型中的反向传播过程中的梯度值。

3.根据权利要求2所述的方法，其特征在于，所述针对每个样本，根据所述神经网络模型的激活函数，计算该样本被预测为正样本的概率值、被预测为负样本的概率值，包括：
当所述激活函数为softmax函数时，基于公式计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值；其中，p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值，所述x0、x1分别表示所述神经网络模型的输出层预测该样本为负样本的预测值、预测该样本为正样本的预测值，e表示自然常数；
当所述激活函数为sigmoid函数时，基于公式计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值；其中，p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值，所述x1表示所述神经网络模型的输出层预测该样本为正样本的预测值，e表示自然常数。

4.根据权利要求3所述的方法，其特征在于，所述针对每个样本，根据其被预测为正样本的概率值、其被预测为负样本的概率值确定该样本在所述已收敛的神经网络模型中的反向传播过程中的梯度值，包括：
基于公式确定样本的梯度值，其中，g(样本)为样本的梯度值，当label为0时，p为负样本的概率值，当label为1时，p为正样本的概率值。

5.根据权利要求1所述的方...

【专利技术属性】
技术研发人员：郭强，陈灿灿，郑闪，孙丰龙，马建辉，邱亭林，杜君，郭蕾，
申请(专利权)人：中国医学科学院肿瘤医院，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人