一种自动去除样本标记噪声的方法及系统技术方案

技术编号：24456847 阅读：28 留言：0更新日期：2020-06-10 15:48

本说明书实施例公开了一种自动去除样本标记噪声的方法及系统，所述方法包括：获取多个样本，所述多个样本合计包含M个不同标记，M为≥1的整数；初始化所述样本包含所述M个不同标记中任一标记的概率，并基于初始化后的结果构建初始置信度矩阵；基于权重矩阵A迭代更新所述初始置信度矩阵，得到第一置信度矩阵；所述权重矩阵A中元素

A method and system for automatically removing sample mark noise

全部详细技术资料下载

【技术实现步骤摘要】
一种自动去除样本标记噪声的方法及系统
本说明书实施例涉及计算机
，特别涉及一种自动去除样本标记噪声的方法及系统。
技术介绍
随着互联网的快速发展，机器学习与数据挖掘领域越来越受到重视，分类是一种常见的机器学习任务，监督学习是分类任务常用的学习方法，在监督学习中，训练数据所对应的标签质量对于学习效果至关重要。训练数据对应的标签即是对训练数据某种信息的标记，例如，类别，然而，在很多业务场景下，人们获取的训练数据集都是含有噪声标记的，含有噪声标记的训练数据对于后续建立模型具有负面的影响，会影响模型的预测效果，因此，研究一种能自动去除样本标记噪声的方法及系统是非常有必要的。
技术实现思路
本说明书实施例的一个方面提供一种自动去除样本标记噪声的方法，包括：获取多个样本，所述多个样本合计包含M个不同的标记，M为≥1的整数；初始化所述样本包含所述M个不同标记中任一标记的概率，并基于初始化后的结果构建初始置信度矩阵；基于权重矩阵A迭代更新所述初始置信度矩阵，得到第一置信度矩阵；所述权重矩阵A中元素代表由所述多个样本中第i个样本与第j个样本之间的相似度确定的第一权重；将权重向量B与所述优化置信度矩阵相乘得到所述样本的第二置信度向量；所述权重矩阵B中元素代表由所述样本与其他样本的相似度占比确定的第二权重；基于预设条件从所述第二置信度向量中确定所述样本的噪声标记并去除。本说明书实施例的一个方面提供一种自动去除样本标记噪声的系统，包括：样本获取模块，用于获取多个样本，所述多个样本合计包含M个不同的标...

【技术保护点】
1.一种自动去除样本标记噪声的方法，包括：/n获取多个样本，所述多个样本合计包含M个不同标记，M为≥1的整数；/n初始化所述样本包含所述M个不同标记中任一标记的概率，并基于初始化后的结果构建初始置信度矩阵；/n基于权重矩阵A迭代更新所述初始置信度矩阵，得到第一置信度矩阵；所述权重矩阵A中元素

【技术特征摘要】
1.一种自动去除样本标记噪声的方法，包括：
获取多个样本，所述多个样本合计包含M个不同标记，M为≥1的整数；
初始化所述样本包含所述M个不同标记中任一标记的概率，并基于初始化后的结果构建初始置信度矩阵；
基于权重矩阵A迭代更新所述初始置信度矩阵，得到第一置信度矩阵；所述权重矩阵A中元素代表由所述多个样本中第i个样本与第j个样本之间的相似度确定的第一权重；
将权重向量B与所述第一置信度矩阵相乘得到所述样本的第二置信度向量；所述权重向量B中元素代表由所述样本与其他样本的相似度占比确定的第二权重；
基于预设条件从所述第二置信度向量中确定所述样本的噪声标记并去除。

2.如权利要求1所述的方法，所述基于权重矩阵A迭代更新所述初始置信度矩阵，得到第一置信度矩阵包括：
将迭代(t-1)次得到的中间置信度矩阵与所述权重矩阵A相乘，将相乘后的结果与所述初始置信度矩阵比例相加，得到迭代t次得到的中间置信度，t为≥1的整数；
直到迭代得到的中间置信度矩阵满足预设条件，迭代结束，并将迭代结束后得到的置信度矩阵作为所述第一置信度矩阵。

3.如权利要求1所述的方法，所述初始化所述样本包含所述M个不同标记中任一标记的概率，并基于初始化后的结果构建初始置信度矩阵包括：
当所述M个不同标记中任一标记为所述样本的候选标记时，将所述概率初始化为1/N，N为所述样本包含的候选标记的个数；所述候选标记表示所述样本存在所述标记；
当所述M个不同标记中任一标记不为所述样本的候选标记时，将所述概率初始化为0。

4.如权利要求1所述的方法，通过距离度量所述相似度。

5.如权利要求1所述的方法，所述第二权重与所述相似度占比负相关。

6.如权利要求1所述的方法，在将所述权重向量B乘以所述第一置信度矩阵之前，将所述第一置信度矩阵中的置信度归一化至第一预设数值范围内。

7.如权利要求1所述的方法，基于所述权重矩阵A迭代更新所述初始置信度矩阵之前，基于最小二乘法优化所述权重矩阵A中的权重。

8.如权利要求1所述的方法，基于所述权重矩阵A迭代更新所述初始置信度矩阵之前，将所述权重矩阵A中的权重归一化至第二预设数值范围内。

9.如权利要求1所述的方法，所述样本为实体对象的数据。

10.如权利要求1所述的方法，所述实体对象数据为智能客服数据。

11.一种自动去除样本标记噪声的系统，包括：
样本获取模块，用于获取多个样本，所述多个样本合计包含M个不同的标记，M为≥1的整数；
置信度初始化模块，用于初始化所述样本包含所述M个不同标记中任一标记的概率，并基于初始化后的结果构...

【专利技术属性】
技术研发人员：方军鹏，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人