一种自动去除样本标记噪声的方法及系统技术方案

技术编号:24456847 阅读:28 留言:0更新日期:2020-06-10 15:48
本说明书实施例公开了一种自动去除样本标记噪声的方法及系统,所述方法包括:获取多个样本,所述多个样本合计包含M个不同标记,M为≥1的整数;初始化所述样本包含所述M个不同标记中任一标记的概率,并基于初始化后的结果构建初始置信度矩阵;基于权重矩阵A迭代更新所述初始置信度矩阵,得到第一置信度矩阵;所述权重矩阵A中元素

A method and system for automatically removing sample mark noise

【技术实现步骤摘要】
一种自动去除样本标记噪声的方法及系统
本说明书实施例涉及计算机
,特别涉及一种自动去除样本标记噪声的方法及系统。
技术介绍
随着互联网的快速发展,机器学习与数据挖掘领域越来越受到重视,分类是一种常见的机器学习任务,监督学习是分类任务常用的学习方法,在监督学习中,训练数据所对应的标签质量对于学习效果至关重要。训练数据对应的标签即是对训练数据某种信息的标记,例如,类别,然而,在很多业务场景下,人们获取的训练数据集都是含有噪声标记的,含有噪声标记的训练数据对于后续建立模型具有负面的影响,会影响模型的预测效果,因此,研究一种能自动去除样本标记噪声的方法及系统是非常有必要的。
技术实现思路
本说明书实施例的一个方面提供一种自动去除样本标记噪声的方法,包括:获取多个样本,所述多个样本合计包含M个不同的标记,M为≥1的整数;初始化所述样本包含所述M个不同标记中任一标记的概率,并基于初始化后的结果构建初始置信度矩阵;基于权重矩阵A迭代更新所述初始置信度矩阵,得到第一置信度矩阵;所述权重矩阵A中元素代表由所述多个样本中第i个样本与第j个样本之间的相似度确定的第一权重;将权重向量B与所述优化置信度矩阵相乘得到所述样本的第二置信度向量;所述权重矩阵B中元素代表由所述样本与其他样本的相似度占比确定的第二权重;基于预设条件从所述第二置信度向量中确定所述样本的噪声标记并去除。本说明书实施例的一个方面提供一种自动去除样本标记噪声的系统,包括:样本获取模块,用于获取多个样本,所述多个样本合计包含M个不同的标记,M为≥1的整数;置信度初始化模块,用于初始化所述样本包含所述M个不同标记中任一标记的概率,并基于初始化后的结果构建初始置信度矩阵;置信度优化模块,用于基于权重矩阵A迭代更新所述初始置信度矩阵,得到第一置信度矩阵;所述权重矩阵A中元素代表由所述多个样本中第i个样本与第j个样本之间的相似度确定的第一权重;置信度投票模块,用于将权重向量B与所述第一置信度矩阵相乘得到所述样本的第二置信度向量;所述权重矩阵B中元素代表由所述样本与其他样本的相似度占比确定的第二权重;标记去噪模块,用于基于预设条件从所述第二置信度向量中确定所述样本的噪声标记并去除。本说明书实施例的一个方面提供一种自动去除样本标记噪声的装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现自动去除样本标记噪声的方法。本说明书实施例的一个方面提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,实现自动去除样本标记噪声的方法。附图说明本说明书将以示例性实施例的方式进一步描述,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:图1是根据本说明书的一些实施例所示的示例性自动去除样本标记噪声系统的应用场景图;图2是根据本说明书的一些实施例所示的示例性自动去除样本标记噪声系统的模块图;图3是根据本说明书的一些实施例所示的自动去除样本标记噪声的方法的示例性流程图;具体实施方式为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。应当理解,本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。图1是根据本说明书的一些实施例所示的示例性自动去除样本标记噪声系统的应用场景示意图。自动去除样本标记噪声系统100可以通过实施本申请中披露的方法和/或过程自动去除样本的噪声标记。自动去除样本标记噪声系统100可以应用于智能客服机器人领域。通常,智能客服机器人需要根据用户输入的内容为用户推荐多个可能的答案,或多个可能的问题。智能客服机器人为了实现上述推荐,需要基于大量含有多个标记的样本进行多分类模型的训练,从而,当用户输入问题之后,可以基于用户的类别为用户反馈多个答案或多个问题。为了提高分类模型分类的准确率,需要保证训练样本标记的准确率。从而,可以通过系统100对训练样本中的标记进行去噪,具体的,可以通过系统100在一个样本含有的多个标记中确定该样本的噪声标记并去除。在一些实施例中,样本可以用户输入的历史数据,例如,输入的文字、语音或图片等,标记可以是类别信息。示例的,输入内容“请问这款产品近期的活动?”的候选标记为“活动时间”“折扣”“礼品”“地点”等,其中噪声标记可能是“地点”,需要去除。如图1所示,自动去除样本标记噪声系统100可以包括服务器110、网络120、用户端130、数据库140。服务器110可以包含处理设备112。在一些实施例中,服务器110可以用于处理与数据处理相关的信息和/或数据。在一些实施例中,服务器110可以直接与数据库140和/或用户端130连接以访问存储于其中的信息和/或资料。例如,服务器110可以通过网络120获取数据库中多个样本,这些样本可以用于分类模型的训练,且这些样本中每个样本含有多个候选标记。又例如,服务器110可以通过网络120接收用户在用户端130输入的内容。服务器110可以是独立的服务器或者服务器组。该服务器组可以是集中式的或者分布式的(如:服务器110可以是分布系统)。在一些实施例中,服务器110可以是区域的或者远程的。在一些实施例中,服务器110可在云平台上执行。例如,该云平台可包括私有云、公共云、混合云、社区云、分散式云、内部云等中的一种或其任意组合。在一些实施例中,服务器110可包含处理设备112。该处理设备112可处理数据和/或信息以执行一个或多个本申请中描述的功能。例如,处理设备112可以对从数据库中获取的多个样本的标记进行去噪,具体的,可以初始化多个样本候选标记的置信度,基于多个样本中样本与邻近样本的距离确定权重矩阵A和权重向量B,基于初始化后的置信度以及权重矩阵A和权重向量B确定样本噪声标记。又例如,处理设备112可以本文档来自技高网...

【技术保护点】
1.一种自动去除样本标记噪声的方法,包括:/n获取多个样本,所述多个样本合计包含M个不同标记,M为≥1的整数;/n初始化所述样本包含所述M个不同标记中任一标记的概率,并基于初始化后的结果构建初始置信度矩阵;/n基于权重矩阵A迭代更新所述初始置信度矩阵,得到第一置信度矩阵;所述权重矩阵A中元素

【技术特征摘要】
1.一种自动去除样本标记噪声的方法,包括:
获取多个样本,所述多个样本合计包含M个不同标记,M为≥1的整数;
初始化所述样本包含所述M个不同标记中任一标记的概率,并基于初始化后的结果构建初始置信度矩阵;
基于权重矩阵A迭代更新所述初始置信度矩阵,得到第一置信度矩阵;所述权重矩阵A中元素代表由所述多个样本中第i个样本与第j个样本之间的相似度确定的第一权重;
将权重向量B与所述第一置信度矩阵相乘得到所述样本的第二置信度向量;所述权重向量B中元素代表由所述样本与其他样本的相似度占比确定的第二权重;
基于预设条件从所述第二置信度向量中确定所述样本的噪声标记并去除。


2.如权利要求1所述的方法,所述基于权重矩阵A迭代更新所述初始置信度矩阵,得到第一置信度矩阵包括:
将迭代(t-1)次得到的中间置信度矩阵与所述权重矩阵A相乘,将相乘后的结果与所述初始置信度矩阵比例相加,得到迭代t次得到的中间置信度,t为≥1的整数;
直到迭代得到的中间置信度矩阵满足预设条件,迭代结束,并将迭代结束后得到的置信度矩阵作为所述第一置信度矩阵。


3.如权利要求1所述的方法,所述初始化所述样本包含所述M个不同标记中任一标记的概率,并基于初始化后的结果构建初始置信度矩阵包括:
当所述M个不同标记中任一标记为所述样本的候选标记时,将所述概率初始化为1/N,N为所述样本包含的候选标记的个数;所述候选标记表示所述样本存在所述标记;
当所述M个不同标记中任一标记不为所述样本的候选标记时,将所述概率初始化为0。


4.如权利要求1所述的方法,通过距离度量所述相似度。


5.如权利要求1所述的方法,所述第二权重与所述相似度占比负相关。


6.如权利要求1所述的方法,在将所述权重向量B乘以所述第一置信度矩阵之前,将所述第一置信度矩阵中的置信度归一化至第一预设数值范围内。


7.如权利要求1所述的方法,基于所述权重矩阵A迭代更新所述初始置信度矩阵之前,基于最小二乘法优化所述权重矩阵A中的权重。


8.如权利要求1所述的方法,基于所述权重矩阵A迭代更新所述初始置信度矩阵之前,将所述权重矩阵A中的权重归一化至第二预设数值范围内。


9.如权利要求1所述的方法,所述样本为实体对象的数据。


10.如权利要求1所述的方法,所述实体对象数据为智能客服数据。


11.一种自动去除样本标记噪声的系统,包括:
样本获取模块,用于获取多个样本,所述多个样本合计包含M个不同的标记,M为≥1的整数;
置信度初始化模块,用于初始化所述样本包含所述M个不同标记中任一标记的概率,并基于初始化后的结果构...

【专利技术属性】
技术研发人员:方军鹏
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1