一种基于二次模糊学习机的标记噪声识别方法及系统技术方案

技术编号：42693175 阅读：34 留言：0更新日期：2024-09-10 12:43

本发明专利技术涉及机器学习标记噪声识别技术领域。现有噪声过滤方法在处理大规模数据集时间复杂度高且难以自适应学习有用特征使其无法有效识别噪声；深度神经网络虽然具有较强的特征提取能力，但由于模型的表达能力较强使其可以有效拟合一定比例的标记噪声。为解决现有技术的不足，本发明专利技术利用深度神经网络提取对标记噪声识别有用的特征；利用模糊允许损失降低深度神经网络拟合标记噪声的风险；利用二次学习机制完成对标记噪声的初筛和识别，其中首次学习利用标记干净度区分高、低置信度样本，完成对标记噪声的初筛，二次学习利用样例集完成对标记噪声的识别。本发明专利技术充分利用模糊学习机的特征表示与模糊容忍能力，能够有效地提升标记噪声识别性能，减少了噪声对分类模型的影响。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习标记噪声识别，尤其涉及一种基于二次模糊学习机的标记噪声识别方法。

技术介绍

1、监督学习通过从大量的训练样本中学习来构建预测模型，其中每个训练样本都有一个标记标明其真实的输出，然而此类算法的效果严重依赖于训练样本的标记质量，在实际问题中获取具有高质量标记的训练样本通常费时费力。为节省人力物力，网络爬虫、众包方法等替代方法被用于采集训练数据。不幸的是，这些替代方法获取的数据往往存在一定比例的错误标注，即标记噪声，由此带来了很多潜在的问题。

2、分类作为机器学习中最重要的问题之一，也会受到标记噪声的影响。标记噪声给分类任务带来了巨大的挑战，因为传统的分类模型容易受到这些错误标记的干扰导致性能下降。因此识别和处理标记噪声对于构建高效、准确的机器学习模型至关重要。

3、目前为止已有大量识别标记噪声的方法被提出，基于集成学习思想的识别方法是通过多个基分类器的预测结果组合后的正确程度来识别噪声，比如多数投票过滤器(majority vote filter,mvf)、动态集成过滤器和高一致性随机森林过滤器(randomfor本文档来自技高网...

【技术保护点】

1.一种基于二次模糊学习机的标记噪声识别方法，其特征在于，该方法包括如下步骤：

2.根据权利要求1所述的一种基于二次模糊学习机的标记噪声识别方法，其特征在于，所述步骤S1包括：给定标记数据集其中xi表示样本原始表示，yi表示样本xi的真实标记。

3.根据权利要求1所述的一种基于二次模糊学习机的标记噪声识别方法，其特征在于，所述步骤S2包括：首次学习模块，基于特征提取模块和模糊二元关系模块构建模糊学习机，在训练过程中通过最小化模糊允许损失LFSR迭代更新模型参数，捕捉所有样本的潜在表示h(x)；对于样本特征xi，通过特征提取模块获取到的特征为h(xi)；

...

【技术特征摘要】

1.一种基于二次模糊学习机的标记噪声识别方法，其特征在于，该方法包括如下步骤：

2.根据权利要求1所述的一种基于二次模糊学习机的标记噪声识别方法，其特征在于，所述步骤s1包括：给定标记数据集其中xi表示样本原始表示，yi表示样本xi的真实标记。

3.根据权利要求1所述的一种基于二次模糊学习机的标记噪声识别方法，其特征在于，所述步骤s2包括：首次学习模块，基于特征提取模块和模糊二元关系模块构建模糊学习机，在训练过程中通过最小化模糊允许损失lfsr迭代更新模型参数，捕捉所有样本的潜在表示h(x)；对于样本特征xi，通过特征提取模块获取到的特征为h(xi)；

4.根据权利要求1所述的一种基于二次模糊学习机的标记噪声识别方法，其特征在于，所述步骤s3包括：模糊二元关系模块，使用余弦相似度作为模糊二元关系网络的基本骨架，基于获取到的样本特征h(x)进行相似度计算，计算余弦相似度得到样本之间的模糊关系矩阵；对于样本xi的特征h(xi)和样本xj的特征h(xj)进行余弦相似度计算，余弦相似度计算公式为：

5.根据权利要求1所述的一种基于二次模糊学习机的标记噪声识别方法，其特征在于，所述步骤s4包括：样例集选择模块，对于类别c，将标记为c的所有样本原始特征x输入模糊二元关系模块，得到样本之间的模糊关系矩阵s，对模糊关系矩阵s进行按列求和，即可得到样本对于类别的隶属度s_c，对其进行从大...

【专利技术属性】
技术研发人员：梁吉业，李怡晓，崔军彪，
申请(专利权)人：山西大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人