一种基于集成TSK模糊分类器的众包质量提升的方法技术

技术编号:24997337 阅读:77 留言:0更新日期:2020-07-24 17:59
本发明专利技术提出了一种基于集成TSK模糊分类器的众包质量提升的方法,包括以下步骤:利用含有标签噪音的两分类数据构建多个具有抗噪能力的TSK模糊分类器TSK‑noise‑FC,在挑选出的不含噪音数据的验证集上产生多个增强属性,从而生成增强验证集;利用经典的模糊聚类算法FCM对增强验证集进行聚类,形成含有标签的多代表点数据,记做数据字典,利用生成的数据字典,对含有标签噪音的数据进行快速矫正,对于每一个含噪音数据的众包数据,找到其最近的代表点,该代表点的标签就是预测的结果。该方法能够降低众包的成本,而且运行速度快,多个具有抗噪能力的弱分类器可以并行运行,对于众包数据的预测,只需要找到最近的含有标签的代表点,此代表点的标签就是该众包数据的矫正结果。

【技术实现步骤摘要】
一种基于集成TSK模糊分类器的众包质量提升的方法
本专利技术涉及众包系统的
,特别是一种基于集成TSK模糊分类器的众包质量提升的方法。
技术介绍
众包一词最早是由JeffHowe在2006年提出,即将过去由一个公司或组织内部员工执行的工作,以自由自愿的形式交给大众去完成,然后付给个人一定的报酬。其出现是作为一种分布式的问题解决和生产模式,用以降低任务完成的成本。众包系统利用大量网络工作者的多种技能来解决问题和执行项目。事实上,一些开源的软件(Linux项目)和维基百科都可以被视为众包产品,典型地,全世界最大的图像数据集ImageNet的标注,也是通过众包实现的。这些众包系统包括AmazonMTurk和CrowdFlower最近得到了很大的普及,因为其将请求者将所要解决的问题张贴到拥有大量在线工作人员的众包平台上,为问题得以迅速解决提供了方便的途径。众包成功的应用在了对图像和文档的标注,编写和审阅软件代码,大型产品的设计,筹集资金等。众包的初衷就是为了降低成本,找全世界的工人(专业或业余)来完成一件庞大的工程或项目。一个完整本文档来自技高网...

【技术保护点】
1.一种基于集成TSK模糊分类器的众包质量提升的方法,其特征在于:依次包括以下步骤:/nS1.利用含有标签噪音的两分类数据集构建多个TSK-noise-FC模糊子分类器,在挑选出的不含噪音数据的验证集上产生多个增强属性,从而生成增强验证集;/nS2.利用经典的模糊聚类算法FCM算法对增强验证集进行聚类,形成含有标签的多代表点数据,记做数据字典,利用生成的数据字典,对含有标签噪音的数据进行快速矫正,对于每一个含噪音数据的众包数据,找到其最近的代表点,该代表点的标签就是预测的结果。/n

【技术特征摘要】
1.一种基于集成TSK模糊分类器的众包质量提升的方法,其特征在于:依次包括以下步骤:
S1.利用含有标签噪音的两分类数据集构建多个TSK-noise-FC模糊子分类器,在挑选出的不含噪音数据的验证集上产生多个增强属性,从而生成增强验证集;
S2.利用经典的模糊聚类算法FCM算法对增强验证集进行聚类,形成含有标签的多代表点数据,记做数据字典,利用生成的数据字典,对含有标签噪音的数据进行快速矫正,对于每一个含噪音数据的众包数据,找到其最近的代表点,该代表点的标签就是预测的结果。


2.如权利要求1所述的一种基于集成TSK模糊分类器的众包质量提升的方法,其特征在于:所述步骤S1的具体过程为:在含有标签噪声的L个训练子集上构建L个模糊子分类器,TSK-noise-FC-1到TSK-noise-FC-L,然后将这些模糊子分类器分别作用于不含噪音数据的验证集上,对验证集进行扩维,形成增强验证集。


3.如权利要求1所述的一种基于集成TSK模糊分类器的众包质量提升的方法,其特征在于:所述步骤S2的具体过程为:利用FCM聚类算法对增强验证集进行聚类,对增强验证集中的正负类分别进行聚类,求得带标签的多代表中心点,对中心点去掉增强属性,数据维度恢复到原数据维度大小,然后使用KNN算法找到距离测试点最近的中心点,该中心点的类标作为所求测试点的类别。


4.如权利要求1所述的一种基于集成TSK模糊分类器的众包质量提升的方法,其特征在于:所述TSK-noise-FC模糊分类器所采用的算法1为:
a)算法1的输入:第l个训练子集对应的标签集其中xi∈Rd,yi∈{-1,+1,0},i=1,2,…,Nl,模糊规则数Kl,参数ε=(ε1,ε2,…,εN-M),εi=ε,i=1,2,…,N-M;
b)算法1的输出:模糊规则和子分类器的输出函数
c)算法1的学习过程如下:
c1)通过从集合{0,0.25,0.5,0.75,1}随机选择一个特征值,构造规则组合矩阵表示五个高斯函数中哪一个被选择;
c2)通过随机选择一个正数,构造核宽度矩阵
c3)根据规则组合矩阵和核宽度矩阵,构造每一条模糊规则的模糊隶属度,利用公式(1)计算,并且



其中j=1,2,…,d,k=1,2,…,Kl,归一化并构造矩阵...

【专利技术属性】
技术研发人员:蒋云良张雄涛胡文军邬惠峰
申请(专利权)人:湖州师范学院
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1