【技术实现步骤摘要】
数据标注方法、装置、电子设备、介质和程序产品
[0001]本公开涉及人工智能
,更具体地,涉及一种数据标注方法、装置、电子设备、介质和计算机程序产品。
技术介绍
[0002]对于基于机器学习的分类问题,为实现较好的分类效果,需要为模型提供一个可信度较高的带有分类标签的数据集。目前在训练初始模型时,数据集的获取仍以人工标注为主,需要人为的告诉机器一个分类标准才能进行后续的学习和训练。而人工标注的方法带有强烈的主观性,对于同一个分类问题,每个人的认知是不同的,这就导致标注的标签会因标注人的不同而产生较大差异,且难以制定统一的分类标准。
技术实现思路
[0003]有鉴于此,本公开提供了一种智能化程度高、标注准确全面的数据标注方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0004]本公开的一个方面提供了一种数据标注方法,包括:获取s个人工分别对n个数据的标注结果,其中,每个所述人工的标注结果为m个标注类别中的其中一类,s、m和n均为大于等于1的整数,n大于m;对每个所述数据的所述标注结果 ...
【技术保护点】
【技术特征摘要】
1.一种数据标注方法,其特征在于,包括:获取s个人工分别对n个数据的标注结果,其中,每个所述人工的标注结果为m个标注类别中的其中一类,s、m和n均为大于等于1的整数,n大于m;对每个所述数据的所述标注结果进行处理,得到每个所述数据的标签向量;根据每个所述数据的标签向量对所述n个数据进行聚类,形成m个聚类群和与所述m个聚类群一一对应的m个聚类中心,其中,所述聚类中心为能够确定该类的Ti个数据均属于哪一个所述标注类别的所述标签向量,Ti为大于等于0且小于n的整数,i为大于等于1且小于等于m的整数;根据所述聚类中心确定该类的Ti个数据均属于哪一个所述标注类别;以及将所述Ti个数据所属的所述标注类别作为所述Ti个数据的标注标签。2.根据权利要求1所述的方法,其特征在于,所述对每个所述数据的所述标注结果进行处理,得到每个所述数据的标签向量,包括:计算每个数据中每个所述标注类别占所述m个标注类别的比例;以及将所述m个标注类别分别占所述m个标注类别的比例作为向量要素构建每个所述数据的标签向量。3.根据权利要求2所述的方法,其特征在于,所述根据所述聚类中心确定该类的Ti个数据均属于哪一个所述标注类别,包括:将所述聚类中心的向量要素进行排序;以及取排序第一或者倒数第一的向量要素对应的标注类别,作为该类的Ti个数据的标注类别。4.根据权利要求1所述的方法,其特征在于,所述根据每个所述数据的标签向量对所述n个数据进行聚类,形成m个聚类群和与所述m个聚类群一一对应的m个聚类中心,包括:操作S41:根据设定的聚类个数m,利用聚类模型对所述n个数据进行聚类,行成m个初始聚类群,随机选取每个所述初始聚类群的初始聚类中心;操作S42:计算每个所述聚类群中聚类中心与除所述聚类中心以外的其它的每个标签向量的欧氏距离的和,作为聚类中心总代价;操作S43:随机选取该聚类群的辅助聚类中心,计算所述辅助聚类中心与该聚类群中除所述辅助聚类中心以外的其它的每个标签向量的欧氏距离的和,作为辅助聚类中心总代价,其中,所述辅助聚类中心与所述聚类中心为不同的标签向量;操作S44:比较m个聚类群中每个聚类群的所述聚类中心总代价与所述辅助聚类中心总代价的大小;操作S45:当m个聚类群中有k个聚类群的所述聚类中心总代价大于所述辅助聚类中心总代价时,将所述k个聚类群中每个聚类群的所述辅助聚类中心作为新的聚类中心,其余聚类群中每个聚类群的聚类中心不变;操作S46:根据操作S45中重新确定的m个聚类中心,对所述n个数据进行聚类,行成m个聚类群,重复执行操作S42~操作...
【专利技术属性】
技术研发人员:熊步先,刘华杰,孙洋洋,徐忠民,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。