一种数据标注方法和装置以及疾病分类模型训练方法制造方法及图纸

技术编号:32558363 阅读:46 留言:0更新日期:2022-03-05 12:00
本发明专利技术提供一种对样本数据集进行数据标注的方法,包括步骤:S1、获取样本数据集,其中样本数据集中的每个样本包含多个标注者分别对其进行标注的一种或多种分类标签;S2、对包含多种分类标签的样本的标签种类进行合并以将有关联的分类标签对合并且以标签对中的一个标签作为合并后的标签;其中,有关联的分类标签对是指不同的标注者对同一个样本标注的不同标签组成的成对组合;S3、基于合并后的分类标签对样本数据集中的样本进行重新进行标注。与现有技术相比,采用本发明专利技术方法可以实现对带有一定主观性的数据进行预处理以将主观性的评价使用其他具有相关性的指标客观化来获得具有普适性的标签以实现对数据的标注,然后训练相关的分类模型。后训练相关的分类模型。后训练相关的分类模型。

【技术实现步骤摘要】
一种数据标注方法和装置以及疾病分类模型训练方法


[0001]本专利技术涉及人工智能领域,具体来说,涉及人工智能领域的监督机器 学习领域,更具体地说,涉及针对带有部分主观性的数据多分类问题的一 种数据标注方法及模型、一种基于眼底图像的疾病分类模型训练方法以及 基于眼底图像的疾病分类方法。

技术介绍

[0002]人工智能领域的有监督机器学习是指机器利用已有标签信息的训练 样本进行训练,将模型映射的输出与训练样本的标签信息进行比对,可以 在迭代之中利用已有信息训练及修正模型。在有监督学习中,比较典型的 问题可以根据输入输出的特性分为回归问题、分类问题及标注问题。
[0003]其中,分类问题是输出变量取有限个离散值的预测问题,监督学习从 数据中学习出分类决策函数,称为分类器,并对新的输入进行输出的预测, 此过程称为分类。而分类问题中的多分类问题是指有多个不同预测类别的 分类问题,一般以拆分策略对样本进行学习。
[0004]在机器学习中,一般分类问题所设定的类别具有比较大的普适性,较 少出现有分歧的情況。对于简单的分类问题,尤其对于常见的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种对样本数据集进行数据标注的方法,其特征在于,包括步骤:S1、获取样本数据集,其中样本数据集中的每个样本包含多个标注者分别对其进行标注的一种或多种分类标签;S2、对包含多种分类标签的样本的标签种类进行合并以将有关联的分类标签对合并且以标签对中的一个标签作为合并后的标签;其中,有关联的分类标签对是指不同的标注者对同一个样本标注的不同标签组成的成对组合;S3、基于合并后的分类标签对样本数据集中的样本进行重新进行标注。2.根据权利要求1所述的方法,其特征在于,所述步骤S2中采用贪心算法对包含多个分类标签的样本的标签种类进行多次迭代合并。3.根据权利要求2所述的方法,其特征在于,所述样本数据集中的每个样本包含多个有关联的标签对,每次合并时将合并后使不同标注者对样本数据集的标注分歧度下降最多的标签对合并。4.根据权利要求3所述的方法,其特征在于,不同标注者对样本数据集的标注分歧度通过预设目标降值的下降数量来度量;其中,将以样本数据集中所有类别标签对应的分歧率、或去零熵值、或分歧熵值、或总熵值的平均值或权值平均设置为目标降值。5.根据权利要求4所述的方法,其特征在于,通过如下方式设置目标降值:计算每类标签对应的分歧率或去零熵值或分歧熵值或总熵值,其中,每类标签对应的分歧率为针对该类标签所有标注者标注不一致的样本在总样本中所占的比例;每类标签对应的去零熵值为针对该类标签所有标注者标注一致的样本的熵值平均值;每类标签对应的分歧熵值为针对该类标签所有标注者标注不一致的样本的熵值平均值;每类标签对应的总熵值为针对该类标签的所有样本熵值的平均值;基于计算出的每类标签对应的分歧率或去零熵值或分歧熵值或总熵值计算样本数据集中所有类别标签对应的分歧率或去零熵值或分歧熵值或总熵值的平均值或权值平均,其中:分歧率或去零熵值或分歧熵值或总熵值的平均值通过如下方式计算:其中,W
H
为样本数据集中所有类别标签对应的分歧率或去零熵值或分歧熵值或总熵值的平均值,H为每类标签对应的分歧率或去零熵值或分歧熵值或总熵值,N为标签类别个数;分歧率或去零熵值或分歧熵值或总熵值的权值平均通过如下方式计算:其中,Q
H
为样本数据集中所有类别标签对应的分歧率或去零熵值或分歧熵值或总熵值的权值平均,P为每类标签对应的样本频率。6.根据权利要求5所述的方法,其特征在于,针对每类标签每个样本对应的熵值通过如下方式计算:S=

p log p...

【专利技术属性】
技术研发人员:周昊毅赵昕和超张大磊
申请(专利权)人:上海鹰瞳医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1