一种数据驱动自动化标注策略及应用其的皮肤影像模型制造技术

技术编号：40310797 阅读：5 留言：0更新日期：2024-02-07 20:53

本发明专利技术涉及人工智能技术领域，具体涉及一种数据驱动自动化标注策略及应用其的皮肤影像模型，其中一种数据驱动自动化标注策略包括以下步骤：S1：确定模型训练需求，将未标注的数据更新至未标注数据池内；S2：根据模型训练需求，采用查询策略对未标注数据池内的数据进行筛选，选取对于模型性能提升最大的数据进行标注后更新至标注数据池内；S3：利用标注数据池内的数据对当前模型进行训练，得到训练后的模型；S4：使用标注数据池内的数据对训练后的模型进行性能验证，当模型性能未达到预期目标时，转入步骤S2，当模型性能达到预期目标时，结束训练。本发明专利技术的开发效率高，开发周期短，且能够加速模型的收敛，模型精度高、性能强。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，具体涉及一种数据驱动自动化标注策略及应用其的皮肤影像模型。

技术介绍

1、模型训练包括数据采集、数据标注、数据预处理、算法选择、模型训练(即学习过程)以及性能验证，其中准备训练数据时，需要对数据进行标注，传统的模型训练过程中，一般采用的全人工标注的方法，对大量数据进行标注后用来训练模型，在数据标注过程中，标注的相当一部分数据对于模型性能提升价值不大，数据工程的效率不高，如中国专利公开的训练数据的获取方法和装置、模型训练方法和装置(公开号：cn113850301a)，该专利技术中采用了联合训练的方式，即已有的第一标注数据(比如可以是人工标注的数据)及无标注数据都共同参与训练中间模型(第一初始模型及第二初始模型)，已有的第一标注数据(比如可以是人工标注的数据)、无标注数据及中间模型又能被利用来生成大量的机器标注的标注数据，比如上述过程中，第二标注数据以及第三标注数据均是由机器计算得到的，而不是人工标注数据，因此，可以解决人工标注的诸多问题，比如，因为机器的计算能力，能够生成海量的用于训练模型的训练数据，从而使得训练出的模型更为准确。采用全自动的数据引擎能够有效降低人力成本，但在实际应用中，该种数据引擎所需训练数据的数量庞大，开发效率较低，开发周期长，且训练得到的模型容易受到错误的训练数据的污染，导致模型性能较差。

技术实现思路

1、本专利技术所要解决的技术问题：现有的模型的开发效率较低，开发周期长，模型性能不理想。提出了一种数据驱动自动化标注策略及应用其的皮肤影

2、为解决上述技术问题，本专利技术的第一部分提出了一种数据驱动自动化标注策略，包括以下步骤：

3、s1：确定模型训练需求，将未标注的数据更新至未标注数据池内；

4、s2：根据模型训练需求，采用查询策略对未标注数据池内的数据进行筛选，选取对于模型性能提升最大的数据进行标注后更新至标注数据池内；

5、s3：利用标注数据池内的数据对当前模型进行训练，得到训练后的模型；

6、s4：使用标注数据池内的数据对训练后的模型进行性能验证，当模型性能未达到预期目标时，转入步骤s2，当模型性能达到预期目标时，结束训练。

7、工作时，能够将数据标注、模型训练以及性能验证整合在一起，形成了一个完整的闭环开发逻辑，提高开发效率，缩短开发周期，且能够加速模型的收敛，模型精度高、性能强。

8、作为优选，在步骤s2中，采用查询策略对未标注数据池内的数据进行筛选时，采用以下步骤：

9、a1：使用查询策略度量未标注数据池内的数据的差异性和不确定性；

10、a2：根据每个数据的差异性或者不确定性将未标注数据池内的数据分别划分为难样本或者易样本。

11、作为优选，在步骤s2中，根据模型训练需求，采用查询策略对未标注数据池内的数据进行筛选，选取对于模型性能提升最大的数据进行标注后更新至标注数据池内时，采用以下步骤，当需要增加训练数据量时，利用查询策略筛选出易样本中对增加训练数据量价值最大的部分数据，利用当前模型对该部分数据进行预标注，得到预标注为伪标签的数据，将预标注为伪标签的数据更新至标注数据池内，或者对预标注为伪标签的数据进行人工审核后更新至标注数据池内。工作时，仅需标注人员对部分难样本进行标注，对于易样本可以直接采用自动化伪标签或者仅需对预标注的伪标签的数据进行审核，相较于传统数据标注中的全部人工标注，极大地降低了标注人员的劳动强度，节约了人力成本。

12、作为优选，在步骤s2中，根据模型训练需求，采用查询策略对未标注数据池内的数据进行筛选，选取对于模型性能提升最大的数据进行标注后更新至标注数据池内时，采用以下步骤，当需要解决corner case时，利用查询策略筛选出难样本中对解决corner case价值最大的部分数据，通过人工进行标注后，将标注过的数据更新至标注数据池内。工作时，通过优先标注对解决corner case价值最大的部分数据，并利用其对模型进行训练，可以进一步提高训练的效果，提高开发效率。

13、作为优选，在步骤s2中，根据模型训练需求，采用查询策略对未标注数据池内的数据进行筛选，选取对于模型性能提升最大的数据进行标注后更新至标注数据池内时，采用以下步骤，当需要综合提高模型性能时，利用查询策略筛选出易样本中对增加训练数据量价值最大的部分数据，利用当前模型对该部分数据进行预标注，得到预标注为伪标签的数据，将预标注为伪标签的数据更新至标注数据池内，或者对预标注为伪标签的数据进行人工审核后更新至标注数据池内，以及利用查询策略筛选出难样本中对解决corner case价值最大的部分数据，通过人工进行标注后，将标注过的数据更新至标注数据池内。工作时，可以根据实际的模型训练需求，可以优先标注对增加训练数据量价值最大的部分数据进行模型训练，也可以优先标注对解决corner case价值最大的部分数据进行模型训练，还可以同时使用难样本中对解决corner case价值最大的部分数据和易样本对增加训练数据量价值最大的部分数据进行标注后用于模型训练，能够提高开发效率的同时增加训练数据量，能够进一步提高模型的性能，节约开发成本，开发周期短，适用范围广，通用性好。

14、作为优选，在步骤s2中，使用查询策略度量所有未标注的数据的差异性和不确定性时至少采用least confident策略、margin sampling策略、entropy策略、vote entropy策略以及average kullback-leibler divergence策略中的一种。

15、作为优选，在步骤s3中，利用标注数据池内的数据对当前模型进行训练时，采用以下步骤：

16、b1：将标注数据池内的数据分别划分为训练集或者验证集；

17、b2：利用训练集内的数据对当前模型进行训练。

18、作为优选，在步骤s4中，使用标注数据池内的数据对训练后的模型进行性能验证时，利用验证集内的数据对训练后的模型进行性能验证。

19、作为优选，在步骤s4中，使用标注数据池内的数据对训练后的模型进行性能验证时至少验证训练后的模型的准确率、精确率、召回率以及f1分数中的一种。

20、本专利技术的第二部分提出了一种皮肤影像模型，选用皮肤影像数据，采用以下数据引擎开发获取：

21、c1：确定模型训练需求，将未标注的皮肤影像数据更新至未标注数据池内；

22、c2：根据模型训练需求，采用查询策略对未标注数据池内的皮肤影像数据进行筛选，选取对于模型性能提升最大的皮肤影像数据进行标注后更新至标注数据池内；

23、c3：利用标注数据池内的皮肤影像数据对当前皮肤影像模型进行训练，得到训练后的皮肤影像模型；

24、c4：使用标本文档来自技高网...

【技术保护点】

1.一种数据驱动自动化标注策略，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种数据驱动自动化标注策略，其特征在于，在步骤S2中，采用查询策略对未标注数据池内的数据进行筛选时，采用以下步骤：

3.根据权利要求2所述的一种数据驱动自动化标注策略，其特征在于，在步骤S2中，根据模型训练需求，采用查询策略对未标注数据池内的数据进行筛选，选取对于模型性能提升最大的数据进行标注后更新至标注数据池内时，采用以下步骤，当需要增加训练数据量时，利用查询策略筛选出易样本中对增加训练数据量价值最大的部分数据，利用当前模型对该部分数据进行预标注，得到预标注为伪标签的数据，将预标注为伪标签的数据更新至标注数据池内，或者对预标注为伪标签的数据进行人工审核后更新至标注数据池内。

4.根据权利要求2所述的一种数据驱动自动化标注策略，其特征在于，在步骤S2中，根据模型训练需求，采用查询策略对未标注数据池内的数据进行筛选，选取对于模型性能提升最大的数据进行标注后更新至标注数据池内时，采用以下步骤，当需要解决corner case时，利用查询策略筛选出难样本中对解决cor

5.根据权利要求2所述的一种数据驱动自动化标注策略，其特征在于，在步骤S2中，根据模型训练需求，采用查询策略对未标注数据池内的数据进行筛选，选取对于模型性能提升最大的数据进行标注后更新至标注数据池内时，采用以下步骤，当需要综合提高模型性能时，利用查询策略筛选出易样本中对增加训练数据量价值最大的部分数据，利用当前模型对该部分数据进行预标注，得到预标注为伪标签的数据，将预标注为伪标签的数据更新至标注数据池内，或者对预标注为伪标签的数据进行人工审核后更新至标注数据池内，以及利用查询策略筛选出难样本中对解决corner case价值最大的部分数据，通过人工进行标注后，将标注过的数据更新至标注数据池内。

6.根据权利要求1所述的一种数据驱动自动化标注策略，其特征在于，在步骤S2中，采用查询策略对未标注数据池内的数据进行筛选时至少采用Least Confident策略、marginsampling策略、Entropy策略、Vote Entropy策略以及average kullback-leiblerdivergence策略中的一种。

7.根据权利要求1所述的一种数据驱动自动化标注策略，其特征在于，在步骤S3中，利用标注数据池内的数据对当前模型进行训练时，采用以下步骤：

8.根据权利要求7所述的一种数据驱动自动化标注策略，其特征在于，在步骤S4中，使用标注数据池内的数据对训练后的模型进行性能验证时，利用验证集内的数据对训练后的模型进行性能验证。

9.根据权利要求1所述的一种数据驱动自动化标注策略，其特征在于，在步骤S4中，使用标注数据池内的数据对训练后的模型进行性能验证时至少验证训练后的模型的准确率、精确率、召回率以及F1分数中的一种。

10.一种皮肤影像模型，其特征在于，选用皮肤影像数据，采用以下数据引擎开发获取：

...

【技术特征摘要】

1.一种数据驱动自动化标注策略，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种数据驱动自动化标注策略，其特征在于，在步骤s2中，采用查询策略对未标注数据池内的数据进行筛选时，采用以下步骤：

3.根据权利要求2所述的一种数据驱动自动化标注策略，其特征在于，在步骤s2中，根据模型训练需求，采用查询策略对未标注数据池内的数据进行筛选，选取对于模型性能提升最大的数据进行标注后更新至标注数据池内时，采用以下步骤，当需要增加训练数据量时，利用查询策略筛选出易样本中对增加训练数据量价值最大的部分数据，利用当前模型对该部分数据进行预标注，得到预标注为伪标签的数据，将预标注为伪标签的数据更新至标注数据池内，或者对预标注为伪标签的数据进行人工审核后更新至标注数据池内。

4.根据权利要求2所述的一种数据驱动自动化标注策略，其特征在于，在步骤s2中，根据模型训练需求，采用查询策略对未标注数据池内的数据进行筛选，选取对于模型性能提升最大的数据进行标注后更新至标注数据池内时，采用以下步骤，当需要解决corner case时，利用查询策略筛选出难样本中对解决corner case价值最大的部分数据，通过人工进行标注后，将标注过的数据更新至标注数据池内。

5.根据权利要求2所述的一种数据驱动自动化标注策略，其特征在于，在步骤s2中，根据模型训练需求，采用查询策略对未标注数据池内的数据进行筛选，选取对于模型性能提升最大的数据进行标注后更新至标注数据池内时，采用以下步骤，当需要综合提高模型性能时，利用...

【专利技术属性】
技术研发人员：张伟，张靖，崔涛，贺扬，
申请(专利权)人：杭州咏柳科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人