一种模型训练方法和装置制造方法及图纸

技术编号:38143651 阅读:7 留言:0更新日期:2023-07-08 10:00
本申请实施例提供了一种模型训练方法和装置,所述方法包括:从预先标注的原始数据集中确定部分标注数据集,所述部分标注数据集中的数据的标签类型包括至少一种目标实体类型且不包括所有目标实体类型,所述标签类型为数据中存在的实体类型;所述目标实体类型为目标训练模型所能够识别的目标实体的实体类型;对所述部分标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集,其中,所述待标注实体类型为所述标签类型中不包括的所述目标实体类型;通过所述增量数据集训练所述目标模型。可以解决影响目标模型训练效果的问题。题。题。

【技术实现步骤摘要】
一种模型训练方法和装置


[0001]本申请涉及算法训练
,特别是涉及一种模型训练方法和装置。

技术介绍

[0002]在算法训练过程中,训练数据的数量非常重要。如果训练过程中训练样本的数量不足,则会直接影响到模型训练的训练效果。例如,AI(Artificial Intelligence人工智能)开放平台中,用户在进行模型训练时,使用的训练数据可能出现数据漏标的情况,进而会将一部分漏标的数据筛选掉,导致训练样本的数量不足,进而影响到训练效果。而重新进行标注时,会有一部分数据已经标注过,进而存在多次标注,导致标注效率高。
[0003]因此,亟需一种方法可以解决漏标导致训练样本数量不足,重新标注标注效率过低,从而影响到目标模型训练效果的问题。

技术实现思路

[0004]本申请实施例的目的在于提供一种模型训练方法和装置,用以解决漏标导致训练样本数量不足,重新标注标注效率过低,从而影响到目标模型训练效果的问题。具体技术方案如下:
[0005]在本申请实施例的第一方面,提供了一种模型训练方法,所述方法包括:
[0006]从预先标注的原始数据集中确定部分标注数据集,所述部分标注数据集中的数据的标签类型包括至少一种目标实体类型且不包括所有目标实体类型,所述标签类型为数据中存在的实体类型;所述目标实体类型为目标训练模型所能够识别的目标实体的实体类型;
[0007]对所述部分标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集,其中,所述待标注实体类型为所述标签类型中不包括的所述目标实体类型;
[0008]通过所述增量数据集训练所述目标模型。
[0009]在一种可能的实施例中,所述方法还包括:
[0010]从所述原始数据集中确定全量标注数据集,其中,所述全量标注数据集中包括标注配置类型与所述目标实体类型相同的数据,所述标注配置类型为构建所述原始数据集时被配置需要进行标注的实体类型;
[0011]通过所述全量标注数据集训练所述目标模型。
[0012]在一种可能的实施例中,所述对所述部分标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集,包括:
[0013]从所述部分标注数据集中确定待标注数据集,其中,所述待标注数据集包括标注配置类型与所述目标实体类型不同的数据;
[0014]对所述待标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集。
[0015]在一种可能的实施例中,所述对所述部分标注数据集内各数据中待标注实体类型
的实体进行标注,得到增量数据集,包括:
[0016]将所述部分标注数据集输入预设标注模型中,得到标注后数据,作为所述增量数据集;所述预设标注模型用于标注包括目标实体类型的实体;
[0017]所述方法还包括:
[0018]通过所述增量数据集对所述预设标注模型进行无监督学习。
[0019]在本申请实施例的第二方面,提供了一种模型训练装置,所述装置包括:
[0020]待标注模块,用于从预先标注的原始数据集中确定部分标注数据集,所述部分标注数据集中的数据的标签类型包括至少一种目标实体类型且不包括所有目标实体类型,所述标签类型为数据中存在的实体类型;所述目标实体类型为目标训练模型所能够识别的目标实体的实体类型;
[0021]标注模块,用于对所述部分标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集,其中,所述待标注实体类型所述标签类型中不包括的所述目标实体类型;
[0022]训练模块,用于通过所述增量数据集训练所述目标模型。
[0023]在一种可能的实施例中,所述装置还包括:
[0024]全量标注模块,用于从所述原始数据集中确定全量标注数据集,其中,所述全量标注数据集中包括标注配置类型与所述目标实体类型相同的数据,所述标注配置类型为构建所述原始数据集时被配置需要进行标注的实体类型;
[0025]所述训练模块,还用于通过所述全量标注数据集训练所述目标模型。
[0026]在一种可能的实施例中,所述标注模块,具体从所述部分标注数据集中确定待标注数据集,其中,所述待标注数据集包括标注配置类型与所述目标实体类型不同的数据;
[0027]对所述待标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集。在一种可能的实施例中,所述标注模块,具体用于将所述部分标注数据集输入预设标注模型中,得到标注后数据,作为所述增量数据集;所述预设标注模型用于标注包括目标实体类型的实体;
[0028]通过所述增量数据集对所述预设标注模型进行无监督学习。
[0029]在本申请实施例的第三方面,提供了一种电子设备,包括:
[0030]存储器,用于存放计算机程序;
[0031]处理器,用于执行存储器上所存放的程序时,实现如前述第一方面所述的方法。
[0032]在本申请实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如前述第一方面所述的方法。
[0033]本申请实施例有益效果:
[0034]本申请实施例提供的一种模型训练方法和装置,可以通过从预先标注的原始数据集中确定部分标注数据集,通过对部分标注数据集重新进行标注,然后将标注后的增量数据用于训练目标模型,进而可以将没有标注的目标实体进行标注,由于本申请中是将部分标注数据集进行重新标注,因此一部分之前被标注的数据就避免了重新标注,可以减少标注量,进而可以解决重新标注效率过低的问题,通过重新标注的数据增量训练目标模型,进而解决影响目标模型训练效果的问题。
[0035]当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
[0036]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。
[0037]图1

1为本申请实施例中提供的一种模型训练方法的流程示意图;
[0038]图1

2为本申请实施例中提供的一种原始数据集标注的过程示意图;
[0039]图1

3为本申请实施例中提供的一种数据检索的过程示意图;
[0040]图2

1为本申请实施例中提供的一种模型训练方法的框架示意图;
[0041]图2

2为本申请实施例中提供的另一种模型训练方法的流程示意图;
[0042]图3为本申请实施例中提供的一种模型训练装置的装置示意图;
[0043]图4为本申请实施例中提供的一种电子设备的结构示意图。
具体实施方式
[0044]下面将结合本申请实施例中的附图,对本申请实施例中的技本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:从预先标注的原始数据集中确定部分标注数据集,所述部分标注数据集中的数据的标签类型包括至少一种目标实体类型且不包括所有目标实体类型,所述标签类型为数据中存在的实体类型;所述目标实体类型为目标训练模型所能够识别的目标实体的实体类型;对所述部分标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集,其中,所述待标注实体类型为所述标签类型中不包括的所述目标实体类型;通过所述增量数据集训练所述目标模型。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:从所述原始数据集中确定全量标注数据集,其中,所述全量标注数据集中包括标注配置类型与所述目标实体类型相同的数据,所述标注配置类型为构建所述原始数据集时被配置需要进行标注的实体类型;通过所述全量标注数据集训练所述目标模型。3.根据权利要求1所述的方法,其特征在于,所述对所述部分标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集,包括:从所述部分标注数据集中确定待标注数据集,其中,所述待标注数据集包括标注配置类型与所述目标实体类型不同的数据;对所述待标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集。4.根据权利要求1所述的方法,其特征在于,所述对所述部分标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集,包括:将所述部分标注数据集输入预设标注模型中,得到标注后数据,作为所述增量数据集;所述预设标注模型用于标注包括目标实体类型的实体;所述方法还包括:通过所述增量数据集对所述预设标注模型进行无监督学习。5.一种模型训练装置,其特征在于,所述装置包括:待标注模块,用于从预先标注的原始数据集中确定部分标注数据集,所述部分标注数据集中的数据的标签类型包括至...

【专利技术属性】
技术研发人员:刘浩哲吴江包晓旭许江浩
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1