System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 训练样本的生成方法、装置、设备和存储介质制造方法及图纸_技高网

训练样本的生成方法、装置、设备和存储介质制造方法及图纸

技术编号:40319935 阅读:9 留言:0更新日期:2024-02-09 14:16
本说明书实施方式提供了一种训练样本的生成方法、装置、设备和存储介质。所述方法包括:生成样本相对于多个样本类别的概率分布数据;其中,所述概率分布数据表示样本属于不同所述样本类别的概率;根据所述概率分布数据确定所述样本的信息熵值;在所述信息熵值符合预设条件的情况下,为所述样本添加根据所述概率分布数据确定的样本类别的类别标签,以生成训练样本。通过样本的概率分布数据确定样本对应的信息熵。在样本的信息熵满足预设条件的情况下,自动为所述样本添加标注信息,以在一定程度上提高了样本标注的效率。

【技术实现步骤摘要】

本说明书中实施方式关于计算机数据处理的,具体涉及一种训练样本的生成方法、装置、设备和存储介质


技术介绍

1、目前,一些机器学习模型的训练需要大量的具有标签的训练样本。通常的,训练样本的标签需要通过人工进行标注。

2、因此,现有技术中存在训练样本标注的效率较低的技术问题。


技术实现思路

1、本说明书中多个实施方式提供一种训练样本的生成方法、装置、设备和存储介质,以在一定程度上提高了样本标注的效率。

2、本说明书中多个实施方式提供一种训练样本的生成方法,包括:生成样本相对于多个样本类别的概率分布数据;其中,所述概率分布数据表示样本属于不同所述样本类别的概率;根据所述概率分布数据确定所述样本的信息熵值;在所述信息熵值符合预设条件的情况下,为所述样本添加根据所述概率分布数据确定的样本类别的类别标签,以生成训练样本。

3、本说明书的一个实施方式提供一种训练样本的生成装置,其特征在于,包括:生成模块,用于生成样本相对于多个样本类别的概率分布数据;其中,所述概率分布数据表示样本属于不同所述样本类别的概率;确定模块,用于根据所述概率分布数据确定所述样本的信息熵值;添加模型,用于在所述信息熵值符合预设条件的情况下,为所述样本添加根据所述概率分布数据确定的样本类别的类别标签,以生成训练样本。

4、本说明书的一个实施方式提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述实施方式中任一项所述的方法。</p>

5、本说明书的一个实施方式提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施方式中任一项所述的方法。

6、本说明书提供的多个实施方式,通过样本的概率分布数据确定样本对应的信息熵。在样本的信息熵满足预设条件的情况下,自动为所述样本添加标注信息,以在一定程度上提高了样本标注的效率。

本文档来自技高网...

【技术保护点】

1.一种训练样本的生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求2所述的方法,其特征在于,根据所述初始训练样本,确定分类模型的步骤,包括:

6.根据权利要求2所述的方法,其特征在于,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,所述预设条件包括所述样本的信息熵值小于信息熵阈值;

8.根据权利要求1所述的方法,其特征在于,所述样本相对于多个样本类别的概率分布数据使用分类模型生成;相应的,所述方法还包括:

9.根据权利要求1所述的方法,其特征在于,对应不同任务提供有多种预设条件,所述方法还包括:

10.一种分类模型的训练方法,其特征在于,包括:

11.一种训练样本的生成装置,其特征在于,包括:

12.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法。

...

【技术特征摘要】

1.一种训练样本的生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求2所述的方法,其特征在于,根据所述初始训练样本,确定分类模型的步骤,包括:

6.根据权利要求2所述的方法,其特征在于,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,所述预设条件包括所述样本的信息熵值小于信息熵阈值;

8.根据权利要求1所述的方法,其特征在于,所述样本相对...

【专利技术属性】
技术研发人员:郭顺陈成才
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1