一种数据分类方法及装置制造方法及图纸

技术编号:29279389 阅读:17 留言:0更新日期:2021-07-16 23:05
本发明专利技术实施例提供了一种数据分类方法及装置,方法包括:获取多个样本数据,样本数据的数据类别为有样本类别;利用多个样本数据对预设网络进行训练,得到预设分类模型;提取预设分类模型中每一有样本类别对应的第一最终分类器参数;根据预设的数据类别间的关联关系,以及每一有样本类别对应的第一最终分类器参数,确定每一无样本类别对应的最终分类器参数,数据类别包括有样本类别和无样本类别;利用具有所确定的无样本类别对应的最终分类器参数的预设分类模型,对每一无样本类别的待分类数据进行分类。应用本发明专利技术实施例提供的技术方案,实现了对没有样本数据的数据类别的数据进行分类,扩大了应用范围。扩大了应用范围。扩大了应用范围。

A data classification method and device

【技术实现步骤摘要】
一种数据分类方法及装置


[0001]本专利技术涉及机器学习
,特别是涉及一种数据分类方法及装置。

技术介绍

[0002]一些场景中,需要对数据进行分类,比如,采集道路监控视频之后,要根据视频中的目标,对视频图像进行分类,一类视频图像为针对行人的图像,另一类则为针对车辆的图像,进而可以对不同类别的图像采取不同的处理方法,以便实现对道路的监控。通常,可以利用分类模型对数据进行分类,从而减少人工操作,提升效率。
[0003]相关技术中,采用的数据分类方法通常为:首先,获取样本训练集,其中,样本训练集中包括多种数据类别的样本数据,然后,利用预设模型对样本训练集进行训练,得到针对多种数据类别的分类模型,进而,可以将待分类数据输入至训练得到的分类模型中,以实现对待分类数据的分类。
[0004]但是,在上述方法中,训练得到的分类模型只能对样本训练集中包括的几种类别的样本数据进行识别,比如,如果训练集中的数据类别只有车和人,那么,训练得到的分类模型只能识别出车和人两个数据类别。如果待分类数据的类别为样本训练集中不存在的数据类别,则上述方法将无法有效地对待分类数据进行分类,因此,上述数据分类方法的应用范围有限,难以满足用户需求。

技术实现思路

[0005]本专利技术实施例的目的在于提供一种数据分类方法及装置,以实现对没有样本数据的数据类别的数据进行分类,扩大应用范围。具体技术方案如下:
[0006]为实现上述目的,本专利技术实施例提供了一种数据分类方法,所述方法包括:
[0007]获取多个样本数据,所述样本数据的数据类别为有样本类别;
[0008]利用所述多个样本数据对预设网络进行训练,得到预设分类模型;
[0009]提取所述预设分类模型中每一有样本类别对应的第一最终分类器参数;
[0010]根据预设的数据类别间的关联关系,以及每一有样本类别对应的第一最终分类器参数,确定每一无样本类别对应的最终分类器参数,所述数据类别包括有样本类别和无样本类别;
[0011]利用具有所确定的无样本类别对应的最终分类器参数的预设分类模型,对每一无样本类别的待分类数据进行分类。
[0012]一种可选的实施例中,所述根据预设的数据类别间的关联关系,以及每一有样本类别对应的第一最终分类器参数,确定每一无样本类别对应的最终分类器参数,包括:
[0013]确定每一无样本类别对应的初始分类器参数以及每一有样本类别对应的初始分类器参数;
[0014]将预设的数据类别间的关联关系、每一有样本类别对应的初始分类器参数以及每一无样本类别对应的初始分类器参数输入预设图网络模型,得到每一有样本类别对应的中
间分类器参数以及每一无样本类别对应的中间分类器参数;
[0015]根据每一有样本类别对应的第一最终分类器参数和每一有样本类别对应的中间分类器参数,确定损失值;
[0016]若所述损失值小于预设损失阈值,则确定当前每一无样本类别对应的中间分类器参数为最终分类器参数。
[0017]一种可选的实施例中,所述方法还包括:
[0018]若所述损失值大于等于所述预设损失阈值,则调整每一无样本类别对应的初始分类器参数以及每一有样本类别对应的初始分类器参数,返回执行所述将预设的数据类别间的关联关系、每一有样本类别对应的初始分类器参数以及每一无样本类别对应的初始分类器参数输入预设图网络模型的步骤。
[0019]一种可选的实施例中,所述方法还包括:
[0020]若所述损失值小于预设损失阈值,则确定当前每一有样本类别对应的中间分类器参数为第二最终分类器参数;
[0021]利用具有所确定的有样本类别对应的第二最终分类器参数的预设分类模型,对每一无样本类别的待分类数据进行分类。
[0022]一种可选的实施例中,在确定每一无样本类别对应的最终分类器参数之前,还包括:
[0023]确定每两种数据类别之间的相似度;
[0024]建立相似度大于预设相似度阈值的两种数据类别间的关联关系。
[0025]一种可选的实施例中,所述样本数据和所述待分类数据为图像、文档、表格或语音数据。
[0026]一种可选的实施例中,当所述样本数据和所述待分类数据为图像时,在所述利用具有所确定的无样本类别对应的最终分类器参数的预设分类模型,对每一无样本类别的待分类数据进行分类之前,还包括:
[0027]对所述待分类数据进行目标检测,确定所述待分类数据中包括所述检测目标的图像区域;
[0028]利用具有所确定的无样本类别对应的最终分类器参数的预设分类模型,对所述图像区域进行分类处理,得到所述检测目标的无样本类别。
[0029]为实现上述目的,本专利技术实施例还提供了一种数据分类装置,所述装置包括:
[0030]获取模块,用于获取多个样本数据,所述样本数据的数据类别为有样本类别;
[0031]训练模块,用于利用所述多个样本数据对预设网络进行训练,得到预设分类模型;
[0032]提取模块,用于提取所述预设分类模型中每一有样本类别对应的第一最终分类器参数;
[0033]确定模块,用于根据预设的数据类别间的关联关系,以及每一有样本类别对应的第一最终分类器参数,确定每一无样本类别对应的最终分类器参数,所述数据类别包括有样本类别和无样本类别;
[0034]分类模块,用于利用具有所确定的无样本类别对应的最终分类器参数的预设分类模型,对每一无样本类别的待分类数据进行分类。
[0035]一种可选的实施例中,所述确定模块,包括:
[0036]第一确定子模块,用于确定每一无样本类别对应的初始分类器参数以及每一有样本类别对应的初始分类器参数;
[0037]学习子模块,用于将预设的数据类别间的关联关系、每一有样本类别对应的初始分类器参数以及每一无样本类别对应的初始分类器参数输入预设图网络模型,得到每一有样本类别对应的中间分类器参数以及每一无样本类别对应的中间分类器参数;
[0038]第二确定子模块,用于根据每一有样本类别对应的第一最终分类器参数和每一有样本类别对应的中间分类器参数,确定损失值;
[0039]第三确定子模块,用于若所述损失值小于预设损失阈值,则确定当前每一无样本类别对应的中间分类器参数为最终分类器参数。
[0040]一种可选的实施例中,所述第三确定子模块,还用于若所述损失值大于等于所述预设损失阈值,则调整每一无样本类别对应的初始分类器参数以及每一有样本类别对应的初始分类器参数,返回执行所述将预设的数据类别间的关联关系、每一有样本类别对应的初始分类器参数以及每一无样本类别对应的初始分类器参数输入预设图网络模型的步骤。
[0041]一种可选的实施例中,所述第三确定子模块,还用于若所述损失值小于预设损失阈值,则确定当前每一有样本类别对应的中间分类器参数为第二最终分类器参数;
[0042]所述分类模块,还用于利用具有所确定的有样本类别对应的第二最终分类器参数的预设分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分类方法,其特征在于,所述方法包括:获取多个样本数据,所述样本数据的数据类别为有样本类别;利用所述多个样本数据对预设网络进行训练,得到预设分类模型;提取所述预设分类模型中每一有样本类别对应的第一最终分类器参数;根据预设的数据类别间的关联关系,以及每一有样本类别对应的第一最终分类器参数,确定每一无样本类别对应的最终分类器参数,所述数据类别包括有样本类别和无样本类别;利用具有所确定的无样本类别对应的最终分类器参数的预设分类模型,对每一无样本类别的待分类数据进行分类。2.根据权利要求1所述的方法,其特征在于,所述根据预设的数据类别间的关联关系,以及每一有样本类别对应的第一最终分类器参数,确定每一无样本类别对应的最终分类器参数,包括:确定每一无样本类别对应的初始分类器参数以及每一有样本类别对应的初始分类器参数;将预设的数据类别间的关联关系、每一有样本类别对应的初始分类器参数以及每一无样本类别对应的初始分类器参数输入预设图网络模型,得到每一有样本类别对应的中间分类器参数以及每一无样本类别对应的中间分类器参数;根据每一有样本类别对应的第一最终分类器参数和每一有样本类别对应的中间分类器参数,确定损失值;若所述损失值小于预设损失阈值,则确定当前每一无样本类别对应的中间分类器参数为最终分类器参数。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:若所述损失值大于等于所述预设损失阈值,则调整每一无样本类别对应的初始分类器参数以及每一有样本类别对应的初始分类器参数,返回执行所述将预设的数据类别间的关联关系、每一有样本类别对应的初始分类器参数以及每一无样本类别对应的初始分类器参数输入预设图网络模型的步骤。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:若所述损失值小于预设损失阈值,则确定当前每一有样本类别对应的中间分类器参数为第二最终分类器参数;利用具有所确定的有样本类别对应的第二最终分类器参数的预设分类模型,对每一无样本类别的待分类数据进行分类。5.根据权利要求1-4任一项所述的方法,其特征在于,在确定每一无样本类别对应的最终分类器参数之前,还包括:确定每两种数据类别之间的相似度;建立相似度大于预设相似度阈值的两种数据类别间的关联关系。6.根据权利要求1-4任一项所述的方法,其特征在于,所述样本数据和所述待分类数据为图像、文档、表格或语音数据。7.根据权利要求6所述的方法,其特征在于,当所述样本数据和所述待分类数据为图像时,在所述利用具有所确定的无样本类别对应的最终分类器参数的预设分类模型,对每一
无样本类别的待分类数据进行分类之前,还包括:对所述待分类数据进行目标检测,确定所述待分类数据中包括所述检测目标的图像区域;利用具有所确定的无样本类别对应的最终分类器参数的预设分类模...

【专利技术属性】
技术研发人员:张鹏
申请(专利权)人:上海高德威智能交通系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1