一种新类别标签生成方法、装置及设备制造方法及图纸

技术编号:37985904 阅读:18 留言:0更新日期:2023-06-30 10:00
本申请提供一种新类别标签生成方法、装置及设备,该方法包括:基于已有类别标签对应的已有类别数据对应的第一特征向量,确定已有类别标签对应的超球面,已有类别标签对应的所有已有类别数据均位于超球面内;基于已有类别标签对应的已有类别数据对应的第一特征向量,确定已有类别标签对应的第一统计量;基于已获取的可疑新类别数据对应的第二特征向量和已有类别标签对应的第一统计量,确定可疑新类别数据对应的第二统计量;若基于第二统计量确定可疑新类别数据不位于已有类别标签对应的超球面内,则基于可疑新类别数据生成新类别标签。通过本申请的技术方案,自动发现新类别标签,获取新类别标签的效率比较高,节约重新训练分类模型的时间成本。类模型的时间成本。类模型的时间成本。

【技术实现步骤摘要】
一种新类别标签生成方法、装置及设备


[0001]本申请涉及人工智能领域,尤其是一种新类别标签生成方法、装置及设备。

技术介绍

[0002]机器学习是实现人工智能的一种途径,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习用于研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习更加注重算法设计,使计算机能够自动地从数据中学习规律,并利用规律对未知数据进行预测。机器学习已经有了十分广泛的应用,如深度学习、数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、语音识别和手写识别等。
[0003]为了采用机器学习实现人工智能处理,可以构建训练数据集,该训练数据集包括大量有标签数据,基于训练数据集训练出机器学习模型,如具有分类功能的机器学习模型,可以采用机器学习模型对待处理数据进行分类处理。
[0004]随着互联网技术的快速发展,机器学习模型支持的类别标签的种类也越来越多,为了获取新类别标签,通常由用户人工筛查每个样本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种新类别标签生成方法,其特征在于,所述方法包括:基于已有类别标签对应的已有类别数据对应的第一特征向量,确定所述已有类别标签对应的超球面,所述已有类别标签对应的所有已有类别数据均位于所述超球面内;以及,基于所述已有类别标签对应的已有类别数据对应的第一特征向量,确定所述已有类别标签对应的第一统计量;基于已获取的可疑新类别数据对应的第二特征向量和所述已有类别标签对应的第一统计量,确定所述可疑新类别数据对应的第二统计量;若基于所述第二统计量确定所述可疑新类别数据不位于所述已有类别标签对应的超球面内,则基于所述可疑新类别数据生成新类别标签。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述已有类别数据为已有类别文本语句,则将所述已有类别文本语句输入给文本编码器,由所述文本编码器将所述已有类别文本语句编码成高维向量;基于该高维向量确定所述已有类别文本语句对应的第一特征向量;若所述可疑新类别数据为可疑新类别文本语句,则将所述可疑新类别文本语句输入给文本编码器,由所述文本编码器将所述可疑新类别文本语句编码成高维向量;基于该高维向量确定所述可疑新类别文本语句对应的第二特征向量。3.根据权利要求1所述的方法,其特征在于,所述已有类别标签对应的超球面和第一统计量的确定过程,包括:基于所述已有类别标签对应的已有类别数据对应的第一特征向量,确定球心和半径;基于所述球心和所述半径确定所述已有类别标签对应的超球面;基于所述已有类别标签对应的已有类别数据对应的第一特征向量,确定所有第一特征向量对应的均值向量和方差向量;基于所述均值向量和所述方差向量,确定所述已有类别标签对应的第一统计量。4.根据权利要求1所述的方法,其特征在于,所述基于已获取的可疑新类别数据对应的第二特征向量和所述已有类别标签对应的第一统计量,确定所述可疑新类别数据对应的第二统计量,包括:若存在C个已有类别标签,针对每个已有类别标签,则基于所述可疑新类别数据对应的第二特征向量和该已有类别标签对应的第一统计量,确定该已有类别标签对应的距离值;基于每个已有类别标签对应的距离值,从所述C个已有类别标签中选取出距离值小的k个已有类别标签;基于所述可疑新类别数据对应的第二特征向量和所述k个已有类别标签对应的第一统计量,确定所述可疑新类别数据对应的均值向量和方差向量;基于该均值向量和该方差向量确定所述可疑新类别数据对应的第二统计量。5.根据权利要求1所述的方法,其特征在于,所述基于所述第二统计量确定所述可疑新类别数据不位于所述已有类别标签对应的超球面内,包括:基于所述第二统计量确定所述可疑新类别数据对应的位置点;若所述位置点与所述超球面的球心之间的距离大于所述超球面的半径,则确定所述可疑新类别数据不位于所述已有类别标签对应的超球面内。6.根据权利要求1所述的方法,其特征在于,
所述基于所述可疑新类别数据生成新类别标签,包括:若多个可疑新类别数据均不位于所述已有类别标签对应的超球面内,则基于所述多个可疑新类别数据对应的第二特征向量将所述多个可疑新类别数据划分到至少一个扩展组,所述扩展组包括至少一个可疑新类别数据;为所述扩展组内的可疑新类别数据生成同一个新类别标签。7.根据权利要求1

6任一项所述的方法,其特征在于,所述可疑新类别数据的获取方式,包括:将已获取的流式数据输入给分类模型,得到所述流式数据对应的分类结果;若所述分类结果表示所述流式数据未对应已有类别标签,则确定所述流式数据是可疑新类别数据;所述将已获取的流式数据输入给分类模型之前还包括:在得到流式数据之后,若所述流式数据存在目标字典中未出现的新词,则基于所述流式数据生成新类别标签,并将所述新词加入到所述目标字典中;若所述流式数据不存在目标字典中未出现的新词,则执行将所述流式数据输入给分类模型的操作。8.一种新类别标签生成装置,其特征在于,所述装置包括:确定模块,用于基于...

【专利技术属性】
技术研发人员:马鑫典
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1