训练样本标注方法及装置、分类模型训练方法及装置制造方法及图纸

技术编号:32973207 阅读:29 留言:0更新日期:2022-04-09 11:44
本申请提供一种训练样本标注方法,用于训练对待分类专利进行统筹类别分类的分类模型,该方法包括:基于待标记专利,确定待标记专利对应的专利特征向量和通用检索类别信息集;基于统筹分类数据,确定统筹分类数据中包括的多个统筹类别各自对应的统筹类别特征向量;确定多个统筹类别与通用检索类别之间的对照关系;基于专利特征向量、通用检索类别信息集、多个统筹类别各自对应的统筹类别特征向量和对照关系,确定待标记专利对应的统筹类别标记信息。采用本申请实施例提供的训练样本标注方法,无需专业人士手动标注,能够快速生成海量用于训练分类模型的高质量训练样本,不仅避免了对专业性的强依靠,而且节省了大量的人力、物力和时间成本。物力和时间成本。物力和时间成本。

【技术实现步骤摘要】
训练样本标注方法及装置、分类模型训练方法及装置


[0001]本申请涉及专利分类
,具体涉及一种训练样本标注方法及装置、分类模型训练方法及装置、电子设备和计算机可读存储介质。

技术介绍

[0002]对专利进行战略性新兴产业、国民经济行业以及高新技术等统筹类别分类,对监测各类规划的发展情况至关重要,通常采用预先训练的分类模型对专利进行统筹类别分类。然而,训练分类模型需要大量的已经标注统筹类别的训练样本,现有技术中利用大量的专业人士手工进行标注,不仅对专业依赖性强,而且耗费大量的人力、物力和时间成本。

技术实现思路

[0003]有鉴于此,本申请实施例提供了一种训练样本标注方法、分类模型训练方法、训练样本标注装置、分类模型训练装置、电子设备及计算机可读存储介质,以解决现有技术中对专利进行统筹类别分类时效率低的技术问题。
[0004]根据本申请实施例的第一方面,提供一种训练样本标注方法,训练样本用于训练对待分类专利进行统筹类别分类的分类模型,方法包括:基于待标记专利,确定待标记专利对应的专利特征向量和通用检索类别信息集;基于本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种训练样本标注方法,其特征在于,所述训练样本用于训练对待分类专利进行统筹类别分类的分类模型,所述方法包括:基于待标记专利,确定所述待标记专利对应的专利特征向量和通用检索类别信息集;基于统筹分类数据,确定所述统筹分类数据中包括的多个统筹类别各自对应的统筹类别特征向量;确定所述多个统筹类别与通用检索类别之间的对照关系;基于所述专利特征向量、所述通用检索类别信息集、所述多个统筹类别各自对应的统筹类别特征向量和所述对照关系,确定所述待标记专利对应的统筹类别标记信息。2.根据权利要求1所述的训练样本标注方法,其特征在于,所述基于所述专利特征向量、所述通用检索类别信息集、所述多个统筹类别各自对应的统筹类别特征向量和所述对照关系,确定所述待标记专利对应的统筹类别标记信息,包括:基于所述专利特征向量和所述多个统筹类别各自对应的统筹类别特征向量,确定所述待标记专利对应的待复核统筹类别信息;基于所述通用检索类别信息集和所述对照关系,确定所述待标记专利对应的统筹类别信息候选集;若所述统筹类别信息候选集与所述待复核统筹类别信息有交集,则将所述统筹类别信息候选集与所述待复核统筹类别信息之间的交集信息,确定为所述统筹类别标记信息。3.根据权利要求2所述的训练样本标注方法,其特征在于,所述基于所述专利特征向量和所述多个统筹类别各自对应的统筹类别特征向量,确定所述待标记专利对应的待复核统筹类别信息,包括:计算所述专利特征向量与所述多个统筹类别中的每个统筹类别对应的统筹类别特征向量的余弦距离,以确定所述待标记专利对应的多个余弦距离值;若所述待标记专利对应的多个余弦距离值中的最大的余弦距离值大于第一阈值,则将所述最大的余弦距离值对应的统筹类别确定为所述待标记专利对应的待复核统筹类别信息。4.根据权利要求1至3中任一项所述的训练样本标注方法,其特征在于,所述基于待标记专利,确定所述待标记专利对应的专利特征向量,包括:分别对所述待标记专利中的标题、摘要、权利要求、说明书、技术领域、背景技术、发明内容和具体实施方式进行独热编码操作,确定所述待标记专利对应的标题独热向量、摘要独热向量、权利要求独热向量、说明书独热向量、技术领域独热向量、背景技术独热向量、发明内容独热向量和具体实施方式独热向量;基于所述标题独热向量、所述摘要独热向量、所述权利要求独热向量、所述说明书独热向量、所述技术领域独热向量、所述背景技术独热向量、所述发明内容独热向量和所述具体实施方式独热向量各自对应的预设权重值,对所述标题独热向量、所述摘要独热向量、所述说明书独热向量、所述技术领域独热向量、所述背景技术独热向量、所述发明内容独热向量和所述具体实施方式独热向量进行加权运算,确定所述专利特征向量。5.根据权利要求1至3中任一项所述的训练样本标注方法,其特征在于,所述基于统筹分类数据,确定所述统筹分类数据中包括的多个统筹类别各自对应的统筹类别特征向量,包括:
基于所述统筹分类数据,确定所述多个统筹类别各自对应的区域数据;针对所述多个统筹类别中的每个统筹类别,基于预设信息对所述统筹类别对应的区域数据进行独热编码操作,将获得的独热向量确定为所述统筹类别对应的统筹类别特征向量。6.根据权利要求1至3中任一项所述的训练样本标注方法,其特征在于,所述统筹分类数据为战略性新兴产业分类数据、或国民经济行业分类数据、或高新技术分类数据、或应用领域分类数据;所述多个统筹类别为多个战略性新兴产业类别、或多个国民经济行业类别、或多个高新技...

【专利技术属性】
技术研发人员:李发科王为磊屠昶旸张济徽孙敏朱慧彬
申请(专利权)人:智慧芽信息科技苏州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1