专利数据的CPC分类方法及装置制造方法及图纸

技术编号:33711410 阅读:16 留言:0更新日期:2022-06-06 08:45
本发明专利技术公开了一种专利数据的CPC分类方法及装置,其中该方法包括:获取待分类的专利数据;将待分类的专利数据拆分为多个部分;根据预设特征提取策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量;将每一部分的待分类的专利数据对应的特征向量输入预先建立的神经网络CPC分类模型的多个分类子模型中,得到专利数据的多个CPC分类子结果;根据多个CPC分类子结果预测得到最终的CPC分类结果;神经网络CPC分类模型根据多个历史专利样本数据预先训练生成,分类模型包括多个分类子模型。本发明专利技术可以实现高效准确地对专利数据进行CPC分类,提高了专利数据的CPC分类准确率和效率。提高了专利数据的CPC分类准确率和效率。提高了专利数据的CPC分类准确率和效率。

【技术实现步骤摘要】
专利数据的CPC分类方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种专利数据的CPC分类方法及装置。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]目前我国的CPC分类工作仍采用人工分类的方式进行,或通常采用欧洲专利局提供的IPC

CPC映射表进行粗略的自动分类转换,利用这类方法进行CPC分类的准确率很低,约为55%,并会导致大量的杂质引入,分类效率也低。

技术实现思路

[0004]本专利技术实施例提供一种专利数据的CPC分类方法,用以高效准确地对专利数据进行CPC分类,该方法包括:
[0005]获取待分类的专利数据;
[0006]将待分类的专利数据拆分为多个部分,得到多个部分的待分类的专利数据;
[0007]根据预设特征提取策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量;
[0008]将每一部分的待分类的专利数据对应的特征向量输入预先建立的神经网络CPC分类模型的多个分类子模型中,得到专利数据的多个CPC分类子结果;根据多个CPC分类子结果预测得到最终的CPC分类结果;所述神经网络CPC分类模型根据多个历史专利样本数据预先训练生成,所述神经网络CPC分类模型包括多个分类子模型。
[0009]本专利技术实施例还提供一种专利数据的CPC分类装置,用以高效准确地对专利数据进行CPC分类,该装置包括:
[0010]获取单元,用于获取待分类的专利数据;
[0011]拆分单元,用于将待分类的专利数据拆分为多个部分,得到多个部分的待分类的专利数据;
[0012]特征向量化单元,用于根据预设特征提取策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量;
[0013]预测单元,用于将每一部分的待分类的专利数据对应的特征向量输入预先建立的神经网络CPC分类模型的多个分类子模型中,得到专利数据的多个CPC分类子结果;根据多个CPC分类子结果预测得到最终的CPC分类结果;所述神经网络CPC分类模型根据多个历史专利样本数据预先训练生成,所述神经网络CPC分类模型包括多个分类子模型。
[0014]本专利技术实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述专利数据的CPC分类方法。
[0015]本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有
计算机程序,所述计算机程序被处理器执行时实现上述专利数据的CPC分类方法。
[0016]本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述专利数据的CPC分类方法。
[0017]本专利技术实施例中,专利数据的CPC分类方案,与现有技术中通过目前的IPC

CPC映射表进行粗略的自动分类转换进行CPC分类,效率和准确率都低的技术方案相比,通过:获取待分类的专利数据;将待分类的专利数据拆分为多个部分,得到多个部分的待分类的专利数据;根据预设特征提取策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量;将每一部分的待分类的专利数据对应的特征向量输入预先建立的神经网络CPC分类模型的多个分类子模型中,得到专利数据的多个CPC分类子结果;根据多个CPC分类子结果预测得到最终的CPC分类结果;所述神经网络CPC分类模型根据多个历史专利样本数据预先训练生成,所述神经网络CPC分类模型包括多个分类子模型,实现了使用神经网络技术高效准确地对专利数据进行CPC分类,提高了专利数据的CPC分类准确率和效率。
附图说明
[0018]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0019]图1为本专利技术实施例中专利数据的CPC分类方法的流程示意图;
[0020]图2为本专利技术实施例中预先训练得到神经网络CPC分类模型的流程示意图;
[0021]图3为本专利技术实施例中预先训练得到神经网络CPC分类模型的原理示意图;
[0022]图4为本专利技术实施例中专利数据的CPC分类的原理示意图;
[0023]图5为本专利技术实施例中专利数据的CPC分类装置的结构示意图。
具体实施方式
[0024]为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。
[0025]考虑到现有对专利数据进行CPC分类方案存在的技术问题,本专利技术实施例提出了一种专利数据的CPC分类方案,该方案在中国专利全过档数据的体量基础上,实现中国专利的CPC自动分类,且准确率和召回率高于采用欧洲专利局提供的IPC

CPC映射表进行自动分类的效果。下面对该专利数据的CPC分类方案进行详细介绍。
[0026]图1为本专利技术实施例中专利数据的CPC分类方法的流程示意图,如图1所示,该方法包括如下步骤:
[0027]步骤101:获取待分类的专利数据;
[0028]步骤102:将待分类的专利数据拆分为多个部分,得到多个部分的待分类的专利数据;
[0029]步骤103:根据预设特征提取策略,对每一部分的待分类的专利数据进行特征提
取,得到每一部分的待分类的专利数据对应的特征向量;
[0030]步骤104:将每一部分的待分类的专利数据对应的特征向量输入预先建立的神经网络CPC分类模型的多个分类子模型中,得到专利数据的多个CPC分类子结果;根据多个CPC分类子结果预测得到最终的CPC分类结果;所述神经网络CPC分类模型根据多个历史专利样本数据预先训练生成,所述神经网络CPC分类模型包括多个分类子模型。
[0031]本专利技术实施例提供的专利数据的CPC分类方法,工作时:获取待分类的专利数据;将待分类的专利数据拆分为多个部分,得到多个部分的待分类的专利数据;根据预设特征提取策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量;将每一部分的待分类的专利数据对应的特征向量输入预先建立的神经网络CPC分类模型的多个分类子模型中,得到专利数据的多个CPC分类子结果;根据多个CPC分类子结果预测得到最终的CPC分类结果;所述神经网络CPC分类模型根据多个历史专利样本数据预先训练生成,所述神经网络CPC分类模型包括多个分类子模型。
[0032]与现有技术中通过目前的IPC本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种专利数据的CPC分类方法,其特征在于,包括:获取待分类的专利数据;将待分类的专利数据拆分为多个部分,得到多个部分的待分类的专利数据;根据预设特征提取策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量;将每一部分的待分类的专利数据对应的特征向量输入预先建立的神经网络CPC分类模型的多个分类子模型中,得到专利数据的多个CPC分类子结果;根据多个CPC分类子结果预测得到最终的CPC分类结果;所述神经网络CPC分类模型根据多个历史专利样本数据预先训练生成,所述神经网络CPC分类模型包括多个分类子模型。2.如权利要求1所述的专利数据的CPC分类方法,其特征在于,还包括按照如下方法预先训练得到所述神经网络CPC分类模型:获取多个历史专利样本数据;所述历史专利样本数据包含CPC分类数据;将历史专利样本数据进行分组;对各组专利数据进行分词及关键词抽取,生成每一组专利数据对应的CPC词典、IPC词典、全文分词词典和关键词词典;根据每一组专利数据对应的CPC词典、IPC词典、全文分词词典和关键词词典,对所有历史专利样本数据进行特征向量化处理,得到所有历史专利样本数据对应的特征向量化数据;利用所有历史专利样本数据对应的特征向量化数据,训练神经网络模型得到所述神经网络CPC分类模型。3.如权利要求2所述的专利数据的CPC分类方法,其特征在于,将历史专利样本数据进行分组,包括:按照IPC小类将历史专利样本数据进行分组。4.如权利要求2所述的专利数据的CPC分类方法,其特征在于,还包括:获取多个历史专利样本数据;根据多个历史专利样本数据形成测试数据;利用所述测试数据对所述神经网络CPC分类模型进行优化处理,得到优化后的神经网络CPC分类模型。5.如权利要求1所述的专利数据的CPC分类方法,其特征在于,根据预设特征提取策略,对每一部分的...

【专利技术属性】
技术研发人员:朱欣昱刘琦程序
申请(专利权)人:北京中知智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1