一种基于知识图谱的专利IPC分类号推荐方法及装置制造方法及图纸

技术编号:33120526 阅读:19 留言:0更新日期:2022-04-17 00:18
一种基于知识图谱的专利IPC分类号推荐方法及装置,涉及数据分析领域,目的是为了解决现有的确定专利所属技术领域的方法依赖人工分析,耗时长,效率低,无法满足企业和用户的需求的问题。所述方法包括:构建专利知识图谱,利用TransE模型对图谱中的实体进行向量化表示,得到发明专利技术名称的向量化表示;利用发明专利技术名称的向量化表示计算查询专利与数据库中各专利之间的相似度,将与查询专利相似度最高的M件专利作为推荐的类似专利;将类似专利中出现次数最高的N个IPC分类号作为推荐的IPC分类号。所述装置包括专利知识图谱构建模块、实体向量化模块、相似度计算模块和IPC分类号推荐模块。块、相似度计算模块和IPC分类号推荐模块。块、相似度计算模块和IPC分类号推荐模块。

【技术实现步骤摘要】
一种基于知识图谱的专利IPC分类号推荐方法及装置


[0001]本申请涉及数据分析领域,具体涉及专利所属
预测技术。

技术介绍

[0002]面对数量如此庞大的专利数据,如何从这些数据中有效地获取不同领域的 信息、如何准确掌握当下不同行业所属领域的科学技术发展情况、以及如何掌 握本行业较为先进的技术成为企业迫切的需求。随着世界科技竞争日益激烈, 针对专利的各种分析逐步成为热门领域。
[0003]在专利申请过程中,需要根据专利的基本信息对专利所属
进行划 分,这是一项复杂繁琐的工作,如何有效地实现专利
的推荐成为企业 或者用户值得研究的一项工作。
[0004]通常,确定专利所属
主要是通过人工分析专利文本中的信息,与 现有
进行对比,进一步在专业技术人员指导下确定技术范围。但是随 着专利数据快速增长,人工分析花费的时间越来越长、成本越来越高,有时候 难以满足企业和用户的需要。因此,如何高效、准确地确定专利所属
成为人们研究的方向。

技术实现思路

[0005]本申请的目的是为了解决现有的确定专利所属
的方法依赖人工 分析,耗时长,效率低,无法满足企业和用户的需求的问题,提供一种基于知 识图谱的专利IPC分类号推荐方法及装置。
[0006]本申请的一种基于知识图谱的专利IPC分类号推荐方法包括:
[0007]构建专利知识图谱,所述专利知识图谱包含查询专利和与所述查询专利 具有相同
的若干件专利的实体以及各实体之间的关系,所述实体包 括申请人、专利技术人、IPC分类号、专利技术名称以及关键词;
[0008]利用TransE模型对所述专利知识图谱中的实体进行向量化表示,得到所 述专利知识图谱中每件专利的专利技术名称的向量化表示;
[0009]利用专利技术名称的向量化表示计算所述查询专利与数据库中各专利之间的 相似度,将与所述查询专利相似度最高的M件专利作为推荐的类似专利;
[0010]统计推荐的所有类似专利的IPC分类号出现的次数,将出现次数最高的 N个IPC分类号作为推荐的IPC分类号。
[0011]可选地,所述构建专利知识图谱包括:
[0012]从专利检索数据库中检索出与所述查询专利具有相同
的若干件 专利,将所述若干件专利与所述查询专利合并为专利领域数据库;
[0013]提取所述专利领域数据库中每件专利的申请人、专利技术人、IPC分类号、 专利技术名称以及关键词作为实体;
[0014]将每件专利的实体及各实体之间的关系保存至Neo4j图数据库中,形成 专利知识
图谱。
[0015]可选地,所述相似度表示为:利用专利技术名称的向量化表示计算得到的所 述查询专利与所述专利知识图谱中各专利之间的欧式距离。
[0016]可选地,M≥10。
[0017]可选地,N的值为3。
[0018]本申请的一种基于知识图谱的专利IPC分类号推荐装置包括:
[0019]专利知识图谱构建模块,其配置成构建专利知识图谱,所述专利知识图 谱包含查询专利和与所述查询专利具有相同
的若干件专利的实体以 及各实体之间的关系,所述实体包括申请人、专利技术人、IPC分类号、专利技术名 称以及关键词;
[0020]实体向量化模块,其配置成利用TransE模型对所述专利知识图谱中的实 体进行向量化表示,得到所述专利知识图谱中每件专利的专利技术名称的向量化 表示;
[0021]相似度计算模块,其配置成利用专利技术名称的向量化表示计算所述查询专 利与数据库中各专利之间的相似度,将与所述查询专利相似度最高的M件专 利作为推荐的类似专利;和
[0022]IPC分类号推荐模块,其配置成统计推荐的所有类似专利的IPC分类号 出现的次数,将出现次数最高的N个IPC分类号作为推荐的IPC分类号。
[0023]可选地,所述专利知识图谱构建模块包括:
[0024]专利领域数据库构建子模块,其配置成从专利检索数据库中检索出与所 述查询专利具有相同
的若干件专利,将所述若干件专利与所述查询 专利合并为专利领域数据库;
[0025]实体提取子模块,其配置成提取所述专利领域数据库中每件专利的申请 人、专利技术人、IPC分类号、专利技术名称以及关键词作为实体;和
[0026]专利知识图谱构建子模块,其配置成将每件专利的实体及各实体之间的关 系保存至Neo4j图数据库中,形成专利知识图谱。
[0027]可选地,所述相似度表示为:利用专利技术名称的向量化表示计算得到的所述 查询专利与所述专利知识图谱中各专利之间的欧式距离。
[0028]可选地,M≥10。
[0029]可选地,N的值为3。
[0030]本申请的一种基于知识图谱的专利IPC分类号推荐方法及装置,通过构建 专利知识图谱将一件专利的申请人、专利技术人、IPC分类号、专利技术名称以及关键 词这五个实体之间联系起来,然后用TransE模型对实体进行向量化表示,得到 专利技术名称的向量化表示,专利技术名称的向量化表示包含了各实体之间的关系,因 此,用专利技术名称的向量化表示计算两件专利之间的欧式距离作为相似度能够更 加准确地反映出两件专利的相似度,据此推荐出与查询专利相似度最高的若干 件专利,并从中选取出现次数最多的IPC分类号作为推荐的IPC分类号,上述 方法及装置的准确率远高于常规的基于内容的专利推荐算法的准确率。
附图说明
[0031]图1是本申请实施方式一所述的一种基于知识图谱的专利IPC分类号推荐 方法的示意性流程图;
[0032]图2是本申请实施方式一所述的一种基于知识图谱的专利IPC分类号推荐 方法所采用的专利知识图谱;
[0033]图3是本申请实施方式一中的负采样流程图;
[0034]图4是本申请实施方式一中两种方法预测准确率对比示意图;
[0035]图5是本申请实施方式二所述的一种基于知识图谱的专利IPC分类号推荐 装置的结构示意图。
具体实施方式
[0036]具体实施方式一:本实施例中,专利所属的
由IPC分类号表示。 如图1所示,本实施方式所述的一种基于知识图谱的专利IPC分类号推荐方法一 般性地可以包括如下步骤S1至步骤S4。
[0037]步骤S1、构建专利知识图谱
[0038]对于一件查询专利,首先需要确定该专利所属的
,这里的技术领 域是指能够直接确定的
,通常来说所涵盖的范围较大,例如物理、化 学、生物等,也可以是这些
细分后的领域,例如物理
范围内 的光学、力学、电磁学等。确定了查询专利所属的
后,在专利检索数 据库中检索出属于该
的专利,并从检索结果中选取若干件,本实施例 对选取的专利数量不作限制,可以是几百件、也可以是几千件,所选取的专利 类型也不作限制,可以是专利技术专利、也可以是技术专利、也可以两种类型 都包括。
[0039]将所述查询专利与选取的若干件专利合并为专利领域数据库,提取该本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的专利IPC分类号推荐方法,其特征在于,包括:构建专利知识图谱,所述专利知识图谱包含查询专利和与所述查询专利具有相同技术领域的若干件专利的实体以及各实体之间的关系,所述实体包括申请人、发明人、IPC分类号、发明名称以及关键词;利用TransE模型对所述专利知识图谱中的实体进行向量化表示,得到所述专利知识图谱中每件专利的发明名称的向量化表示;利用发明名称的向量化表示计算所述查询专利与数据库中各专利之间的相似度,将与所述查询专利相似度最高的M件专利作为推荐的类似专利;统计推荐的所有类似专利的IPC分类号出现的次数,将出现次数最高的N个IPC分类号作为推荐的IPC分类号。2.根据权利要求1所述的方法,其特征在于,所述构建专利知识图谱包括:从专利检索数据库中检索出与所述查询专利具有相同技术领域的若干件专利,将所述若干件专利与所述查询专利合并为专利领域数据库;提取所述专利领域数据库中每件专利的申请人、发明人、IPC分类号、发明名称以及关键词作为实体;将每件专利的实体及各实体之间的关系保存至Neo4j图数据库中,形成专利知识图谱。3.根据权利要求1或2所述的方法,其特征在于,所述相似度表示为:利用发明名称的向量化表示计算得到的所述查询专利与所述专利知识图谱中各专利之间的欧式距离。4.根据权利要求1所述的方法,其特征在于,M≥10。5.根据权利要求1所述的方法,其特征在于,N的值为3。6.一种基于知识图谱的专利IPC分类号推荐装置,其特征在于,包括:专利知识图谱构建模块,其配置成构建专利知识图谱,所述...

【专利技术属性】
技术研发人员:石振锋王嘉瑜孙赟星
申请(专利权)人:黑龙江阳光惠远信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1