基于专利数据的专家挖掘方法、系统、存储介质及电子终端技术方案

技术编号:21091569 阅读:26 留言:0更新日期:2019-05-11 10:41
本发明专利技术提供基于专利数据的专家挖掘方法、系统、存储介质及电子终端,其具体包括:构建目标领域的专利池;建立用于对所述专利池中的各项专利按照目标领域的子领域进行分类的专利领域分类模型;对基于所述专利领域分类模型所获的各子领域中的各项专利进行价值评价,并根据评价结果信息挖掘该子领域中与被评价专利相关联的专家。本发明专利技术基于人工智能技术对专利数据进行分析和挖掘,从而能够高效获得特定领域全球科技专家信息,大量减少人工标注成本,大幅降低目标专利漏检的可能性,且解决专利IPC分类不够贴合行业的问题。

Expert Mining Method, System, Storage Media and Electronic Terminal Based on Patent Data

【技术实现步骤摘要】
基于专利数据的专家挖掘方法、系统、存储介质及电子终端
本专利技术涉及数据挖掘领域,特别是涉及基于专利数据的专家挖掘方法、系统、存储介质及电子终端。
技术介绍
人才作为国家发展的核心竞争力,一直以来都是世界各国竞相争夺的焦点。人才挖掘作为数据挖掘在业务方向上的一个分支,也具有属于统计学、机器学习、数据库、人工智能等技术学科交叉的特点,特别是对于科技专家类人才的挖掘,更是需要人工智能技术予以辅助。用于挖掘科技专家的数据来源非常广泛,例如科技文献数据、专利数据或者获奖信息等等。其中,专利数据因其能够体现出科技专家的创新能力与知识财产保护意识而被广受青睐。但是,现有技术就如何利用专利数据挖掘科技人才这方面做的还不够智能,导致无法有效、准确且快速地完成科技专家的挖掘任务。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供基于专利数据的专家挖掘方法、系统、存储介质及电子终端,用于解决现有技术中专利IPC分类不够贴合行业,无法有效挖掘专家的问题。为实现上述目的及其他相关目的,本专利技术提供一种基于专利数据的专家挖掘方法,其包括:S1:构建目标领域的专利池;S2:建立用于对所述专利池中的各项专利按照目标领域的子领域进行分类的专利领域分类模型;S3:对基于所述专利领域分类模型所获的各子领域中的各项专利进行价值评价,并根据评价结果信息挖掘该子领域中与被评价专利相关联的专家。于本专利技术的一实施例中,步骤S1包括:S11:扩展适用于所述目标领域的目标领域检索词以形成检索词集合;S12:利用所述检索词集合中的检索词进行专利检索,以构建目标领域的专利池。于本专利技术的一实施例中,在执行步骤S12之前,先执行:滤除所述检索词集合中的噪声数据,以获得滤除噪音数据后的检索词集合。于本专利技术的一实施例中,步骤S11包括:基于词嵌入算法将基于所述目标领域检索词检索得到的专利文本转换为词向量;计算各词向量与所述目标领域检索词之间的相似度,并将其中符合相似度要求的词向量所对应的词汇放入所述检索词集合中。于本专利技术的一实施例中,步骤S11包括:利用外部语义资源获取所述目标领域检索词的关联词;所述关联词包括上位词和/或下位词。于本专利技术的一实施例中,步骤S13包括:利用滤除噪音数据后的检索词集合中的检索词进行专利摘要检索;按照专利号将检索结果中隶属于同一专利的多个专利版本中与所构建的专利池关联度不符合要求的专利版本排除。于本专利技术的一实施例中,步骤S2包括:S21:通过专利IPC分类号对专利池中的各专利做初步分类;S22:从初步分类结果中抽取多个种子专利;S23:按照预设分支方向对所述种子专利进行标注,并利用词嵌入算法将种子专利的专利摘要转换为相应的专利向量;S24:利用标注结果和专利向量并基于监督学习算法建立专利领域分类模型。于本专利技术的一实施例中,步骤S3包括:对各子领域中的各项专利进行价值评价以获得每一项专利相应的价值分值;S32:计算该子领域中隶属于同一专家的多项专利的价值分值平均值,该计算结果值用作挖掘该子领域中专家的衡量标准;S33:基于匹配算法将名称表述方式不同的专利申请人进行标准化处理。于本专利技术的一实施例中,步骤S31包括:基于PatentRank算法对中文专利进行价值评价;其中,所述价值评价包括法律价值评价、技术价值评价或经济价值评价中的任一种或多种组合。于本专利技术的一实施例中,步骤S31包括:利用引证与被引证得分以及多国申请数量得分,计算英文专利的价值分值;所述英文专利的价值分值被表示为:S(p)=k·PR(p)+(1-k)·F(p);其中,PR(p)标识引证与被引证获得的得分k表示调整权重的参数;F(p)表示多国申请数量得分,其被表示为基于参数f(c)来进行分段的且与参数b(c)相关的分段函数;其中,参数f(c)表示多国专利局专利申请国数,参数b(c)表示多国专利局是否申请别国专利。为实现上述目的及其他相关目的,本专利技术提供一种基于专利数据的专家挖掘系统,包括:专利池构建模块,用于构建目标领域的专利池;模型建立模块,用于建立用于对所述专利池中的各项专利按照目标领域的子领域进行分类的专利领域分类模型;评价及挖掘模块,用于对基于所述专利领域分类模型所获的各子领域中的各项专利进行价值评价,并根据评价结果信息挖掘该子领域中与被评价专利相关联的专家。为实现上述目的及其他相关目的,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述专家挖掘方法。为实现上述目的及其他相关目的,本专利技术提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述专家挖掘方法。如上所述,本专利技术的基于专利数据的专家挖掘方法、系统、存储介质及电子终端,具有以下有益效果:本专利技术基于人工智能技术对专利数据进行分析和挖掘,从而能够高效获得特定领域全球科技专家信息,大量减少人工标注成本,大幅降低目标专利漏检的可能性,且解决专利IPC分类不够贴合行业的问题。此外,本专利技术融合人工智能技术和专利大数据进行专家挖掘,利用本专利技术提供的技术方案不仅能够压缩挖掘专家的成本,还能够快速定位全球顶尖人才专家,准确获取专家信息资源,建立大规模专家库平台,为人才引进和储备提供强有力的技术后盾。附图说明图1a显示为本专利技术一实施例中基于专利数据的专家挖掘方法的流程示意图。图1b显示为本专利技术一实施例中构建目标领域专利池的流程示意图。图2显示为本专利技术一实施例中建立专利领域分类模型的流程示意图。图3显示为本专利技术一实施例中评价并挖掘专家的流程示意图。图4显示为本专利技术一实施例中基于专利数据的专家挖掘系统的示意图。图5显示为本专利技术一实施例中电子终端的结构示意图。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。需要说明的是,在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本申请。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、““下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。再者,如同在本文中所使用的,单数形式“一”、““一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或本文档来自技高网...

【技术保护点】
1.一种基于专利数据的专家挖掘方法,其特征在于,包括:S1:构建目标领域的专利池;S2:建立用于对所述专利池中的各项专利按照目标领域的子领域进行分类的专利领域分类模型;S3:对基于所述专利领域分类模型所获的各子领域中的各项专利进行价值评价,并根据评价结果信息挖掘该子领域中与被评价专利相关联的专家。

【技术特征摘要】
1.一种基于专利数据的专家挖掘方法,其特征在于,包括:S1:构建目标领域的专利池;S2:建立用于对所述专利池中的各项专利按照目标领域的子领域进行分类的专利领域分类模型;S3:对基于所述专利领域分类模型所获的各子领域中的各项专利进行价值评价,并根据评价结果信息挖掘该子领域中与被评价专利相关联的专家。2.根据权利要求1所述的基于专利数据的专家挖掘方法,其特征在于,步骤S1包括:S11:扩展适用于所述目标领域的目标领域检索词以形成检索词集合;S12:利用所述检索词集合中的检索词进行专利检索,以构建目标领域的专利池。3.根据权利要求2所述的基于专利数据的专家挖掘方法,其特征在于,在执行步骤S12之前,先执行:滤除所述检索词集合中的噪声数据,以获得滤除噪音数据后的检索词集合。4.根据权利要求2所述的基于专利数据的专家挖掘方法,其特征在于,步骤S11包括:基于词嵌入算法将基于所述目标领域检索词检索得到的专利文本转换为词向量;计算各词向量与所述目标领域检索词之间的相似度,并将其中符合相似度要求的词向量所对应的词汇放入所述检索词集合中。5.根据权利要求2所述的基于专利数据的专家挖掘方法,其特征在于,步骤S11包括:利用外部语义资源获取所述目标领域检索词的关联词;所述关联词包括上位词和/或下位词。6.根据权利要求3所述的基于专利数据的专家挖掘方法,其特征在于,包括:利用滤除噪音数据后的检索词集合中的检索词进行专利摘要检索;按照专利号将检索结果中隶属于同一专利的多个专利版本中与所构建的专利池关联度不符合要求的专利版本排除。7.根据权利要求1所述的基于专利数据的专家挖掘方法,其特征在于,步骤S2包括:S21:通过专利IPC分类号对专利池中的各专利做初步分类;S22:从初步分类结果中抽取多个种子专利;S23:按照预设分支方向对所述种子专利进行标注,并利用词嵌入算法将种子专利的专利摘要转换为相应的专利向量;S24:利用标注结果和专利向量并基于监督学习算法建立专利领域分类模型。8.根据权利要求1所...

【专利技术属性】
技术研发人员:刘晋元朱悦黄鹏徐旻昕王茜胡寅骏
申请(专利权)人:上海市研发公共服务平台管理中心
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1