专利对比分析方法技术

技术编号:21401019 阅读:34 留言:0更新日期:2019-06-19 07:33
本发明专利技术提供了一种专利对比分析方法。所述专利对比分析方法利用网络技术建立专利数据库、基于分词技术建立专利文档集的候选短语集、基于最优化方法提取重要短语集、计算重要短语与目标专利和对比专利的相似性分数和差异性分数以及基于最优化方法提取目标专利和对比专利的相似短语集和差异短语集,快速、有效地实现了专利对比分析。

【技术实现步骤摘要】
专利对比分析方法
本专利技术涉及一种专利对比分析方法,属于自然语言处理以及专利分析领域。
技术介绍
专利对比分析属于专利分析的一种类型,通过有效的专利文档对比分析方法可以快速识别专利文档之间的相似性和差异性,在一定意义上,企业的专利水平代表了企业的整体创新水平。企业核心人员可以通过对比分析的方法识别其他企业的核心技术,从而制定有效的技术战略。现今已有不少专利检索和分析系统,如IncoPat、SooPat、Patsnap等,但是这些专利系统主要是提供专利检索和简单的专利统计分析,这些基础分析无法满足深层次的专利挖掘需求;此外,每年的专利申请量呈现快速的上升趋势,人工审核专利的工作量不断加大,因此开发一种自动化专利对比分析的系统具有重要的意义。有鉴于此,确有必要提供一种专利对比分析方法,以解决上述问题。
技术实现思路
本专利技术的目的在于提供一种专利对比分析方法,以更深层次的挖掘出专利文档之间的相似性和差异性,从而更为精准、快速的发现目标专利的专利价值所在。为实现上述专利技术目的,本专利技术提供了一种专利对比分析方法,所述专利对比分析方法包括以下步骤:S1、基于网络爬虫方法建立专利数据库;S2、从所述专利数据库中提取目标主题的专利文档集D,并建立专利文档集D的候选短语集,其中所述专利文档集D包括至少一篇目标专利和至少一篇对比专利;S3、基于最优化选择模型,在所述候选短语集中提取目标专利和对比专利的重要短语集,且所述重要短语集包括目标专利重要短语集和对比专利重要短语集;S4、建立重要短语-专利文档二部图的相关性度量,计算重要短语集中重要短语与目标专利的相似性分数和差异性分数及重要短语与对比专利的相似性分数和差异性分数;S5、基于最优化目标方法分别提取目标专利和对比专利的相似短语集和差异短语集。作为本专利技术的进一步改进,所述步骤S1具体为:选择多个目标专利网站,使用分布式爬虫架构构建多个爬虫模块,开启多个爬虫线程同时爬取目标专利网站,并根据爬取到的专利信息的组成,建立数据库表存储爬取到的专利信息,构建专利数据库。作为本专利技术的进一步改进,所述步骤S2具体包括:S21、从所述专利数据库中提取目标主题的专利文档集D;S22、对专利文档集D中的专利文档进行分词处理,以获取专利文档集D的分词集,所述分词集包括若干个分词;S23、建立停用词表,根据停用词表对所述分词集中的分词进行筛选和过滤,以获取所述专利文档集D的有效分词集;S24、计算分词在有效分词集中的互信息值MI,以在所述有效分词集中提取专利文档集D的候选短语集。作为本专利技术的进一步改进,所述步骤S24具体为:定义分词频率阈值为F,分词的互信息阈值为I,通过计算有效分词集中候选分词的联合分布及边际分布,以计算获取候选分词的互信息值MI;若候选分词的频率大于设定的分词频率阈值F,则将该候选分词加入候选短语集中;若候选分词的频率小于设定的分词频率阈值F,则考察该候选分词的互信息值MI的大小,若该候选分词的互信息值MI大于设定的互信息阈值I,则加入候选短语集,否则该候选分词被丢弃。作为本专利技术的进一步改进,所述步骤S3具体为:S31、计算候选短语集中的每一个候选短语在其所在的专利文档中的显著性分数,以表征该候选短语在其所在的专利文档中的显著性;S32、计算候选短语集中的每一个候选短语在其所在的专利文档中的独特性分数,以表征该候选短语在其所在的专利文档中的独特性;S33、基于最优化选择方法,并结合候选短语集中每一个候选短语的显著性分数和独特性分数,提取目标专利和对比专利的重要短语集S,所述重要短语集S包括与目标专利相关的目标专利重要短语集和与对比专利相关的对比专利重要短语集。作为本专利技术的进一步改进,所述步骤S33具体为:定义重要短语集中重要短语的数量阈值为K,以所述候选短语集中候选短语的显著性分数和独特性分数作为提取标准,建立最优化目标,并通过该最优化目标获取目标专利和对比专利的重要短语集,所述重要短语集包括目标专利重要短语集和对比专利重要短语集,所述目标专利重要短语集包括K个与所述目标专利相关的重要短语;所述对比专利重要短语集包括K个与所述对比专利相关的重要短语。作为本专利技术的进一步改进,所述步骤S4具体包括:S41、构建重要短语-专利文档二部图;S42、计算重要短语-专利文档二部图中,重要短语与目标专利之间的相关度及重要短语与对比专利之间的相关度;S43、计算重要短语-专利文档二部图中,重要短语与目标专利和对比专利之间的相似性分数;S44、计算重要短语-专利文档二部图中,重要短语与目标专利和对比专利之间的差异性分数。作为本专利技术的进一步改进,所述步骤S5具体包括:S51、基于最优化目标方法,并结合重要短语集S中重要短语与目标专利和对比专利之间的相似性分数,获取目标专利与对比专利之间的相似短语集C;S52、基于最优化目标方法,并结合重要短语集S中重要短语与目标专利和对比专利之间的差异性分数,获取目标专利差异短语集和对比专利差异短语集。作为本专利技术的进一步改进,所述步骤S51具体为:定义最优化目标和至少两个相似性约束条件,使得相似短语集C中相似短语的相似性分数之和最大化,并通过所述相似性约束条件保证提取到的相似短语的相似性分数分别大于目标专利重要短语集的相似性分数的平均值和对比专利重要短语集的相似性分数的平均值。作为本专利技术的进一步改进,所述步骤S52具体为:定义最优化目标和至少三个差异性约束条件,使得目标专利差异短语集和对比专利差异短语集中差异短语的差异性分数之和最大化,并通过所述差异性约束条件保证提取到的差异短语的差异性分数分别大于目标专利重要短语集的差异性分数的平均值和对比专利重要短语集的差异性分数的平均值,且目标专利和对比专利的相似短语集C、目标专利差异短语集以及对比专利差异短语集之间无交集。本专利技术的有益效果是:本专利技术专利对比分析方法,通过利用网络爬虫技术建立专利数据库、基于分词技术建立专利文档集D的候选短语集、基于最优化方法提取重要短语集S、计算重要短语与目标专利和对比专利的相似性分数和差异性分数以及基于最优化方法提取目标专利和对比专利的相似短语集和差异短语集,快速、有效地实现了专利对比分析。附图说明图1是本专利技术专利对比分析方法的结构功能图。图2是本专利技术专利对比分析方法的流程图。图3是图2中重要短语-专利文档二部图的结构示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。请参阅图1并结合图2所示,本专利技术揭示了一种专利对比分析方法,其包括以下步骤:S1、基于网络爬虫方法建立专利数据库;S2、从所述专利数据库中提取目标主题的专利文档集D,并建立专利文档集D的候选短语集P,其中所述专利文档集D包括至少一篇目标专利dc和至少一篇对比专利d′c;S3、基于最优化选择模型,在所述候选短语集P中提取目标专利dc和对比专利d′c的重要短语集S,且重要短语集S包括目标专利重要短语集和对比专利重要短语集即S4、建立重要短语-专利文档二部图的相关性度量,计算重要短语集S中重要短语与目标专利dc的相似性分数和差异性分数及重要短语与对比专利d′c的相似性分数和差异性分数;S5、基于最优化目标方法分别提取目标专利dc和对比专利d′c的相似短语集和差异短本文档来自技高网...

【技术保护点】
1.一种专利对比分析方法,其特征在于,包括以下步骤:S1、基于网络爬虫方法建立专利数据库;S2、从所述专利数据库中提取目标主题的专利文档集D,并建立专利文档集D的候选短语集,其中所述专利文档集D包括至少一篇目标专利和至少一篇对比专利;S3、基于最优化选择模型,在所述候选短语集中提取目标专利和对比专利的重要短语集,且所述重要短语集包括目标专利重要短语集和对比专利重要短语集;S4、建立重要短语‑专利文档二部图的相关性度量,计算重要短语集中重要短语与目标专利的相似性分数和差异性分数及重要短语与对比专利的相似性分数和差异性分数;S5、基于最优化目标方法分别提取目标专利和对比专利的相似短语集和差异短语集。

【技术特征摘要】
1.一种专利对比分析方法,其特征在于,包括以下步骤:S1、基于网络爬虫方法建立专利数据库;S2、从所述专利数据库中提取目标主题的专利文档集D,并建立专利文档集D的候选短语集,其中所述专利文档集D包括至少一篇目标专利和至少一篇对比专利;S3、基于最优化选择模型,在所述候选短语集中提取目标专利和对比专利的重要短语集,且所述重要短语集包括目标专利重要短语集和对比专利重要短语集;S4、建立重要短语-专利文档二部图的相关性度量,计算重要短语集中重要短语与目标专利的相似性分数和差异性分数及重要短语与对比专利的相似性分数和差异性分数;S5、基于最优化目标方法分别提取目标专利和对比专利的相似短语集和差异短语集。2.根据权利要求1所述的专利对比分析方法,其特征在于,所述步骤S1具体为:选择多个目标专利网站,使用分布式爬虫架构构建多个爬虫模块,开启多个爬虫线程同时爬取目标专利网站,并根据爬取到的专利信息的组成,建立数据库表存储爬取到的专利信息,构建专利数据库。3.根据权利要求1所述的专利对比分析方法,其特征在于,所述步骤S2具体包括:S21、从所述专利数据库中提取目标主题的专利文档集D;S22、对专利文档集D中的专利文档进行分词处理,以获取专利文档集D的分词集,所述分词集包括若干个分词;S23、建立停用词表,根据停用词表对所述分词集中的分词进行筛选和过滤,以获取所述专利文档集D的有效分词集;S24、计算分词在有效分词集中的互信息值MI,以在所述有效分词集中提取专利文档集D的候选短语集。4.根据权利要求3所述的专利对比分析方法,其特征在于,所述步骤S24具体为:定义分词频率阈值为F,分词的互信息阈值为I,通过计算有效分词集中候选分词的联合分布及边际分布,以计算获取候选分词的互信息值MI;若候选分词的频率大于设定的分词频率阈值F,则将该候选分词加入候选短语集中;若候选分词的频率小于设定的分词频率阈值F,则考察该候选分词的互信息值MI的大小,若该候选分词的互信息值MI大于设定的互信息阈值I,则加入候选短语集,否则该候选分词被丢弃。5.根据权利要求1所述的专利对比分析方法,其特征在于,所述步骤S3具体为:S31、计算候选短语集中的每一个候选短语在其所在的专利文档中的显著性分数,以表征该候选短语在其所在的专利文档中的显著性;S32、计算候选短语集中的每一个候选短语在其所在的专利文档中的独特性分数,以表征该候选短语在其所在的专利文档中的独特性;S33、基于最优化选择方法,并结合候...

【专利技术属性】
技术研发人员:汪云霄覃婷婷刘峥
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1