一种基于概率检索模型的大数据专利检索方法技术

技术编号:17162263 阅读:22 留言:0更新日期:2018-02-01 20:30
本发明专利技术公开了一种基于概率检索模型的大数据专利检索方法,该方法首先将专利数据库中的所有专利文档向量化,同时将用户的检索信息向量化,并对用户检索提问确定其相关集合和非相关集合,并构建相似度函数;利用贝叶斯公式将相似度函数进行概率模型转换;然后配置初始所有索引词在相关集合中的检索概率;对于用户的检索提问遍历专利数据库中的文档,并计算相似度;通过优化初始计算值来改进检索结果;用户根据呈现的结果,选择所需专利,或者添加或重新输入专利检索词进行二次检索过滤。该方法能够避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性,并通过相似度计算函数提高了专利检索结果的匹配度和关联度。

A large data patent retrieval method based on probability retrieval model

The invention discloses a data retrieval method patent retrieval model based on probability, the patent database of all patent documents to quantify, and the user's information retrieval to quantify and determine the related questions to the user retrieval set and the non relevant set, and construct a similarity function; Bayesian formula similarity the function of probability model transformation; then the initial configuration of all index terms in the collection in the relevant search probability; for the user search query traversal patent database document, and calculate the similarity; by optimizing the initial value to improve the retrieval results; the user according to the presented results, select the desired patent, or add or re-enter the patent search the two word search filter. This method can avoid the unfriendly and two valued matching correlation of retrieval structure in traditional patent retrieval method, and improve the matching degree and correlation degree of patent retrieval results by similarity computation function.

【技术实现步骤摘要】
一种基于概率检索模型的大数据专利检索方法
本专利技术涉及一种大数据专利检索方法,属于专利检索
,具体涉及一种基于概率检索模型的大数据专利检索方法。
技术介绍
20世纪80年代以来,随着世界经济的发展和新技术革命的到来,专利文献作为一种既可以体现科技创新力,又可以保护科研成果不受侵犯的科技法律文献,其重要性越来越受到重视。据世界知识产权组织(WorldIntellectualPropertyOrganization)报道,专利文献包含全世界每年90%~95%的最新科研成果,其中有70%左右的专利技术技术从未在其他非专利文献上发表。专利文献指导技术创新,将可以节约40%的研究经费和60%的研究时间,专利已经成为了企业科技创新和投资者商业战略决策的重要科技参考文献。中国专利数据截止到2013年底达到了600万条,超过了美国和日本,跃居世界第一。面对如此大量的专利信息,用户获取有价值信息的代价也越来越高,正是这种需求导致了专利数据各种研究工作的开展以及各种商业专利服务平台的出现。相对传统文本而言,专利文献有其特殊性,主要表现在5个方面:(1)复杂性。专利文献记载着技术解决方案,确定了专利权保护范围,包含很多专业性和细节性的说明,特别是专利中描述技术细节和组成结构的句子表达非常复杂,涉及多种并列结构、依存结构和嵌套结构,在做句法语义分析时也比普通文本遇到更多的挑战。(2)规范化。专利文献相对网页有更规整的结构化信息,一是它具有统一的分类,二是专利权利说明书遵循一定的写作规范,有效地利用这些规范化信息将有助于对专利的分析。(3)抽象性。专利作为一种技术上受保护的文献,专利专利技术人为了垄断技术,会使用更加抽象的上位词表达保护的覆盖范围,这些词包含各种技术术语甚至是自定义词汇,从而增加了词法处理的难度。(4)唯一性。专利是一种独一无二的信息资源,相对于网页,专利间的文本重叠度往往很小,因此在计算专利相似度时,基于词语重叠的方法并不适用。(5)多主题多语言。一篇专利文献经常包括多个主题,而且不同国家采用不同的语言描述专利,所以专利检索更加注重跨语言多主题的检索。对比文件1(一种专利检索的系统和方法,CN201410787225.6)公开了一种专利检索的系统和方法,专利检索的系统包括用户信息管理模块、检索类型选择模块、检索输入模块、检索配对模块和检索输出模块,专利检索的方法包括:S1,从简单检索、高级检索和表达式检索中选择适合本次检索的检索方式,并且进入该检索的窗口;S2,在选择进入的检索方式的窗口中输入检索词,点击检索窗口进入显示窗口;S3,在检索窗口选择专利呈现的形式,并弹出呈现窗口,或者选择二次检索过滤后再次呈现;S4,选择对专利进行保存或则结束进程。该专利技术中的专利检索主要从功能性模块出发,并没有进行实质性的提出高效率的检索方法。针对以上缺点,有必要设计出一种新的专利检索方法,避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性,提高专利检索结果的匹配度和关联度。
技术实现思路
(一)要解决的技术问题为了解决现有技术存在的上述问题,本专利技术提供了一种基于概率检索模型的大数据专利检索方法,该方法能够避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性,提高专利检索结果的匹配度和关联度。(二)技术方案本专利技术提出了一种基于概率检索模型的大数据专利检索方法,该方法包括如下步骤:步骤S1:将专利数据库中的所有专利文档dj向量化;步骤S2:将用户的检索信息q向量化;步骤S3:对于用户检索提问q确定其相关集合R和非相关集合Rc,这里Rc是R在专利数据库中的补集,并构建相似度函数;步骤S4:利用贝叶斯公式将相似度函数进行概率模型转换;步骤S5:配置初始所有索引词Ki在相关集合R中的检索概率;步骤S6:对于用户的检索提问q遍历专利数据库中的文档,并计算相似度;步骤S7:通过优化初始计算值来改进检索结果;步骤S8:用户根据呈现的结果,选择所需专利,或者添加或重新输入专利检索词进行二次检索过滤。优选的,所述步骤S1中,专利文档dj向量化方法如下:dj=(w1j,w2j,……,wtj)其中,向量分量wij∈{0,1}代表第i个索引词Ki在文档dj中所具有的权重,t为系统中索引词的总数。优选的,所述步骤S2中,检索信息q向量化方法如下:q=(w1q,w2q,……,wtq),其中t为系统中检索词总数,向量分量wiq∈{0,1}表示第i个索引词Ki在提问q中的权值。优选的,所述步骤S3中,定义P(R|dj)表示专利文档dj与检索提问q之间的相关概率,P(RC|dj)表示专利文档dj与检索提问q的不相关概率。进一步定义文档dj与提问q的相似度函数如下:SIM(dj,q)=P(R|dj)/P(RC|dj)优选的,所述步骤S4中概率模型转换计算公式如下:SIM(dj,q)=(P(dj|R)*P(R))/(P(dj|RC)*P(RC))其中,P(dj|R)表示从相关专利文档集合R中随机选择文档dj的概率;P(dj|RC)表示从非相关专利文档集合R中随机选择文档dj的概率;P(R)和P(RC)分别表示在整个专利数据库中随机选择一篇文档是相关和不相关的概率。进一步通过化简转换,从上述相似度公式推导出如下公式:SIM(dj,q)∽Σlog[(P(Ki|R)*(1-P(Ki|RC)))/(P(Ki|RC)*(1-P(Ki|R)))]其中,Ki是第i个索引词,P(Ki|R)表示在R中随机选择一篇专利文档,其中含有索引词Ki的概率;P(Ki|RC)分别表示在RC中随机选择一篇专利文档,其中含有索引词Ki的概率。优选的,所述步骤S5中设定如下概率计算公式:P(Ki|R)≡0.5;P(Ki|RC)=ni/N其中ni、N分别表示含有索引词Ki的专利文档数和专利数据库中拥有的专利文档总数。优选的,所述步骤S6中按照相似度的大小得到前r个文档,同时组成集合D,其中D中含有索引词Ki的文档集合为Di,其中的文档数为ri个。优选的,所述步骤S7中,对S6步骤得出的结果进行改进。具体做法是通过改进P(Ki|R)和P(Ki|RC)的初始计算值来改进检索结果。改进方案如下:P(Ki|R)=ri/rP(Ki|RC)=(ni-ri)/(N-r)以上述最新的初始值重复步骤S6,多次重复检索和改进过程后,输出最终结果提供给用户。(三)有益效果从上述技术方案可以看出,本专利技术提出的基于概率检索模型的大数据专利检索方法具有以下有益效果:1、该方法能够避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性。2、该方法通过相似度计算函数提高了专利检索结果的匹配度和关联度。附图说明图1显示了本专利技术优选实施例的基于概率检索模型的大数据专利检索方法流程图。具体实施方式下面结合附图,对本专利技术做的实施例作详细说明:本实施例在以本专利技术技术方案前提下进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。图1显示了本专利技术优选实施例的基于概率检索模型的大数据专利检索方法流程图。如图1所示,本专利技术优选实施例的基于概率检索模型的大数据专利检索方法包括如下步骤:步骤S1:将专利数据库中的所有专利文档dj向量化;专利文档dj向量化方法如下:dj=(w1j,w2j,……,wtj本文档来自技高网
...
一种基于概率检索模型的大数据专利检索方法

【技术保护点】
一种基于概率检索模型的大数据专利检索方法,其特征在于,所述方法包括如下步骤:步骤S1:将专利数据库中的所有专利文档dj向量化;步骤S2:将用户的检索信息q向量化;步骤S3:对于用户检索提问q确定其相关集合R和非相关集合Rc,这里Rc是R在专利数据库中的补集,并构建相似度函数;步骤S4:利用贝叶斯公式将相似度函数进行概率模型转换;步骤S5:配置初始所有索引词Ki在相关集合R中的检索概率;步骤S6:对于用户的检索提问q遍历专利数据库中的文档,并计算相似度;步骤S7:通过优化初始计算值来改进检索结果;步骤S8:用户根据呈现的结果,选择所需专利,或者添加或重新输入专利检索词进行二次检索过滤。

【技术特征摘要】
1.一种基于概率检索模型的大数据专利检索方法,其特征在于,所述方法包括如下步骤:步骤S1:将专利数据库中的所有专利文档dj向量化;步骤S2:将用户的检索信息q向量化;步骤S3:对于用户检索提问q确定其相关集合R和非相关集合Rc,这里Rc是R在专利数据库中的补集,并构建相似度函数;步骤S4:利用贝叶斯公式将相似度函数进行概率模型转换;步骤S5:配置初始所有索引词Ki在相关集合R中的检索概率;步骤S6:对于用户的检索提问q遍历专利数据库中的文档,并计算相似度;步骤S7:通过优化初始计算值来改进检索结果;步骤S8:用户根据呈现的结果,选择所需专利,或者添加或重新输入专利检索词进行二次检索过滤。2.根据权利要求1所述的一种基于概率检索模型的大数据专利检索方法,其特征在于,所述步骤S1中专利文档dj向量化方法如下:dj=(w1j,w2j,……,wtj)其中,向量分量wij∈{0,1}代表第i个索引词Ki在文档dj中所具有的权重,t为系统中索引词的总数。3.根据权利要求1所述的一种基于概率检索模型的大数据专利检索方法,其特征在于,所述步骤S2中检索信息q向量化方法如下:q=(w1q,w2q,……,wtq)其中t为系统中检索词总数,向量分量wiq∈{0,1}表示第i个索引词Ki在提问q中的权值。4.根据权利要求1所述的一种基于概率检索模型的大数据专利检索方法,其特征在于,所述步骤S3中定义P(R|dj)表示专利文档dj与检索提问q之间的相关概率,P(RC|dj)表示专利文档dj与检索提问q的...

【专利技术属性】
技术研发人员:盛时永
申请(专利权)人:合肥集知网知识产权运营有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1