The invention discloses a data retrieval method patent retrieval model based on probability, the patent database of all patent documents to quantify, and the user's information retrieval to quantify and determine the related questions to the user retrieval set and the non relevant set, and construct a similarity function; Bayesian formula similarity the function of probability model transformation; then the initial configuration of all index terms in the collection in the relevant search probability; for the user search query traversal patent database document, and calculate the similarity; by optimizing the initial value to improve the retrieval results; the user according to the presented results, select the desired patent, or add or re-enter the patent search the two word search filter. This method can avoid the unfriendly and two valued matching correlation of retrieval structure in traditional patent retrieval method, and improve the matching degree and correlation degree of patent retrieval results by similarity computation function.
【技术实现步骤摘要】
一种基于概率检索模型的大数据专利检索方法
本专利技术涉及一种大数据专利检索方法,属于专利检索
,具体涉及一种基于概率检索模型的大数据专利检索方法。
技术介绍
20世纪80年代以来,随着世界经济的发展和新技术革命的到来,专利文献作为一种既可以体现科技创新力,又可以保护科研成果不受侵犯的科技法律文献,其重要性越来越受到重视。据世界知识产权组织(WorldIntellectualPropertyOrganization)报道,专利文献包含全世界每年90%~95%的最新科研成果,其中有70%左右的专利技术技术从未在其他非专利文献上发表。专利文献指导技术创新,将可以节约40%的研究经费和60%的研究时间,专利已经成为了企业科技创新和投资者商业战略决策的重要科技参考文献。中国专利数据截止到2013年底达到了600万条,超过了美国和日本,跃居世界第一。面对如此大量的专利信息,用户获取有价值信息的代价也越来越高,正是这种需求导致了专利数据各种研究工作的开展以及各种商业专利服务平台的出现。相对传统文本而言,专利文献有其特殊性,主要表现在5个方面:(1)复杂性。专利文献记载着技术解决方案,确定了专利权保护范围,包含很多专业性和细节性的说明,特别是专利中描述技术细节和组成结构的句子表达非常复杂,涉及多种并列结构、依存结构和嵌套结构,在做句法语义分析时也比普通文本遇到更多的挑战。(2)规范化。专利文献相对网页有更规整的结构化信息,一是它具有统一的分类,二是专利权利说明书遵循一定的写作规范,有效地利用这些规范化信息将有助于对专利的分析。(3)抽象性。专利作为一种技术上受保护的 ...
【技术保护点】
一种基于概率检索模型的大数据专利检索方法,其特征在于,所述方法包括如下步骤:步骤S1:将专利数据库中的所有专利文档dj向量化;步骤S2:将用户的检索信息q向量化;步骤S3:对于用户检索提问q确定其相关集合R和非相关集合Rc,这里Rc是R在专利数据库中的补集,并构建相似度函数;步骤S4:利用贝叶斯公式将相似度函数进行概率模型转换;步骤S5:配置初始所有索引词Ki在相关集合R中的检索概率;步骤S6:对于用户的检索提问q遍历专利数据库中的文档,并计算相似度;步骤S7:通过优化初始计算值来改进检索结果;步骤S8:用户根据呈现的结果,选择所需专利,或者添加或重新输入专利检索词进行二次检索过滤。
【技术特征摘要】
1.一种基于概率检索模型的大数据专利检索方法,其特征在于,所述方法包括如下步骤:步骤S1:将专利数据库中的所有专利文档dj向量化;步骤S2:将用户的检索信息q向量化;步骤S3:对于用户检索提问q确定其相关集合R和非相关集合Rc,这里Rc是R在专利数据库中的补集,并构建相似度函数;步骤S4:利用贝叶斯公式将相似度函数进行概率模型转换;步骤S5:配置初始所有索引词Ki在相关集合R中的检索概率;步骤S6:对于用户的检索提问q遍历专利数据库中的文档,并计算相似度;步骤S7:通过优化初始计算值来改进检索结果;步骤S8:用户根据呈现的结果,选择所需专利,或者添加或重新输入专利检索词进行二次检索过滤。2.根据权利要求1所述的一种基于概率检索模型的大数据专利检索方法,其特征在于,所述步骤S1中专利文档dj向量化方法如下:dj=(w1j,w2j,……,wtj)其中,向量分量wij∈{0,1}代表第i个索引词Ki在文档dj中所具有的权重,t为系统中索引词的总数。3.根据权利要求1所述的一种基于概率检索模型的大数据专利检索方法,其特征在于,所述步骤S2中检索信息q向量化方法如下:q=(w1q,w2q,……,wtq)其中t为系统中检索词总数,向量分量wiq∈{0,1}表示第i个索引词Ki在提问q中的权值。4.根据权利要求1所述的一种基于概率检索模型的大数据专利检索方法,其特征在于,所述步骤S3中定义P(R|dj)表示专利文档dj与检索提问q之间的相关概率,P(RC|dj)表示专利文档dj与检索提问q的...
【专利技术属性】
技术研发人员:盛时永,
申请(专利权)人:合肥集知网知识产权运营有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。