【技术实现步骤摘要】
一种基于潜在语义检索模型的大数据专利检索方法
本专利技术涉及一种大数据专利检索方法,属于专利检索
,具体涉及一种基于潜在语义检索模型的大数据专利检索方法。
技术介绍
20世纪80年代以来,随着世界经济的发展和新技术革命的到来,专利文献作为一种既可以体现科技创新力,又可以保护科研成果不受侵犯的科技法律文献,其重要性越来越受到重视。据世界知识产权组织(WorldIntellectualPropertyOrganization)报道,专利文献包含全世界每年90%~95%的最新科研成果,其中有70%左右的专利技术技术从未在其他非专利文献上发表。专利文献指导技术创新,将可以节约40%的研究经费和60%的研究时间,专利已经成为了企业科技创新和投资者商业战略决策的重要科技参考文献。中国专利数据截止到2013年底达到了600万条,超过了美国和日本,跃居世界第一。面对如此大量的专利信息,用户获取有价值信息的代价也越来越高,正是这种需求导致了专利数据各种研究工作的开展以及各种商业专利服务平台的出现。相对传统文本而言,专利文献有其特殊性,主要表现在5个方面:(1)复杂性。专利文献 ...
【技术保护点】
一种基于潜在语义检索模型的大数据专利检索方法,其特征在于,所述方法包括如下步骤:步骤S1:从专利数据库中生成一个M*N的索引词‑文档矩阵W,其中M代表索引词个数,N代表所有文档数目;步骤S2:利用奇异值分解理论对矩阵W进行奇异值分解;步骤S3:配置k值并对奇异值分解后的矩阵进行低阶近似;步骤S4:将专利数据库中的所有文档转化为文档向量dj,计算出文档向量在潜在语义中的坐标Xd;步骤S5:将用户提交的专利索引词转化为文档向量q,并计算出q在潜在语义中的坐标Xq;步骤S6:计算坐标Xq与专利数据库中所有文档的坐标的相似度;步骤S7:对步骤S6中计算出的相似度进行排序,输出前N个 ...
【技术特征摘要】
1.一种基于潜在语义检索模型的大数据专利检索方法,其特征在于,所述方法包括如下步骤:步骤S1:从专利数据库中生成一个M*N的索引词-文档矩阵W,其中M代表索引词个数,N代表所有文档数目;步骤S2:利用奇异值分解理论对矩阵W进行奇异值分解;步骤S3:配置k值并对奇异值分解后的矩阵进行低阶近似;步骤S4:将专利数据库中的所有文档转化为文档向量dj,计算出文档向量在潜在语义中的坐标Xd;步骤S5:将用户提交的专利索引词转化为文档向量q,并计算出q在潜在语义中的坐标Xq;步骤S6:计算坐标Xq与专利数据库中所有文档的坐标的相似度;步骤S7:对步骤S6中计算出的相似度进行排序,输出前N个结果提供给用户;步骤S8:用户根据呈现的结果,选择所需专利,或者添加或重新输入专利检索词进行二次检索过滤。2.根据权利要求1所述的一种基于潜在语义检索模型的大数据专利检索方法,其特征在于,所述步骤S1中矩阵W表示如下:W=(wij)其中,wij代表索引词ki在文档中的权值,wij由两种权值决定,分别是局部权值和全局权值,所述“局部权值”是指第i个索引词此在文档dj中多的权值fij,其中frij为索引词Ki在文档中dj中出现的次数;maxfrj表示文档dj中所有索引词出现次数的最大值,所述“全局权值”是指第i个索引词在整个系统中的权值idfi,其中idfi=log(N/ni),其中N为专利数据库文档总数;ni为专利数据库中含有索引词Ki的文档数,且定义wij=fij*idfi。3.根据权利求1所述的一种基于潜在语义检索模...
【专利技术属性】
技术研发人员:盛时永,
申请(专利权)人:合肥集知网知识产权运营有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。