当前位置: 首页 > 专利查询>北京大学专利>正文

基于文本相似性分析的专利推荐方法、装置、设备及存储介质制造方法及图纸

技术编号:26504975 阅读:59 留言:0更新日期:2020-11-27 15:32
本发明专利技术提供了一种基于文本相似性分析的专利推荐方法、装置、设备及存储介质,专利推荐方法包括:获取目标文本的目标关键词,目标关键词包括主体关键词及描述性关键词;以主体关键词和所有的描述性关键词作为检索词获得基础相似文本集;以主体关键词和各描述性关键词作为检索词获得扩展相似文本集;遍历扩展相似文本集,针对每个扩展相似文本,基于该扩展相似文本的文本特征词和该扩展相似文本对应的检索词计算该扩展相似文本与基础相似文本集中的基础相似文本之间的相似度,当该扩展相似文本与基础相似文本集中的任一基础相似文本之间的相似度高于预定阈值时,将该扩展相似文本移入至基础相似文本集。本发明专利技术能够提升相似文本的查全率,降低漏检率。

【技术实现步骤摘要】
基于文本相似性分析的专利推荐方法、装置、设备及存储介质
本专利技术设置文本处理领域,具体而言,本申请涉及一种基于文本相似性分析的专利推荐方法、装置、设备及存储介质。
技术介绍
技术文本(例如专利文本、论文文本及企业技术文档)作为自然语言的载体,通常以一种非结构或半结构化的形式存在。随着计算机互联网技术的飞速发展,文本相似性分析在许多领域存在广泛应用,如在专利信息检索中,文本相似性分析即是一项基础而又重要的工作。随着世界经济和技术的竞争越来越激烈,专利因其作为科技创新成果的重要表现形式和载体,已经成为推动现代社会进步和经济技术发展的重要杠杆。企业获得创新性技术的路径不外乎包括自主研发和技术引进两种,无论是自主研发或者是技术引进,都必须首先获取到有关该创新性技术的相关专利成果。如当选择自主研发路径时,需要进行专利规避设计以绕开相关专利的保护范围,防止侵权。当选择技术引进路径时,则需要对相关专利进行技术分析,以选择出最合适、最先进的专利技术进行针对性的引进。如何从海量的专利数据库中获取到与创新性技术相关的、足够多的专利文件是一本文档来自技高网...

【技术保护点】
1.一种基于文本相似性分析的专利推荐方法,其特征在于,其包括:/n获取目标文本的目标关键词,所述目标关键词包括主体关键词及与主体关键词关联的若干描述性关键词;/n以所述主体关键词和所述若干描述性关键词作为检索词,从预设数据库中检索到包含有若干基础相似文本的基础相似文本集;/n以所述主体关键词和各所述描述性关键词作为检索词,依次从所述预设数据库中获取到若干扩展相似文本子集,并将获取到的所述若干扩展相似文本集合并以形成包含有若干扩展相似文本的扩展相似文本集;/n获取所述扩展相似文本集中的各所述扩展相似文本的文本特征词;/n遍历所述扩展相似文本集中的每个所述扩展相似文本,针对每个所述扩展相似文本,基...

【技术特征摘要】
1.一种基于文本相似性分析的专利推荐方法,其特征在于,其包括:
获取目标文本的目标关键词,所述目标关键词包括主体关键词及与主体关键词关联的若干描述性关键词;
以所述主体关键词和所述若干描述性关键词作为检索词,从预设数据库中检索到包含有若干基础相似文本的基础相似文本集;
以所述主体关键词和各所述描述性关键词作为检索词,依次从所述预设数据库中获取到若干扩展相似文本子集,并将获取到的所述若干扩展相似文本集合并以形成包含有若干扩展相似文本的扩展相似文本集;
获取所述扩展相似文本集中的各所述扩展相似文本的文本特征词;
遍历所述扩展相似文本集中的每个所述扩展相似文本,针对每个所述扩展相似文本,基于该所述扩展相似文本的文本特征词和该所述扩展相似文本对应的检索词,计算该所述扩展相似文本与所述基础相似文本集中的各所述基础相似文本之间的相似度,当该所述扩展相似文本与所述基础相似文本集中的任一所述基础相似文本之间的相似度高于预定阈值时,将该所述扩展相似文本自所述扩展相似文本集移入至所述基础相似文本集内。


2.如权利要求1所述的专利推荐方法,其特征在于,所述获取所述扩展相似文本集中的各所述扩展相似文本的文本特征词包括:
基于文本特征提取算法获得所述扩展相似文本的文本特征词;
滤除所述文本特征词中的停用词。


3.如权利要求1所述的专利推荐方法,其特征在于,所述基于该所述扩展相似文本的文本特征词和该所述扩展相似文本对应的检索词,计算该所述扩展相似文本与所述基础相似文本集中的各所述基础相似文本之间的相似度,包括:
基于该所述扩展相似文本的文本特征词及该所述扩展相似文本对应的检索词构建无向带权图G=(V,E),其中V为节点集,E为边集;
基于TextRank算法计算出所述无向带权图中的各节点的权重;
对各节点的权重进行排序,选取预定数量的权重最大的节点所对应的词作为所述扩展相似文本的相似度评价词;
基于所述相似度评价词,计算所述扩展相似文本与所述基础相似文本集中的各所述基础相似文本之间的相似度;
当所述扩展相似文本与所述基础相似文本集中的任一所述基础相似文本之间的相似度高于预定阈值时,将该所述扩展相似文本自所述扩展相似文本集移入至所述基础相似文本集内。


4.如权利要求3所述的专利推荐方法,其特征在于,基于该所述扩展相似文本的文本特征词及该所述扩展相似文本对应的检索词构建无向带权图G=(V,E)包括:
将该所述扩展相似文本的文本特征词移入至所述节点集,并采用共现关系构造任意两点之间的边;
将该所述扩展相似文本对应的检索词移入至所述节点集,在所述扩展相似文本的文本特征词与每个所述检索词之间均构造边。


5.如权利要求3所述的专利推荐方法,其特征在于,基于所述相似度评价词,计算所述扩展相似文本与所述基础相似文本集中的各所述基础相似文本之间的相似度包括:
基于...

【专利技术属性】
技术研发人员:孙圣力陈智雄李青山司华友
申请(专利权)人:北京大学南京博雅区块链研究院有限公司北京国信云服科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1