一种基于知识本体的专利文献相似性度量方法技术

技术编号:16367878 阅读:287 留言:0更新日期:2017-10-13 09:47
本发明专利技术涉及一种基于知识本体的专利文献相似性度量方法,涉及面向专利文本的自然语言信息处理技术领域;该方法依据专利文献结构特点、位置特征和关键词特征提取核心技术方案;构建专利分类号主题词词间关系模型;根据分类号主题词词间关系模型构建领域词典并以之对核心技术方案分词和去停用词;主题词词间关系结合以TF‑IDF作为TextRank词初始权重提取关键词和权重;训练FastText模型,生成词向量;根据关键词、词权重和词向量,计算EMD距离,得出语义距离。对比现有技术,本发明专利技术解决了传统专利文献相似性度量方法未充分考虑专利文本结构特点,领域特点,词间关系特点及语义近似表述不一致导致的相似度低的问题。

A similarity measurement method of patent documents based on Ontology

The invention relates to a patent document based on ontology similarity measure method, which relates to the technical field of natural language oriented patent text information processing; the method based on the literature structure, patent position features and keywordsfeatureextraction core technology; construction of patent classification thematic words word relation model; according to the classification of the theme between words the relationship model of domain dictionary and to the core technical scheme of word segmentation and stop words; the relationship between words with the theme of TF IDF as the initial weights of TextRank word keyword extraction and weight training; FastText model, generating word vector; according to the key words, words and word weight vector, EMD distance calculation, the semantic distance. Compared with the prior art, the invention solves the traditional patent document similarity measure method does not fully consider the patent text structure features, characteristics, the relationship between words and semantic similarity features of approximate description inconsistency caused by the problem of low.

【技术实现步骤摘要】

本专利技术公开了一种基于知识本体的专利文献相似性度量方法及使用该方法的专利文献主题词语义检索系统,涉及面向专利文本的自然语言信息处理

技术介绍
现今的社会是一个信息型社会,海量的数据在社会的各个领域产生,如何能从海量数据中挖掘出有价值的信息一直是学术界研究的热点。专利作为一种特殊的信息战略资源,是国家战略资源的发展一个重要的组成部分。专利信息记载着人类社会专利技术创造的成就,其将技术性、法律性和经济性集合于一体,是当代社会中最重要的技术知识宝库。专利具有新颖性,创造性和实用性的特点,随着世界经济和技术的竞争越来越激烈,专利因其作为国家科技创新成果的重要表现形式和载体,具有非常高的知识含量,成为推动现代社会进步和经济技术发展的重要杠杆。专利检索是专利行业中最常用的工具,包括专利申请人、审查员以及从事专利运营活动的相关企业都会用到,能否将最相关的专利从数千万的文献中检索出来是衡量一个专利检索工具的重要因素。目前比较常见的专利文献检索方式主要有:传统的基于布尔逻辑的检索技术,需要制定合适的检索策略,编写复杂的检索式,检索效率较低,如soopat专利搜索引擎;比较流行的基于概念的本文档来自技高网...
一种基于知识本体的专利文献相似性度量方法

【技术保护点】
一种基于知识本体的专利文献相似性度量方法,其特征在于,包括以下步骤:步骤一,根据专利文献结构特点、位置特征和关键词特征从专利全文文本中提取核心技术方案信息;步骤二,构建专利文献分类号主题词词间关系模型;步骤三,根据分类号主题词关系模型生成领域词典,使用领域词典对核心技术方案信息的文本分词,使用停用词库对分词结果去停用词,得到语料文本;步骤四,使用关键词提取工具,提取语料文本中的关键词和词权重;步骤五,基于步骤四得到的关键词,提取经过训练的词向量模型中对应的词向量;步骤六,基于上述得到的关键词,词权重和词向量信息,得出该专利文献的量化表示其中pi为第i个关键词,为pi的词权重,为pi的词向量;1...

【技术特征摘要】
1.一种基于知识本体的专利文献相似性度量方法,其特征在于,包括以下步骤:步骤一,根据专利文献结构特点、位置特征和关键词特征从专利全文文本中提取核心技术方案信息;步骤二,构建专利文献分类号主题词词间关系模型;步骤三,根据分类号主题词关系模型生成领域词典,使用领域词典对核心技术方案信息的文本分词,使用停用词库对分词结果去停用词,得到语料文本;步骤四,使用关键词提取工具,提取语料文本中的关键词和词权重;步骤五,基于步骤四得到的关键词,提取经过训练的词向量模型中对应的词向量;步骤六,基于上述得到的关键词,词权重和词向量信息,得出该专利文献的量化表示其中pi为第i个关键词,为pi的词权重,为pi的词向量;1≤i≤n,n为关键词的总数;步骤七,使用EMD工具,计算不同专利文献的量化表示之间的距离,EMD距离越小,语义越近似。2.根据权利要求1所述的一种基于知识本体的专利文献相似性度量方法,其特征在于,所述步骤一中的核心技术方案信息包括标题,分类号,发明解决的技术问题,达到的有益效果,技术方案应用的领域,权利要求中的发明内容。3.根据权利要求1所述的一种基于知识本体的专利文献相似性度量方法,其特征在于,所述专利全文文本为XML格式,符合国家知识产权局公布的CN-TXTS-10-A数据编码规范,包括著录项目、摘要、权利要求书、说明书、说明书附图和索引信息。4.根据权利要求1所述的一种基于...

【专利技术属性】
技术研发人员:李建宏张华平
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1