The invention relates to a method for calculating patent text similarity, which comprises the following steps: extracting patent data from two patent texts, preprocessing patent data, calculating word weight by combining part-of-speech weight and word position weight with TF_IDF algorithm, and expressing two Patent Texts with vector space model to obtain the word weight. Two distributed word vectors; compute text similarity, when the similarity of the patent text is greater than the set threshold, it is considered that the two patents are similar, otherwise not similar. The invention considers the characteristics of patent structure and the semantic relationship between words comprehensively, and fuses the unique structure of patent text such as IPC classification number, abstract, claims and so on into the text similarity calculation method, which is more pertinent than the general text similarity calculation method, guarantees higher accuracy and recall rate, and can be used very well. To meet the needs of practical application.
【技术实现步骤摘要】
一种专利文本相似度计算方法
本专利技术属于计算机文本信息处理
,具体涉及一种专利文本相似度计算方法。
技术介绍
专利文献具有相对固定的组织结构,其组织结构主要包括IPC分类号、标题、摘要、说明书、权利要求书等。其中IPC分类号是国际通用分类号,根据IPC分类号可以判定专利类别,权利要求书是专利技术或者技术专利要求保护的内容,是申请专利的核心。专利文献为保持其新颖性以及避开专利雷区,在用词方面一般使用独特或不常用的词或短语来表达一些常见性的语义,例如用“一种盛水的容器”来表达“水杯”的含义,再例如用“没有固定停放地点的单车”替代“共享单车”的概念在专利文献中使用。因此专利文献相似度计算的准确与否很大程度上取决于词语间语义相似度的计算。根据研究方法的不同,词语间的语义相似度的研究大体上可以分为两大类:基于知识的词语语义分析和基于统计的词语语义分析。基于知识的词语语义分析需要一个庞大而丰富的知识库,库中包含了词语概念、上下位等逻辑关系,通过计算不同词语在知识库中的语义距离来表示词语间的相似程度。基于统计的词语语义分析主要是在概率论,统计论等数学理论的基础上,对大规模语料进行统计,通过判断词语的上下文语境是否相似来判断词语之间的相似程度。文本相似度的计算方法主要包括基于统计、基于语义信息、基于句法结构、基于编辑距离的方法。在现有技术中,向量空间模型(VSM)作为最常用的一种文本表示方式,是由Salton等人于20世纪70年代首次提出,并将此模型成功应用于SMART文本检索系统。向量空间模型是将文本内容的处理转化为空间向量的运算,通过空间向量的距离表示文本内容 ...
【技术保护点】
1.一种专利文本相似度计算方法,其特征在于,包括以下步骤:步骤1)从两个专利文本中提取专利数据,对专利数据进行预处理;步骤2)将词性权重和词位置权重与TF‑IDF算法相结合计算出词权重;步骤3)将两个专利文本以向量空间模型表示出来,得到两个分布式词向量;步骤4)计算文本相似度,当得到的专利文本相似度大于设定的阈值时,则认为两篇专利相似,否则不相似。
【技术特征摘要】
1.一种专利文本相似度计算方法,其特征在于,包括以下步骤:步骤1)从两个专利文本中提取专利数据,对专利数据进行预处理;步骤2)将词性权重和词位置权重与TF-IDF算法相结合计算出词权重;步骤3)将两个专利文本以向量空间模型表示出来,得到两个分布式词向量;步骤4)计算文本相似度,当得到的专利文本相似度大于设定的阈值时,则认为两篇专利相似,否则不相似。2.根据权利要求1所述的专利文本相似度计算方法,其特征在于,在所述步骤1)中,对专利数据进行预处理包括:对专利数据进行分词、词性标注、去除停用词、命名实体识别和新发现词的操作,并去除除了名词、动词或名词性短语以外的词性的词汇。3.根据权利要求1-2所述的专利文本相似度计算方法,其特征在于,在所述步骤2)中,将词位置权重大小设置为W(IPC分类号)>W(权利要求书)>W(摘要)>W(标题)。4.根据权利要求1-3所述的专利文本相似度计算方法,其特征在于,在所述步骤2)中,通过设置不同的词频基数来体现词性权重的不同。5.根据权利...
【专利技术属性】
技术研发人员:吕学强,董志安,
申请(专利权)人:北京信息科技大学,吕学强,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。