一种专利文本相似度计算方法技术

技术编号:18940512 阅读:27 留言:0更新日期:2018-09-15 11:04
本发明专利技术涉及一种专利文本相似度计算方法,包括以下步骤:从两个专利文本中提取专利数据,对专利数据进行预处理;将词性权重和词位置权重与TF‑IDF算法相结合计算出词权重;将两个专利文本以向量空间模型表示出来,得到两个分布式词向量;计算文本相似度,当得到的专利文本相似度大于设定的阈值时,则认为两篇专利相似,否则不相似。本发明专利技术综合考虑了专利结构特点和词汇间语义关系,将IPC分类号、摘要、权利要求书等专利文本特有的结构融合到文本相似度计算方法当中,比一般文本相似度计算方法更加具有针对性,能保证较高的准确率和召回率,可以很好地满足实际应用的需要。

A patent text similarity computing method

The invention relates to a method for calculating patent text similarity, which comprises the following steps: extracting patent data from two patent texts, preprocessing patent data, calculating word weight by combining part-of-speech weight and word position weight with TF_IDF algorithm, and expressing two Patent Texts with vector space model to obtain the word weight. Two distributed word vectors; compute text similarity, when the similarity of the patent text is greater than the set threshold, it is considered that the two patents are similar, otherwise not similar. The invention considers the characteristics of patent structure and the semantic relationship between words comprehensively, and fuses the unique structure of patent text such as IPC classification number, abstract, claims and so on into the text similarity calculation method, which is more pertinent than the general text similarity calculation method, guarantees higher accuracy and recall rate, and can be used very well. To meet the needs of practical application.

【技术实现步骤摘要】
一种专利文本相似度计算方法
本专利技术属于计算机文本信息处理
,具体涉及一种专利文本相似度计算方法。
技术介绍
专利文献具有相对固定的组织结构,其组织结构主要包括IPC分类号、标题、摘要、说明书、权利要求书等。其中IPC分类号是国际通用分类号,根据IPC分类号可以判定专利类别,权利要求书是专利技术或者技术专利要求保护的内容,是申请专利的核心。专利文献为保持其新颖性以及避开专利雷区,在用词方面一般使用独特或不常用的词或短语来表达一些常见性的语义,例如用“一种盛水的容器”来表达“水杯”的含义,再例如用“没有固定停放地点的单车”替代“共享单车”的概念在专利文献中使用。因此专利文献相似度计算的准确与否很大程度上取决于词语间语义相似度的计算。根据研究方法的不同,词语间的语义相似度的研究大体上可以分为两大类:基于知识的词语语义分析和基于统计的词语语义分析。基于知识的词语语义分析需要一个庞大而丰富的知识库,库中包含了词语概念、上下位等逻辑关系,通过计算不同词语在知识库中的语义距离来表示词语间的相似程度。基于统计的词语语义分析主要是在概率论,统计论等数学理论的基础上,对大规模语料进行统计,通过判断词语的上下文语境是否相似来判断词语之间的相似程度。文本相似度的计算方法主要包括基于统计、基于语义信息、基于句法结构、基于编辑距离的方法。在现有技术中,向量空间模型(VSM)作为最常用的一种文本表示方式,是由Salton等人于20世纪70年代首次提出,并将此模型成功应用于SMART文本检索系统。向量空间模型是将文本内容的处理转化为空间向量的运算,通过空间向量的距离表示文本内容的相似程度,直观易懂。在构建向量空间模型的过程中,词频-逆文档频率(TF-IDF)是使用最广泛的计算权重方法。词汇的TF-IDF值可以用来衡量词汇在文本中的重要程度,一个词在某一文本中出现的次数越多也就是TF值越大(为了降低文本长短不同对TF值的影响一般在计算TF值时需要做归一化处理),并且在同一语料库下的其他文本中包含该词的文本数越小即IDF值越大,则该词越能反映该文本的主题。余弦相似度是计算文本相似度的一种重要方法,其宗旨是将文本通过向量空间模型向量化后,计算向量之间的夹角,夹角余弦值越大表示两个向量夹角越小则两个文本间相似度越高,当两个向量夹角余弦值为1即两个向量重合,此时可以粗略认为两个向量表示的文本内容是一样的。通过上述TF-IDF的介绍可知,以TF-IDF值作为权重计算文本相似度的方法,仅仅是把文本间出现的相同词汇作为参考指标,并没有把词汇语义信息考虑在内。在实际中,只对词频进行统计而忽略词汇间语义信息的文本相似度计算方法是远远不够的。例如一篇描述苹果的文本和一篇描述香蕉的文本,基于词频统计的方式可能就会认为这是两篇完全不相关的文本。Word2vec是在2013年由Google开发的一款将词表示成实数值向量的高效工具,其中采用的模型有CBOW(连续词袋)模型和Skip-Gram模型(通过输入一个词向量来预测相邻的词向量)。Word2vec通过训练,可以将文本内容的处理简化成n维空间向量的运算,而向量空间上的相似度又可以表示文本内容语义上的相似度。Word2vec的高效性是被研究者广为称赞的,一个优化的单机版本一天可以训练上千亿词,并且整个训练过程是无监督的。Word2vec输出的词向量可以用来做许多NLP的相关工作。现有技术中,通过word2vec训练得到词向量,然后通过词向量串联的方式表示文本并最终对文本进行情感分析,或者用word2vec训练的词向量表示出来的文本用于深度学习模型来进行文本分类任务,上述技术的缺陷在于在用词向量表示文本时,没有考虑文本本身的结构特点以及在文本不同位置词本身的重要性不同的问题。现有技术的专利文本相似度计算方法的准确率和召回率不高,不能满足实际应用的需要。
技术实现思路
针对上述现有技术中存在的问题,本专利技术的目的在于提供一种可避免出现上述技术缺陷的专利文本相似度计算方法。为了实现上述专利技术目的,本专利技术提供的技术方案如下:一种专利文本相似度计算方法,包括以下步骤:步骤1)从两个专利文本中提取专利数据,对专利数据进行预处理;步骤2)将词性权重和词位置权重与TF-IDF算法相结合计算出词权重;步骤3)将两个专利文本以向量空间模型表示出来,得到两个分布式词向量;步骤4)计算文本相似度,当得到的专利文本相似度大于设定的阈值时,则认为两篇专利相似,否则不相似。进一步地,在所述步骤1)中,对专利数据进行预处理包括:对专利数据进行分词、词性标注、去除停用词、命名实体识别和新发现词的操作,并去除除了名词、动词或名词性短语以外的词性的词汇。进一步地,在所述步骤2)中,将词位置权重大小设置为W(IPC分类号)>W(权利要求书)>W(摘要)>W(标题)。进一步地,在所述步骤2)中,通过设置不同的词频基数来体现词性权重的不同。进一步地,词性为动词的词汇词频数设置为等于该词汇出现的实际次数,词性为名词性短语的词汇词频数设置为等于该词汇出现的实际次数的3倍。进一步地,在所述步骤2)中,通过设置不同的词频基数来体现词位置权重的不同。进一步地,文本相似度计算公式为:C(x,y)代表两个词汇x和y语义信息接近程度,其计算公式为:C(x,y)=cos(x,y)*W(x)*W(y),W(x)代表结合词性权重、词位置权重和TF-IDF算法得到的词汇x的词权重,S为两个专利文本P1,P2的相似度计算公式,IPC1,IPC2分别代表专利文本P1,P2的IPC分类号,K1,K2分别代表专利文本P1,P2的特征词集合,m,n分别代表特征词集合K1,K2中的特征词。进一步地,所述步骤3)是通过word2vec实现的。本专利技术提供的专利文本相似度计算方法,综合考虑了专利结构特点和词汇间语义关系,将IPC分类号、摘要、权利要求书等专利文本特有的结构融合到文本相似度计算方法当中,比一般文本相似度计算方法更加具有针对性,通过word2vec计算词汇间的语义关系,不仅能够节省构建领域知识库所需花费的大量时间,而且还能保证较高的准确率和召回率,同时又克服了传统词匹配方法中文本相似度大小主要取决于词汇重复率的缺陷,可以很好地满足实际应用的需要。附图说明图1为本专利技术的流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本专利技术做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参考图1所示,一种专利文本相似度计算方法,包括以下步骤:步骤1)提取要进行对比的两个专利文本中的专利数据,对专利数据进行预处理;步骤2)将词性权重和词位置权重与TF-IDF算法相结合计算出词权重;步骤3)分别将两个专利文本以向量空间模型(VSM)表示出来,得到两个分布式词向量;步骤4)利用改进的文本相似度计算公式计算两个专利的文本相似度,当得到的专利文本相似度大于设定的阈值时,则认为两篇专利相似,否则不相似。具体步骤如下:对要进行对比的两篇专利文本分别进行专利数据提取,分别提取两篇专利文本中的专利数据,然后对每个专利本文档来自技高网
...

【技术保护点】
1.一种专利文本相似度计算方法,其特征在于,包括以下步骤:步骤1)从两个专利文本中提取专利数据,对专利数据进行预处理;步骤2)将词性权重和词位置权重与TF‑IDF算法相结合计算出词权重;步骤3)将两个专利文本以向量空间模型表示出来,得到两个分布式词向量;步骤4)计算文本相似度,当得到的专利文本相似度大于设定的阈值时,则认为两篇专利相似,否则不相似。

【技术特征摘要】
1.一种专利文本相似度计算方法,其特征在于,包括以下步骤:步骤1)从两个专利文本中提取专利数据,对专利数据进行预处理;步骤2)将词性权重和词位置权重与TF-IDF算法相结合计算出词权重;步骤3)将两个专利文本以向量空间模型表示出来,得到两个分布式词向量;步骤4)计算文本相似度,当得到的专利文本相似度大于设定的阈值时,则认为两篇专利相似,否则不相似。2.根据权利要求1所述的专利文本相似度计算方法,其特征在于,在所述步骤1)中,对专利数据进行预处理包括:对专利数据进行分词、词性标注、去除停用词、命名实体识别和新发现词的操作,并去除除了名词、动词或名词性短语以外的词性的词汇。3.根据权利要求1-2所述的专利文本相似度计算方法,其特征在于,在所述步骤2)中,将词位置权重大小设置为W(IPC分类号)>W(权利要求书)>W(摘要)>W(标题)。4.根据权利要求1-3所述的专利文本相似度计算方法,其特征在于,在所述步骤2)中,通过设置不同的词频基数来体现词性权重的不同。5.根据权利...

【专利技术属性】
技术研发人员:吕学强董志安
申请(专利权)人:北京信息科技大学吕学强
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1