一种基于本体的专利技术主题聚类方法技术

技术编号:19388937 阅读:23 留言:0更新日期:2018-11-10 02:02
本发明专利技术涉及一种基于本体的专利技术主题聚类方法,包括:将专利技术主题中的词语与领域本体中的概念术语建立映射关系;计算概念术语之间的相似度;利用概念术语之间的相似度来计算专利技术主题之间的相似度;根据专利技术主题之间的相似度以矩阵的形式输入AP聚类算法中,输出专利技术主题聚成的若干个簇以及每个簇相对应的主题。本发明专利技术提供的基于本体的专利技术主题聚类方法,在相似度计算的基础上对抽取的关键技术主题词语进行聚类,将语义相似的词语聚成一个簇,选取最能代表该簇的词语作为簇中的技术主题,聚类结果的准确率、召回率和综合评价指标的值均较高,可以很好地满足实际应用的需要。

An ontology based patented technology topic clustering method

The invention relates to an ontology-based clustering method for patent technology topics, which includes: mapping terms in patent technology topics with conceptual terms in domain ontology; calculating similarity between conceptual terms; calculating similarity between conceptual terms by using similarity between conceptual terms; and calculating similarity between patent technology topics according to specialty. The similarity between technical topics is input into AP clustering algorithm in the form of matrix, and several clusters of patented technical topics and corresponding topics of each cluster are output. The ontology-based clustering method of patent technology subject provided by the invention clusters the key technical subject words extracted on the basis of similarity calculation, clusters the words with similar semantics into a cluster, selects the words most representative of the cluster as the technical subject in the cluster, and the accuracy, recall and synthesis of clustering results. The value of the evaluation index is high, which can well meet the needs of practical application.

【技术实现步骤摘要】
一种基于本体的专利技术主题聚类方法
本专利技术属于文本信息处理
,具体涉及一种基于本体的专利技术主题聚类方法。
技术介绍
知识产权是现代化生产保护和促进科技进步的重要手段。在全球化的背景下,知识产权的竞争决定着未来国际市场的竞争。知识产权代表了国家和企业的技术地位和核心竞争力。专利文献作为知识产权的重要载体,其蕴含着大量的技术、商业和法律方面的信息,是一座知识挖掘的富矿。在国际竞争日益激烈的今天,各个国家和地区不断加快信息化、智能化社会的步伐,因此衡量一个国家和地区知识产权指标的意义日益凸显。专利信息具有重要的科技和经济参考价值,根据世界知识产权统计,专利中蕴含了90%以上的专利技术成果,科学有效地挖掘和利用专利信息,能够缩短60%以上的研发时间,节省40%的研发经费。专利文献是国家和企业获取和挖掘技术、商业和法律知识的重要优质信息源之一。将专利挖掘和专利分析技术有机地结合起来,符合专利资源信息化的总体趋势,能为国家的知识产权战略提供应对方案,充分发挥专利制度在我国经济、贸易中的促进作用。可以说,技术挖掘与技术分析相结合是促进我国经济和科技协调发展,确保创新型国家顺利实现的重要保证。然而当创新活动不断发展,专利信息数量也在不断地增加,信息过载问题变得更加严重。企业面对海量繁杂的专利信息,无法及时找到合适的专利发展及应对战略,更无法对相应领域的专利趋势做出预测和判断。可见,对海量的专利信息做出精准地分析,具有重要的经济和社会意义。专利信息分析是专利信息工作和情报信息工作的结合,目前流行的专利信息分析方法有:定性分析法、定量分析法、拟定量分析法、图表分析法等。专利技术功效矩阵是专利图表分析和专利拟定量分析方法结合,能够分析专利文献中技术手段和功效之间的关系,能够较为直观地反映相应领域的发展状况,专利技术主题抽取是专利技术功效矩阵分析的前提,专利技术主题是专利文献揭露的
技术实现思路
的核心,对其进行分析,可以获得技术主题的演变过程、预测技术发展趋势和发现新兴技术主题等。然而在专利技术功效矩阵构建的过程中,如果把抽取出来的关键技术直接拿来构建技术功效矩阵,容易造成矩阵维度大、数据稀疏的问题。因此,需要对抽取出来的技术主题进行聚类操作,在词聚类方面,现有技术存在的缺陷有:基于词形的相似度计算并不能在中文语料上取得很好的效果,因此不适用于专利中的技术主题抽取;在计算词间复杂度时,根据两个词中的字的共现程度计算词语的相似性的方法过于粗暴,没有考虑词间的语义信息。上述缺陷导致现有技术的专利技术主题聚类结果的准确率、召回率和综合评价指标的值均不高。
技术实现思路
针对上述现有技术中存在的问题,本专利技术的目的在于提供一种可避免出现上述技术缺陷的基于本体的专利技术主题聚类方法。为了实现上述专利技术目的,本专利技术提供的技术方案如下:一种基于本体的专利技术主题聚类方法,包括计算概念术语之间的相似度以及聚类的步骤。进一步地,所述专利技术主题聚类方法具体包括:步骤1)将专利技术主题中的词语与领域本体中的概念术语建立映射关系;步骤2)计算概念术语之间的相似度;步骤3)利用概念术语之间的相似度来计算专利技术主题之间的相似度;步骤4)根据专利技术主题之间的相似度以矩阵的形式输入AP聚类算法中,输出专利技术主题聚成的若干个簇以及每个簇相对应的主题。进一步地,所述步骤2)中,概念术语之间的相似度计算公式为:Dis(c1,c2)是概念c1和概念c2的上下位相似度,dl(c1)和dl(c2)分别是概念c1和概念c2所处的层次,sp(c1,c2)是概念c1和概念c2之间的本体概念树中最短路径,Maxdl是指本体概念树的最大深度,概念树根节点是第1层,α是一个可调节参数。进一步地,所述步骤3)的计算公式为:技术主题w1中含有m个树中概念术语w1={c1_1,c1_2,...c1_m},技术主题w2中含有n个树中的概念术语w2={c2_1,c2_2,...c2_n};c1_i表示技术主题w1中的第i个概念术语,c2_(j→i)表示技术主题w2中与c1li相似度最大的概念术语,R(w1,c1_i)表示c1_i在w1中的位置,μ为调节因子。进一步地,所述步骤4)包括:步骤(1)输入N个技术主题词的相似度矩阵Sn×n,其中对角线上的数据是经过处理的预设参数p;步骤(2)初始化矩阵,An×n=0;步骤(3)迭代执行步骤(3.1)-步骤(3.3)直到所有簇的中心点保持不变或者已经达到迭代最大次数;步骤(3.1)更新R矩阵的每一个值r(i,k):r(i,k)=s(i,k)-max{a(i,k′)+s(i,k′)};步骤(3.2)更新A矩阵的每一个值a(i,k):步骤(3.3)对于任意一个点i,使得r(i,k)+a(i,k)最大的点k即为点i的簇点;步骤(4)每一个技术主题都找到其聚类簇点,具有相同簇的技术主题即为聚类结果的一个簇,返回所有的簇以及对应簇的主题。进一步地,在AP聚类算法中,将数据点间的相似度矩阵作为输入,令S是样本数据点之间的相似度矩阵,S(i,j)>S(i,k)表示i与j的相似性程度要大于i与k之间的相似性;AP聚类算法根据矩阵中对角线上的值来判断数据点能否成为一个聚类中心,对于每一个数据点,S(k,k)越大,表明该数据点成为聚类簇中心的可能性越大,把对角线上的值称为参考度P;P的大小影响AP算法的聚类个数,初始时,当每个数据点成为簇中心的可能性相同时,矩阵对角线上的值取相同值,若不同的数据点成为聚类簇中心的大小不一,那么取不同的P值。进一步地,在AP聚类算法中,开始时,初始化A矩阵为0,那么R矩阵为:r(i,k)=s(i,k)-max{a(i,k′)+s(i,k′)}(k′≠k);R消息更新完后,更新A消息:通过A消息和R消息来确定聚类中心,对于样本i来说,令r(i,k)+a(i,k)最大的k样本即为聚类中心点;当迭代次数超过设定值或者r(i,k)+a(i,k)值的改变小于某个阈值时,算法更新停止。进一步地,AP聚类算法在信息更新时引入了衰减系数λ∈[0,1]来避免数值震荡情况出现,当每条信息被设置为它上次迭代的值的λ倍加上本次信息更新值的λ-1倍,即第t+1次迭代时,r(i,k)和a(i,k)的值分别为:rt+1(i,k)=(1-λ)rt+1(i,k)+λrt(i,k);at+1(i,k)=(1-λ)at+1(i,k)+λat(i,k)。本专利技术提供的基于本体的专利技术主题聚类方法,基于领域本体的语义相似度计算方法,在相似度计算的基础上对抽取的关键技术主题词语进行聚类,将语义相似的词语聚成一个簇,选取最能代表该簇的词语作为簇中的技术主题,聚类结果的准确率、召回率和综合评价指标的值均较高,可以很好地满足实际应用的需要。附图说明图1为概念树状结构图;图2为AP聚类算法中数据点间的消息传递示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本专利技术做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。一种基于本体的专利技术主题聚类方法,基于领域本体的语义相似度计算方法,在相似本文档来自技高网
...

【技术保护点】
1.一种基于本体的专利技术主题聚类方法,其特征在于,包括计算概念术语之间的相似度以及聚类的步骤。

【技术特征摘要】
1.一种基于本体的专利技术主题聚类方法,其特征在于,包括计算概念术语之间的相似度以及聚类的步骤。2.根据权利要求1所述的专利技术主题聚类方法,其特征在于,所述专利技术主题聚类方法具体包括:步骤1)将专利技术主题中的词语与领域本体中的概念术语建立映射关系;步骤2)计算概念术语之间的相似度;步骤3)利用概念术语之间的相似度来计算专利技术主题之间的相似度;步骤4)根据专利技术主题之间的相似度以矩阵的形式输入AP聚类算法中,输出专利技术主题聚成的若干个簇以及每个簇相对应的主题。3.根据权利要求1-2所述的专利技术主题聚类方法,其特征在于,所述步骤2)中,概念术语之间的相似度计算公式为:Dis(c1,c2)是概念c1和概念c2的上下位相似度,dl(c1)和dl(c2)分别是概念c1和概念c2所处的层次,sp(c1,c2)是概念c1和概念c2之间的本体概念树中最短路径,Maxdl是指本体概念树的最大深度,概念树根节点是第1层,α是一个可调节参数。4.根据权利要求1-3所述的专利技术主题聚类方法,其特征在于,所述步骤3)的计算公式为:技术主题w1中含有m个树中概念术语w1={c1_1,c1_2,...c1_m},技术主题w2中含有n个树中的概念术语w2={c2_1,c2_2,...c2_n};c1_i表示技术主题w1中的第i个概念术语,c2_(j→i)表示技术主题w2中与c1_i相似度最大的概念术语,R(w1,c1_i)表示c1_i在w1中的位置,μ为调节因子。5.根据权利要求1-4所述的专利技术主题聚类方法,其特征在于,所述步骤4)包括:步骤(1)输入N个技术主题词的相似度矩阵Sn×n,其中对角线上的数据是经过处理的预设参数p;步骤(2)初始化矩阵,An×n=0;步骤(3)迭代执行步骤(3.1)-步骤(3.3)直到所有簇的中心点保持不变或者已经达到迭代最大次数;步骤(3.1)更新R矩阵的每一个值r(i,k):r(i,k)=s(i,k)-max{...

【专利技术属性】
技术研发人员:吕学强董志安
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1