一种基于本体的专利技术主题聚类方法技术

技术编号：19388937 阅读：23 留言：0更新日期：2018-11-10 02:02

本发明专利技术涉及一种基于本体的专利技术主题聚类方法，包括：将专利技术主题中的词语与领域本体中的概念术语建立映射关系；计算概念术语之间的相似度；利用概念术语之间的相似度来计算专利技术主题之间的相似度；根据专利技术主题之间的相似度以矩阵的形式输入AP聚类算法中，输出专利技术主题聚成的若干个簇以及每个簇相对应的主题。本发明专利技术提供的基于本体的专利技术主题聚类方法，在相似度计算的基础上对抽取的关键技术主题词语进行聚类，将语义相似的词语聚成一个簇，选取最能代表该簇的词语作为簇中的技术主题，聚类结果的准确率、召回率和综合评价指标的值均较高，可以很好地满足实际应用的需要。

An ontology based patented technology topic clustering method

The invention relates to an ontology-based clustering method for patent technology topics, which includes: mapping terms in patent technology topics with conceptual terms in domain ontology; calculating similarity between conceptual terms; calculating similarity between conceptual terms by using similarity between conceptual terms; and calculating similarity between patent technology topics according to specialty. The similarity between technical topics is input into AP clustering algorithm in the form of matrix, and several clusters of patented technical topics and corresponding topics of each cluster are output. The ontology-based clustering method of patent technology subject provided by the invention clusters the key technical subject words extracted on the basis of similarity calculation, clusters the words with similar semantics into a cluster, selects the words most representative of the cluster as the technical subject in the cluster, and the accuracy, recall and synthesis of clustering results. The value of the evaluation index is high, which can well meet the needs of practical application.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于本体的专利技术主题聚类方法
本专利技术属于文本信息处理
，具体涉及一种基于本体的专利技术主题聚类方法。
技术介绍
知识产权是现代化生产保护和促进科技进步的重要手段。在全球化的背景下，知识产权的竞争决定着未来国际市场的竞争。知识产权代表了国家和企业的技术地位和核心竞争力。专利文献作为知识产权的重要载体，其蕴含着大量的技术、商业和法律方面的信息，是一座知识挖掘的富矿。在国际竞争日益激烈的今天，各个国家和地区不断加快信息化、智能化社会的步伐，因此衡量一个国家和地区知识产权指标的意义日益凸显。专利信息具有重要的科技和经济参考价值，根据世界知识产权统计，专利中蕴含了90％以上的专利技术成果，科学有效地挖掘和利用专利信息，能够缩短60％以上的研发时间，节省40％的研发经费。专利文献是国家和企业获取和挖掘技术、商业和法律知识的重要优质信息源之一。将专利挖掘和专利分析技术有机地结合起来，符合专利资源信息化的总体趋势，能为国家的知识产权战略提供应对方案，充分发挥专利制度在我国经济、贸易中的促进作用。可以说，技术挖掘与技术分析相结合是促进我国经济和科技协调发展，确保创新型国家顺利实现的重要保证。然而当创新活动不断发展，专利信息数量也在不断地增加，信息过载问题变得更加严重。企业面对海量繁杂的专利信息，无法及时找到合适的专利发展及应对战略，更无法对相应领域的专利趋势做出预测和判断。可见，对海量的专利信息做出精准地分析，具有重要的经济和社会意义。专利信息分析是专利信息工作和情报信息工作的结合，目前流行的专利信息分析方法有：定性分析法、定量分析法、拟定量分析法、图表分析...

【技术保护点】
1.一种基于本体的专利技术主题聚类方法，其特征在于，包括计算概念术语之间的相似度以及聚类的步骤。

【技术特征摘要】
1.一种基于本体的专利技术主题聚类方法，其特征在于，包括计算概念术语之间的相似度以及聚类的步骤。2.根据权利要求1所述的专利技术主题聚类方法，其特征在于，所述专利技术主题聚类方法具体包括：步骤1)将专利技术主题中的词语与领域本体中的概念术语建立映射关系；步骤2)计算概念术语之间的相似度；步骤3)利用概念术语之间的相似度来计算专利技术主题之间的相似度；步骤4)根据专利技术主题之间的相似度以矩阵的形式输入AP聚类算法中，输出专利技术主题聚成的若干个簇以及每个簇相对应的主题。3.根据权利要求1-2所述的专利技术主题聚类方法，其特征在于，所述步骤2)中，概念术语之间的相似度计算公式为：Dis(c1，c2)是概念c1和概念c2的上下位相似度，dl(c1)和dl(c2)分别是概念c1和概念c2所处的层次，sp(c1，c2)是概念c1和概念c2之间的本体概念树中最短路径，Maxdl是指本体概念树的最大深度，概念树根节点是第1层，α是一个可调节参数。4.根据权利要求1-3所述的专利技术主题聚类方法，其特征在于，所述步骤3)的计算公式为：技术主题w1中含有m个树中概念术语w1＝{c1_1，c1_2，...c1_m}，技术主题w2中含有n个树中的概念术语w2＝{c2_1，c2_2，...c2_n}；c1_i表示技术主题w1中的第i个概念术语，c2_(j→i)表示技术主题w2中与c1_i相似度最大的概念术语，R(w1，c1_i)表示c1_i在w1中的位置，μ为调节因子。5.根据权利要求1-4所述的专利技术主题聚类方法，其特征在于，所述步骤4)包括：步骤(1)输入N个技术主题词的相似度矩阵Sn×n，其中对角线上的数据是经过处理的预设参数p；步骤(2)初始化矩阵，An×n＝0；步骤(3)迭代执行步骤(3.1)-步骤(3.3)直到所有簇的中心点保持不变或者已经达到迭代最大次数；步骤(3.1)更新R矩阵的每一个值r(i，k)：r(i，k)＝s(i，k)-max{...

【专利技术属性】
技术研发人员：吕学强，董志安，
申请(专利权)人：北京信息科技大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人