一种面向文本的领域分类关系自动学习方法技术

技术编号：18237868 阅读：38 留言：0更新日期：2018-06-17 01:09

本发明专利技术公开了一种面向文本的领域分类关系自动学习方法，采用MEDLINE作为语料库，进行术语抽取与概念抽取，将抽取到的概念进行基于句法相似度和语义相似度的五个维度相似度的计算，然后各个维度的相似度进行加权，得出最终相似度矩阵，以此为依据进行层次聚类得出初始的树状图，再对树状图进行相应的剪枝和聚簇标记，最终得出体现概念之间的分类关系树状图；本发明专利技术不需要大量的手工标记，节省了人力与时间开销；将抽取到的术语与权威知识库UMLS超级叙词表进行映射，得出准确的领域概念；采用层次聚类的分布式方法，结合领域背景知识，提供五个维度相似度的计算；提出基于极值距离估计的无监督的层次聚类动态剪枝方法，能够更好地得出领域相关的分类关系。 1

A text oriented automatic learning method for domain classification relations

The invention discloses an automatic learning method for text oriented domain classification relations. Using MEDLINE as a corpus, the term extraction and concept extraction are extracted and the extracted concepts are calculated based on the similarity of five dimensions based on syntactic similarity and semantic similarity, and then the similarity of each dimension is weighted. The final similarity matrix is based on the hierarchical clustering to get the initial tree graph, then the tree pattern is pruned and clustered, and finally the classification relation tree is obtained. The invention does not need a large number of manual labeling, saves the manpower and time cost; the terms and rights are extracted. The UMLS super Syria is mapped, and the accurate domain concept is obtained. The hierarchical clustering method is used to provide five dimensional similarity calculation with the domain background knowledge, and an unsupervised hierarchical clustering method based on the extreme distance estimation can be put forward, which can better obtain the domain related points. Class relationships. One

全部详细技术资料下载

【技术实现步骤摘要】
一种面向文本的领域分类关系自动学习方法
本专利技术属于本体学习领域，尤其涉及一种面向文本的领域分类关系自动学习方法。
技术介绍
虽然生物医学研究领域已经广泛承认了领域本体的实用性，但是对于领域本体的有效使用仍然存在很多阻碍。领域本体一个非常重要的要求就是，他们对于领域概念和概念之间的关系必须取得高覆盖率。然而，这些本体的构建通常是一个手工的，耗时的过程，并且容易产生各种各样的错误。有限的资源导致了概念和关系的丢失，同时加大了知识变化引起的更新本体的难度。此外，构建本体需要领域专家的参与，即使同领域的专家对知识模型的认知也未必相同，所以难以保证构建本体的一致性。因此，许多研究人员致力于采用自然语言处理、计算机语言学和人工智能等领域的方法，实现语义知识的自动和半自动提取，即本体学习技术。本体学习包括术语抽取、概念抽取、分类关系抽取、非分类关系抽取及公理抽取等。分类关系作为本体构建的重要组成部分，是国内外研究的重点，主要体现的是领域概念间的上下位关系。目前，分类关系的学习主要有两种方法：基于规则的方法和分布式方法。基于规则的方法使用预定义的规则或者启发式模式来提取术语和关系，这些方法通常是基于Hearst提出的词汇-句法模式。分布式方法则将分类关系学习作为一种聚类或者分类任务，并且着重强调分布式相似性，它的优势在于可以发现文本中没有明确出现的关系。基于规则的方法依赖于能够提供高准确度的静态语言模式(规则)，不但需要广泛的领域专业知识，而且需要大量的手工标记，很难推广到其他领域。分布式方法需要极少量的先验知识，提供了更好的可扩展性，但是关键点在于有效的相似度计算准...
一种面向文本的领域分类关系自动学习方法

【技术保护点】
1.一种面向文本的领域分类关系自动学习方法，其特征在于，包括以下步骤：

【技术特征摘要】
1.一种面向文本的领域分类关系自动学习方法，其特征在于，包括以下步骤：(1)将从MEDLINE上抽取到的xml格式的论文中的摘要部分存储为txt格式，作为语料库；(2)对步骤(1)得到的语料库采用自然语言处理工具MMTx进行初步术语抽取；(3)将步骤(2)抽取到的术语与UMLS超级叙词表映射，不同的术语可能会映射到相同的概念；将所有的术语进行概念映射，最终形成领域概念集合；(4)综合句法相似度和语义相似度进行概念间相似度的计算，将相似度分为5个维度，最终的概念Ci和Cj之间的相似度Sim(Ci，Cj)是各维度相似度归一化加权的结果，对于n个概念最终得到一个n×n的相似度矩阵；Sim(Ci，Cj)的计算公式如下：其中，wl是第l个维度相似度的权值，前三个维度的相似度是基于句法计算的，后两个维度的相似度是基于语义计算的，具体计算方法如下：(4.1)sim1(Ci，Cj)的计算：计算概念Ci和Cj的概念名称Cname的杰卡德相似系数；每个Cname由一系列字符串T构成，那么，概念Ci和Cj的相似度表示为Ti∩Tj＝{ti∈Ti，tj∈Tj|LD(|ti|，|tj|)＜α}其中，LD(|ti|，|tj|)为ti和tj之间的莱文斯坦距离，Ti∩Tj的评估标准是构成它们的字符串之间的莱文斯坦距离小于预定义值α；(4.2)sim2(Ci，Cj)的计算：计算概念Ci的概念名称Cname和Cj所代表的术语集β之间的杰卡德相似系数；(4.3)sim3(Ci，Cj)的计算：计算概念Ci所代表的术语集β和Cj的概念名称Cname之间的杰卡德相似系数；(4.4)sim4(Ci，Cj)的计算：计算两个概念Ci和Cj在临床医学权威知识库SNOMEDCT中的相似度；对于概念Ci，首先，查询其在SNOMEDCT中的统一标识符conceptID，如果查询不到统一标识符conceptID，则两个概念的相似度为0；如果查询到统一标识符conceptID，则递归查询出概念Ci在SNOMEDCT本体库中的所有父节点，得到以概念Ci为中心的由其所有父节点形成的图，采用图的宽度优先搜索算法对两个概念各自的父节点图进行处理，得出二者的公共父节点，其中两个概念的最近距离即为最终距离；对最短距离进行归一化处理即可得到本维度的相似度；(4.5)sim5(Ci，Cj)的计算：计算两个概念在DBpedia知识库中的相似度；概念Ci和Cj的相似度是各自从DBpedia中抽取到的类别数组的杰卡德相似系数；(5)对相似度矩阵进行层次聚类得出初始的树状图：基于以上5个维度相似度的计算，采用自底向上的凝聚型聚类算法AHC对分类关系进行学习，簇间距离选用最大距离作为标准；(6)对树状图进行相应的剪枝和聚簇标记，得出概念之间的分类关系；具体为：首先创建聚簇标记向量λ＝{λ1，λ2，…，λm}，m为所有聚簇标记的总数，然后，对层次聚类产生的树状图进行剪枝操作，若在剪枝的过程中有新的聚簇产生，对新的聚簇进行标记并更新树状图，重复此操...

【专利技术属性】
技术研发人员：李劲松，张桠童，周天舒，田雨，王昱，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人