一种利用Topic Model的自动学习本体的方法技术

技术编号:18497242 阅读:12 留言:0更新日期:2018-07-21 20:15
本发明专利技术提供了一种利用Topic Model的自动学习本体的方法,该方法支持自动的领域本体构建,发明专利技术了一种信息的计算概念之间语义相似性的度量方法,用来计算LDA模型产生的概念之间的语义相似性,这种自动学习本体的方法分为两步:第一步是从文本语料库或者web语料库中进行概念识别;第二步是利用本文定义的语义相似性度量CP进行概念之间的关系建立。该方法不需要有种子本体作为初始学习本体的辅助。实验结果表明本发明专利技术提出的利用Topic Model进行自动本体构建的方法是非常有效的。

A method of automatically learning ontology using Topic Model

This invention provides an automatic learning ontology method using Topic Model, which supports automatic domain ontology construction, and invents a measure method of semantic similarity between the computing concepts of information, which is used to calculate the semantic similarity between concepts generated by the LDA model, which is divided into the methods of automatic learning ontology. The two step: the first step is to identify the concepts from the text corpus or the Web corpus, and the second step is to establish the relationship between concepts by using the semantic similarity measure CP defined in this article. This method does not need seed ontology as an aid to initial learning ontology. The experimental results show that the method of automatic ontology construction using Topic Model is very effective.

【技术实现步骤摘要】
一种利用TopicModel的自动学习本体的方法
本专利技术涉及一种本体构建的方法,利用TopicModel作为产生基本概念单位,不用本体种子即可学习出本体达到构建本体的目的。
技术介绍
本体构建已经应用到各种领域,如人工智能、信息抽取、机器翻译等领域。但是人工构建本体是非常耗时费力的工作,随着概念和领域信息的不断扩展更新,构建大规模的本体需要越来越多的人力物力和精力,所以人为构建像webdirectories、Wordnet这样的大型本体种子需要耗费更多的努力和精力。因此强烈需要能够自动构建本体来跟上这种领域信息暴涨的现实需求,来缩小认为构建和维护本体的代价。所以最近利用计算机数据分析、数据挖掘的方式自动构建本体是一件很有意义的研究,吸引了很多研究人员对此进行大量深入的研究。自动构建本体已经变成一个新的研究领域,有很多方法已经提出来用于自动构建本体,目前本体已经有很多即时应用,能够帮助知识工程师结合自动或者半自动机器学习技术来构建和扩展本体,大大减少了人工构建维护本体的代价。大多数现在的本体学习方法集中在扩展、更新已有的本体种子,利用从文献词库中抽取出概念或者词汇单元来更新和宽展本体种子。也有一些自动学习本体的方法,但是多数这种自动学习本体的方法都是基于特殊知识领域的本体构建,如SKOS模型,但是这些方法都具有一定的局限性。有很多从文本语料库中学习本体的方法,如基于lexico-syntactic的本体构建方法,这些方法主要利用自然语言处理技术和现有的lexicon资源来学习概念之间的is-a关系,即所谓的Hearst-parterns,但是这类方法有个缺点就是Hearst-parterns这种需要频繁出现的词汇模式不会频繁出现,同时他只能处理一些非常模糊的词汇语义关系。P.Cimicano和F.M.Suchanek等常识利用Wikipedia、Wordnet这种web搜索引擎去抽取更多的语言模式。基于聚类和分类的统计学习方法也应用到本体学习中,这些方法通常利用相似性度量和不相似性度量来进行概念关系的建立。这类方法的局限是基于聚类和分类的本体学习方法很难执行。基于信息抽取技术的本体学习方法学习本体的层次结构,这类方法仅能够抽取出类似人类、地点、动物这种非常概化的概念以及它们的子概念。TopicModel概率模型是一种在没有先验知识提供的情况下,从科学出版物中识别出概念的已被业界证明了非常有效的模型。TopicModel模型现在已经被广泛应用到文本挖掘领域。利用TopicModel进行本体学习是一种新的研究方法。EliasZavitsanos等提出一种基于统计方法的自动本体学习方法,该方法是通过不断的重复利用TopicModel模型训练出的概念集合,然后再利用条件独立性判断识别出的概念之间的联系,但是该方法不能进行两个层次结构之间概念的联系。Wangwei等人提出了两个方法都是基于语义Web学习本体结构的方法,该方法利用信息论与TopicModel相结合的方式,表现出很好的召回率和准确率,但是需要限制最近根节点的子概念节点的数量。
技术实现思路
本专利技术的目的是提供一种自动学习本体的方法,不当能够准确的确定概念之间的相互关系,而且能够在不提供先验知识的情况下,学习本体的过程中决定本体的深度和学习时间的终点。为了达到上述目的,本专利技术的技术方案是提供了一种利用TopicModel的自动学习本体的方法,其特征在于,包括以下步骤:第一步、利用LDA模型从给定的文献语料库中进行概念抽取,由抽取到的概念产生出概念集合,然后进行概念层次细分产生本体构建的层次结构G,G={T,E},式中,T={t1,t2,...,tm}是概念集合,定义为上层概念集合;T’={t1’,t2’,...,tm’}是子概念集合,定义为上层概念集合T的下一层概念集合,概念集合T与子概念集合T’是相继的两层;E是边的集合,每个eij∈E表示概念集合T中的第i个概念ti与子概念集合T′中第j个概念tj’有边相连;第二步、利用CosTMI相似性度量方法,识别层次结构G中相继两层之间的语义相似性,其中,上层概念集合T中第p个概念tp与概念tp的上下文中,下一层概念集合T′中第s个概念ts’和第r个概念tr’两个概念的语义相似度CosTMI(ts′,tr′;tp)式中,tp包含词汇序列{wp1,wp2,...,wpn};ts’包含词汇序列{ws'1,ws'2,...,ws’n};tr’包含词汇序列{wr’1,wr'2,...,wr’n};PMI()是两个词汇的点互信息,两个词汇w与w’的点互信息为PMI(w,w’),则有:式中,P(w,w’)=P(w)P(w′|w);式中,z是主题,P(z=j)是主题为j时的概率,P(w|z=j)是主题为j时,词汇w的条件概率,k是概念的数量;式中,P(w′|z=j)是主题为j时候w’的条件概率,P(z=j|w)是词汇为w时,主题j的条件概率;若CosTMI(ts′,tr′;tp)大于一定的阈值thc,则在tp和ts’、tr’建立关系;第三步、计算标准相似性度量L(ts′,tr′;tp),式中,P(ts′|tp)是(是在tp上下文词汇环境下ts’的发生的概率),P(tr′|tp)是(是在tp上下文词汇环境下ts’的发生的概率);在通过标准相似性度量L(ts′,tr′;tp)定义本体概念之间的关系时,每个通过TopicModel学习出的概念都对应一个本体的概念,每个概念ts’或者tr’在tp的上下文环境下的条件概率,用来计算同一层概念之间的语义相似度,值越小表明值的语义相似性越高;第四步、确定本体的层次结构设利用TopicModel学习出三个概念层次Th、Tm、Tl,Th是最高层次,Tm是中间层次,Tl是最低层次,这三个变量的熵记为H(Th)、H(Tm)、H(Tl),H(Tl|Tm)是信息领域中的条件熵,则相继两层的概念集合信息增益Δ(I(Th,Tm,Tl))定义为:Δ(I(Th,Tm,Tl))=H(Th)-H(Tl|Tm)当Δ(I(Th,Tm,Tl))小于规定的阈值ω时,停止利用LDA模型学习概念集合。优选地,在所述第一步中,进行概念层次细分产生本体构建的层次结构G时遵循以下规则:规则1:如果ti∈T,tj’∈T',NT<NT',结论是:子概念集合T’比概念集合T,其中,NT和NT'分别是概念集合T和子概念集合T’的层高级别;规则2:如果ti∈T,tj’∈T',在ti与tj’之间极有可能存在上下级关系,其中,是空集。本专利技术提出了一种新方法可以自动从所给文本语料库库中学习本体。我们利用一种被广泛应用的概率模型即TopicModel模型生成的概念作为构建本体所需要的概念单元,有了这些概念,还需要有一种方法度量这些概念的相似性,来定义本体结构中相邻上下两层概念之间的联系,也就是为了构建本题结构给概念之间建立起边,形成本体的层次架构。保证学习出的概念之间有联系,并且概念之间的联系最紧凑合理。为此我们定义了两个相似性度量,而且我们提出一个新的判别本体层次结构深度的标准,也就是提出了一个新的方法来判别学习本体时循环结束的标准。本专利技术通过反复利用LDA模型即TopicModel模型产生概念,定义能够准确测量概念之间语义相似性的度本文档来自技高网
...

【技术保护点】
1.一种利用Topic Model的自动学习本体的方法,其特征在于,包括以下步骤:第一步、利用LDA模型从给定的文献语料库中进行概念抽取,由抽取到的概念产生出概念集合,然后进行概念层次细分产生本体构建的层次结构G,G={T,E},式中,T={t1,t2,…,tm}是概念集合,定义为上层概念集合;T’={t1’,t2’,...,tm’}是子概念集合,定义为上层概念集合T的下一层概念集合,概念集合T与子概念集合T’是相继的两层;E是边的集合,每个eij∈E表示概念集合T中的第i个概念ti与子概念集合T’中第j个概念tj’有边相连;第二步、利用CosTMI相似性度量方法,识别层次结构G中相继两层之间的语义相似性,其中,上层概念集合T中第p个概念tp与概念tp的上下文中,下一层概念集合T’中第s个概念ts’和第r个概念tr’两个概念的语义相似度CosTMI(ts’,tr’;tp)

【技术特征摘要】
1.一种利用TopicModel的自动学习本体的方法,其特征在于,包括以下步骤:第一步、利用LDA模型从给定的文献语料库中进行概念抽取,由抽取到的概念产生出概念集合,然后进行概念层次细分产生本体构建的层次结构G,G={T,E},式中,T={t1,t2,…,tm}是概念集合,定义为上层概念集合;T’={t1’,t2’,...,tm’}是子概念集合,定义为上层概念集合T的下一层概念集合,概念集合T与子概念集合T’是相继的两层;E是边的集合,每个eij∈E表示概念集合T中的第i个概念ti与子概念集合T’中第j个概念tj’有边相连;第二步、利用CosTMI相似性度量方法,识别层次结构G中相继两层之间的语义相似性,其中,上层概念集合T中第p个概念tp与概念tp的上下文中,下一层概念集合T’中第s个概念ts’和第r个概念tr’两个概念的语义相似度CosTMI(ts’,tr’;tp)式中,tp包含词汇序列{wp1,wp2,...,wpn};ts’包含词汇序列{ws’1,ws’2,...,ws’n};tr’包含词汇序列{wr’1,wr’2,...,wr’n};PMI()是两个词汇的点互信息,两个词汇w与w’的点互信息为PMI(w,w’),则有:式中,P(w,w’)=P(w)P(w’|w);式中,z是主题,P(z=j)是主题为j时的概率,P(w|z=j)是主题为j时,词汇w的条件概率,k是概念的数量;式中,P(w’|z=j)是主题为j时候w’的条件概率,P(z=j|w)是词汇为w时,主题j的条件概率;若CosTMI(ts’,...

【专利技术属性】
技术研发人员:林志杰
申请(专利权)人:上海电机学院
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1