一种利用Topic Model的自动学习本体的方法技术

技术编号：18497242 阅读：12 留言：0更新日期：2018-07-21 20:15

本发明专利技术提供了一种利用Topic Model的自动学习本体的方法，该方法支持自动的领域本体构建，发明专利技术了一种信息的计算概念之间语义相似性的度量方法，用来计算LDA模型产生的概念之间的语义相似性，这种自动学习本体的方法分为两步：第一步是从文本语料库或者web语料库中进行概念识别；第二步是利用本文定义的语义相似性度量CP进行概念之间的关系建立。该方法不需要有种子本体作为初始学习本体的辅助。实验结果表明本发明专利技术提出的利用Topic Model进行自动本体构建的方法是非常有效的。

A method of automatically learning ontology using Topic Model

This invention provides an automatic learning ontology method using Topic Model, which supports automatic domain ontology construction, and invents a measure method of semantic similarity between the computing concepts of information, which is used to calculate the semantic similarity between concepts generated by the LDA model, which is divided into the methods of automatic learning ontology. The two step: the first step is to identify the concepts from the text corpus or the Web corpus, and the second step is to establish the relationship between concepts by using the semantic similarity measure CP defined in this article. This method does not need seed ontology as an aid to initial learning ontology. The experimental results show that the method of automatic ontology construction using Topic Model is very effective.

全部详细技术资料下载

【技术实现步骤摘要】
一种利用TopicModel的自动学习本体的方法
本专利技术涉及一种本体构建的方法，利用TopicModel作为产生基本概念单位，不用本体种子即可学习出本体达到构建本体的目的。
技术介绍
本体构建已经应用到各种领域，如人工智能、信息抽取、机器翻译等领域。但是人工构建本体是非常耗时费力的工作，随着概念和领域信息的不断扩展更新，构建大规模的本体需要越来越多的人力物力和精力，所以人为构建像webdirectories、Wordnet这样的大型本体种子需要耗费更多的努力和精力。因此强烈需要能够自动构建本体来跟上这种领域信息暴涨的现实需求，来缩小认为构建和维护本体的代价。所以最近利用计算机数据分析、数据挖掘的方式自动构建本体是一件很有意义的研究，吸引了很多研究人员对此进行大量深入的研究。自动构建本体已经变成一个新的研究领域，有很多方法已经提出来用于自动构建本体，目前本体已经有很多即时应用，能够帮助知识工程师结合自动或者半自动机器学习技术来构建和扩展本体，大大减少了人工构建维护本体的代价。大多数现在的本体学习方法集中在扩展、更新已有的本体种子，利用从文献词库中抽取出概念或者词汇单元来更新和宽展本体种子。也有一些自动学习本体的方法，但是多数这种自动学习本体的方法都是基于特殊知识领域的本体构建，如SKOS模型，但是这些方法都具有一定的局限性。有很多从文本语料库中学习本体的方法，如基于lexico-syntactic的本体构建方法，这些方法主要利用自然语言处理技术和现有的lexicon资源来学习概念之间的is-a关系，即所谓的Hearst-parterns，但是这类方法有个...

【技术保护点】
1.一种利用Topic Model的自动学习本体的方法，其特征在于，包括以下步骤：第一步、利用LDA模型从给定的文献语料库中进行概念抽取，由抽取到的概念产生出概念集合，然后进行概念层次细分产生本体构建的层次结构G，G＝{T，E}，式中，T＝{t1，t2，…，tm}是概念集合，定义为上层概念集合；T’＝{t1’，t2’，...，tm’}是子概念集合，定义为上层概念集合T的下一层概念集合，概念集合T与子概念集合T’是相继的两层；E是边的集合，每个eij∈E表示概念集合T中的第i个概念ti与子概念集合T’中第j个概念tj’有边相连；第二步、利用CosTMI相似性度量方法，识别层次结构G中相继两层之间的语义相似性，其中，上层概念集合T中第p个概念tp与概念tp的上下文中，下一层概念集合T’中第s个概念ts’和第r个概念tr’两个概念的语义相似度CosTMI(ts’，tr’；tp)

【技术特征摘要】
1.一种利用TopicModel的自动学习本体的方法，其特征在于，包括以下步骤：第一步、利用LDA模型从给定的文献语料库中进行概念抽取，由抽取到的概念产生出概念集合，然后进行概念层次细分产生本体构建的层次结构G，G＝{T，E}，式中，T＝{t1，t2，…，tm}是概念集合，定义为上层概念集合；T’＝{t1’，t2’，...，tm’}是子概念集合，定义为上层概念集合T的下一层概念集合，概念集合T与子概念集合T’是相继的两层；E是边的集合，每个eij∈E表示概念集合T中的第i个概念ti与子概念集合T’中第j个概念tj’有边相连；第二步、利用CosTMI相似性度量方法，识别层次结构G中相继两层之间的语义相似性，其中，上层概念集合T中第p个概念tp与概念tp的上下文中，下一层概念集合T’中第s个概念ts’和第r个概念tr’两个概念的语义相似度CosTMI(ts’，tr’；tp)式中，tp包含词汇序列{wp1，wp2，...，wpn}；ts’包含词汇序列{ws’1，ws’2，...，ws’n}；tr’包含词汇序列{wr’1，wr’2，...，wr’n}；PMI()是两个词汇的点互信息，两个词汇w与w’的点互信息为PMI(w，w’)，则有：式中，P(w，w’)＝P(w)P(w’|w)；式中，z是主题，P(z＝j)是主题为j时的概率，P(w|z＝j)是主题为j时，词汇w的条件概率，k是概念的数量；式中，P(w’|z＝j)是主题为j时候w’的条件概率，P(z＝j|w)是词汇为w时，主题j的条件概率；若CosTMI(ts’，...

【专利技术属性】
技术研发人员：林志杰，
申请(专利权)人：上海电机学院，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人