一种基于Gspan和TextRank的科技领域本体构建方法技术

技术编号：20045147 阅读：26 留言：0更新日期：2019-01-09 04:14

本发明专利技术公开了一种基于Gspan和TextRank的科技领域本体构建方法。本发明专利技术包含以下步骤：对科技领域语料库中数据进行预处理，得到标准化的术语和术语关系以及各自权重且以此建立文档图模型；对文档图模型通过TextRank算法构建文档图信息量模型；通过对文档图信息量模型进行马尔科夫聚类得到候选概念集；并且基于Gspan频繁子图挖掘算法对文档图信息量模型计算得到本体术语关系图；将候选概念集合本体术语关系图结合形成科技领域本体。该方法在构建科技领域本体过程中综合考虑术语信息量在子图挖掘中的作用，以此改进Gspan频繁子图挖掘算法，使本体构建更加完整准确，从而提高本体构建的可靠性、有效性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Gspan和TextRank的科技领域本体构建方法
本专利技术属于大数据文本分类
，涉及频繁对象挖掘，具体是一种基于Gspan和TextRank的科技领域本体构建方法。
技术介绍
随着语义Web和信息大爆炸的到来，大规模抽取并表示信息的系统研究变得越发重要。近年来，本体学习逐渐为研究人员熟知，原因是获取信息较为简单且能提供本体领域结构。此外，由于本体能够概念化地描述事物的特征并在它们之间建立逻辑关系，这种结构化的可共享信息被广泛应用，目前主要集中在信息检索、人工智能、信息抽取、异构信息系统集成、语义Web等领域。但是，作为一种较为抽象的概念表达方式，本体在具体应用中受到一些挑战:本体在描述庞大的信息并对其概念化时难度较大；随着本体应用领域实体的多样化，本体描述语言相应也变得更需要具有兼容性。目前，本体构建方法可以分为手工构建的方法和采用自动、半自动技术构建的方法。手工本体的方法往往需要本体专家参与到构建的整个过程，存在着构建成本高、效率低下、主观性强、移植不便等缺点，因而，此类方法正逐步被大量基于自动、半自动技术的本体构建方法所代替，尤其是在科技技术等领域中，大量产业需要利用自动、半自动的进行构建本体，但目前已有的自动、半自动方法存在整体局限性，分类精度不高等问题。
技术实现思路
本专利技术所解决的技术问题在于提供一种基于Gspan和TextRank的科技领域本体构建方法，提高本体完整性以及准确性。为了达到上述技术效果，本专利技术的技术方案如下：1.文档图语义化模型构建针对某个领域内的科技成果语料库，每一篇成果分别进行预处理和标准化操作，通过句子...

【技术保护点】
1.一种基于Gspan和TextRank的科技领域本体构建方法，其特征在于该方法包含如下步骤：步骤1：对科技语料库进行预处理和标准化针对科技语料库内的科技文档通过预处理，得到所需的基础文档信息，接着通过语料标准化处理得到构建文档图所需的术语顶点以及术语关系结果，具体是：a)首先将每一篇科技文档分别进行预处理，通过句子分割、过滤停用词、词性标注、分词得到术语及其与其他术语之间关系模型，作为文档图的边；b)其次将术语出现频次和术语共现频次通过进行归一化处理，分别作为文档图中的术语顶点以及文档图中边的权重；步骤2：基于TextRank构建文档图信息模型依据步骤1得到的术语顶点以及术语关系结果构建文档图，接着利用TextRank算法构建文档图信息模型，具体是：a)首先将术语和术语关系以及其权重构建文档图；b)然后构建文档图信息量模型：文档图通过迭代TextRank算法更新各个术语顶点权重值，以此衡量术语对于文档图的信息量，从初始权重最大的顶点开始迭代；

【技术特征摘要】
1.一种基于Gspan和TextRank的科技领域本体构建方法，其特征在于该方法包含如下步骤：步骤1：对科技语料库进行预处理和标准化针对科技语料库内的科技文档通过预处理，得到所需的基础文档信息，接着通过语料标准化处理得到构建文档图所需的术语顶点以及术语关系结果，具体是：a)首先将每一篇科技文档分别进行预处理，通过句子分割、过滤停用词、词性标注、分词得到术语及其与其他术语之间关系模型，作为文档图的边；b)其次将术语出现频次和术语共现频次通过进行归一化处理，分别作为文档图中的术语顶点以及文档图中边的权重；步骤2：基于TextRank构建文档图信息模型依据步骤1得到的术语顶点以及术语关系结果构建文档图，接着利用TextRank算法构建文档图信息模型，具体是：a)首先将术语和术语关系以及其权重构建文档图；b)然后构建文档图信息量模型：文档图通过迭代TextRank算法更新各个术语顶点权重值，以此衡量术语对于文档图的信息量，从初始权重最大的顶点开始迭代；WS(Vi)表示术语顶点权重，WE(eij)表示边eij的边权重值，通过迭代计算顶点权重值越高说明其对于领域语料库拥有更大的信息量，d表示设定阈值，Neigh(Vi)表示与顶点Vi边相邻的顶点集，通过计算更新各个术语顶点权重值，迭代达到设定阈值后，停止迭代，更新各个术语连接边权重值；步骤3：基于马尔科夫聚类构建候选概念集根据步骤2的文档图信息模型构建文档图矩阵，对于该矩阵通过马尔科夫聚类将术语信息聚类得到关于术语顶点的候选概念集，具体是：a)先根据上述文档图模型构建文档图矩阵；b)再将矩阵标准化，即矩阵内每个值均按照该元素所在列进行归一化，且将主对角线矩阵元素均设为1：c)通过Expansion操作计算矩阵e次幂，即矩阵自身相乘e次...

【专利技术属性】
技术研发人员：徐小良，陈学圣，王宇翔，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人