一种基于Gspan和TextRank的科技领域本体构建方法技术

技术编号:20045147 阅读:26 留言:0更新日期:2019-01-09 04:14
本发明专利技术公开了一种基于Gspan和TextRank的科技领域本体构建方法。本发明专利技术包含以下步骤:对科技领域语料库中数据进行预处理,得到标准化的术语和术语关系以及各自权重且以此建立文档图模型;对文档图模型通过TextRank算法构建文档图信息量模型;通过对文档图信息量模型进行马尔科夫聚类得到候选概念集;并且基于Gspan频繁子图挖掘算法对文档图信息量模型计算得到本体术语关系图;将候选概念集合本体术语关系图结合形成科技领域本体。该方法在构建科技领域本体过程中综合考虑术语信息量在子图挖掘中的作用,以此改进Gspan频繁子图挖掘算法,使本体构建更加完整准确,从而提高本体构建的可靠性、有效性。

【技术实现步骤摘要】
一种基于Gspan和TextRank的科技领域本体构建方法
本专利技术属于大数据文本分类
,涉及频繁对象挖掘,具体是一种基于Gspan和TextRank的科技领域本体构建方法。
技术介绍
随着语义Web和信息大爆炸的到来,大规模抽取并表示信息的系统研究变得越发重要。近年来,本体学习逐渐为研究人员熟知,原因是获取信息较为简单且能提供本体领域结构。此外,由于本体能够概念化地描述事物的特征并在它们之间建立逻辑关系,这种结构化的可共享信息被广泛应用,目前主要集中在信息检索、人工智能、信息抽取、异构信息系统集成、语义Web等领域。但是,作为一种较为抽象的概念表达方式,本体在具体应用中受到一些挑战:本体在描述庞大的信息并对其概念化时难度较大;随着本体应用领域实体的多样化,本体描述语言相应也变得更需要具有兼容性。目前,本体构建方法可以分为手工构建的方法和采用自动、半自动技术构建的方法。手工本体的方法往往需要本体专家参与到构建的整个过程,存在着构建成本高、效率低下、主观性强、移植不便等缺点,因而,此类方法正逐步被大量基于自动、半自动技术的本体构建方法所代替,尤其是在科技技术等领域中,大量产业需要利用自动、半自动的进行构建本体,但目前已有的自动、半自动方法存在整体局限性,分类精度不高等问题。
技术实现思路
本专利技术所解决的技术问题在于提供一种基于Gspan和TextRank的科技领域本体构建方法,提高本体完整性以及准确性。为了达到上述技术效果,本专利技术的技术方案如下:1.文档图语义化模型构建针对某个领域内的科技成果语料库,每一篇成果分别进行预处理和标准化操作,通过句子分割、过滤停用词、词性标注、分词等操作得到术语及其与其他术语之间关系模型(术语-动词-术语),分别作为文档图中的术语顶点和文档图的边,其次将术语出现频次和术语共现频次通过进行归一化处理,分别作为文档图顶点和边的权重。G=(V,E,α,β)V代表术语顶点,代表术语顶点的关系即边,α:V→∑V代表术语顶点权重,β:E→∑E代表边权重,Vi表示顶点i的id,Ei表示边id。2.构建文档图领域信息量模型2.1文档图通过迭代TextRank算法更新各个术语顶点权重值1)根据术语初始权重值将术语顶点按照降序排序;2)根据顺序将术语分别调用TextRank公式更新其权重值;其中,WS(Vi)表示术语顶Vi点权重,通过迭代计算顶点权重值越高说明其对于领域语料库拥有更大的信息量,WE(eij)表示边eij的边权重值(eij表示顶点Vi与顶点Vj之间的边),d表示设定阈值,Neigh(Vi)表示与顶点Vi边相邻的顶点集,通过计算更新各个术语顶点权重值,该算法通过将术语顶点与其他邻接以及次级邻接术语顶点相计算,判断连通程度,衡量各个术语顶点信息量;3)当迭代次数达到预先指定次数,停止迭代更新各个术语顶点权重值;2.2文档图通过迭代边权重算法更新各个术语边权重1)根据顶点权重值更新文档图边权重值;同理计算后边权重值越高说明对于领域语料库拥有更大信息量。3.抽取文档图候选概念1)根据文档图顶点以及边权重构建关联邻接矩阵(术语顶点数*术语顶点数),矩阵各个点的值代表对应的两个术语顶点所连的边权重值,若两点间无连接,则置为0。MG=AG×D-1MG表示文档图AG的邻接矩阵,D表示对角矩阵;2)设置文档图矩阵主对角线的值均为1。(主对角线代表顶点自旋,由于后续操作矩阵进行奇数次幂扩大时,主对角线的值为0会影响结果,故统一将其设置为1(即所有顶点增加一条自循环的边));3)根据2)的各个文档图的邻接矩阵分别进行标准化;Eab表示矩阵行a列b的值,K表示矩阵阶数;4)Expansion操作即根据设置阈值e,计算文档图矩阵的第e次幂;表示文档图矩阵,e表示求其e次幂,Expansion操作增加整个文档图的连通性。5)Inflation操作即求矩阵中每个元素的r次幂,重复操作3);Inflation操作增大边信息量差别度。6)迭代操作4),操作5),直至矩阵状态稳定不变(即收敛);7)根据收敛矩阵,循环判断矩阵每一行是否有符合大于设定阈值min的点存在,若有则将该行视为候选概念Ck,否则跳过。4.构建基于频繁子图挖掘的本体领域根据操作1,2步预处理的n个文档图,用于查找频繁子图根据操作3得到的候选概念构造候选概念集C={C1,C2,C3,...,Ck}1)分别将n个文档图中顶点和边根据各自权重值降序排列,过滤除去权重值小于最小支持度minsup的顶点以及边,重新降序排序,且根据其排名分别赋予其标号值lab表示其排名;2)按操作1)标号顺序分别将n个文档图信息输入;顶点:输入顶点标号lab_v,顶点id-Vi边:输入顶点A-标号lab_A,顶点B-标号lab_B,边id-Ei3)构建边的DFS编码;E=(V0,V1,A,B,a)V0,V1即分别表示顶点id,A,B分别为顶点V0,V1的标号,a表示边id。G={E1,E2,...,En}图由以上编码构成的边组成。4)构建频繁子图的约束函数方法;约束函数公式:I(g)表示图信息量,iv(v)表示单个顶点信息量,ie(e)表示单条边信息量;D′,D″表示图数据库的子集,d′,d″表示子图。5)Gspan挖掘频繁子图SubMining;a)选取标号最小的边Emin并且将该含有该边的图加入图集,在图集中迭代判断Emin是否在该图中符合最小DFS编码(五元组从左到右依次比较,先小于另一条边的边则为小DFS编码);b)若符合将其标记,且在该边的基础上扩展图集中潜在的可行边,构成子图继续挖掘,一直迭代,直到不再是最小DFS编码,则该子图挖掘结束;c)判断该子图是否符合操作3)的约束函数方法阈值,若符合则加入结果集,然后从标号中未被标记过的边开始重新挖掘。6)结合操作3的概念集C与结果集相结合形成概念关系图即科技领域本体。本专利技术的有益效果:本专利技术提出基于Gspan和TextRank的科技领域本体构建方法,以满足科技领域的特殊需求,该算法包含四个步骤,构建基于语义化模型的文档图;构建文档图领域信息量模型,即针对文档图衡量各个术语以及术语之间关系对领域语料库的信息量;抽取文档图候选概念,即对于文档图进行聚类;构建基于频繁子图挖掘的本体领域,针对输入的n个预处理的文档图,查找出符合全局的本体结构图,结合候选概念形成科技领域本体。本专利技术使本体构建更加完整准确,从而提高本体构建的可靠性、有效性。附图说明图1是本专利技术流程示意图;图2是本专利技术具体实施范例结果展示。具体实施方式下面结合附图对本专利技术进行进一步说明。图1描述了本专利技术的流程图,下面结合图1给出详细说明。步骤1、科技领域语料库预处理及标准化如图1所示,构建文档图前,将语料库内每一篇成果分别进行预处理和标准化操作,通过句子分割,过滤停用词,词性标注,分词,得到术语及其与其他术语之间关系模型(术语-动词-术语)即边,将术语出现频次和术语共现频次通过进行归一化处理,分别作为其权重。例子:针对“人工智能”领域,抽取一部分领域内论文进行处理:术语(数值为顶点权重):模式识别-0.0002324;特征提取-0.00069735;遗传算法-0.0009298;数据挖掘-0.001859......术语关系边(数值为边权重):聚本文档来自技高网...

【技术保护点】
1.一种基于Gspan和TextRank的科技领域本体构建方法,其特征在于该方法包含如下步骤:步骤1:对科技语料库进行预处理和标准化针对科技语料库内的科技文档通过预处理,得到所需的基础文档信息,接着通过语料标准化处理得到构建文档图所需的术语顶点以及术语关系结果,具体是:a)首先将每一篇科技文档分别进行预处理,通过句子分割、过滤停用词、词性标注、分词得到术语及其与其他术语之间关系模型,作为文档图的边;b)其次将术语出现频次和术语共现频次通过进行归一化处理,分别作为文档图中的术语顶点以及文档图中边的权重;步骤2:基于TextRank构建文档图信息模型依据步骤1得到的术语顶点以及术语关系结果构建文档图,接着利用TextRank算法构建文档图信息模型,具体是:a)首先将术语和术语关系以及其权重构建文档图;b)然后构建文档图信息量模型:文档图通过迭代TextRank算法更新各个术语顶点权重值,以此衡量术语对于文档图的信息量,从初始权重最大的顶点开始迭代;

【技术特征摘要】
1.一种基于Gspan和TextRank的科技领域本体构建方法,其特征在于该方法包含如下步骤:步骤1:对科技语料库进行预处理和标准化针对科技语料库内的科技文档通过预处理,得到所需的基础文档信息,接着通过语料标准化处理得到构建文档图所需的术语顶点以及术语关系结果,具体是:a)首先将每一篇科技文档分别进行预处理,通过句子分割、过滤停用词、词性标注、分词得到术语及其与其他术语之间关系模型,作为文档图的边;b)其次将术语出现频次和术语共现频次通过进行归一化处理,分别作为文档图中的术语顶点以及文档图中边的权重;步骤2:基于TextRank构建文档图信息模型依据步骤1得到的术语顶点以及术语关系结果构建文档图,接着利用TextRank算法构建文档图信息模型,具体是:a)首先将术语和术语关系以及其权重构建文档图;b)然后构建文档图信息量模型:文档图通过迭代TextRank算法更新各个术语顶点权重值,以此衡量术语对于文档图的信息量,从初始权重最大的顶点开始迭代;WS(Vi)表示术语顶点权重,WE(eij)表示边eij的边权重值,通过迭代计算顶点权重值越高说明其对于领域语料库拥有更大的信息量,d表示设定阈值,Neigh(Vi)表示与顶点Vi边相邻的顶点集,通过计算更新各个术语顶点权重值,迭代达到设定阈值后,停止迭代,更新各个术语连接边权重值;步骤3:基于马尔科夫聚类构建候选概念集根据步骤2的文档图信息模型构建文档图矩阵,对于该矩阵通过马尔科夫聚类将术语信息聚类得到关于术语顶点的候选概念集,具体是:a)先根据上述文档图模型构建文档图矩阵;b)再将矩阵标准化,即矩阵内每个值均按照该元素所在列进行归一化,且将主对角线矩阵元素均设为1:c)通过Expansion操作计算矩阵e次幂,即矩阵自身相乘e次...

【专利技术属性】
技术研发人员:徐小良陈学圣王宇翔
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1