一种基于图卷积神经网络的Web服务分类方法技术

技术编号:23161732 阅读:19 留言:0更新日期:2020-01-21 21:59
本发明专利技术提供一种基于图卷积神经网络的Web服务分类方法,所述方法包括:首先,以WEB服务数据集作为基础语料库,将其中的单词和Web服务描述文档作为单个的节点,构建一个基于单词共现和Web服务描述文档词关系的异构图网络;其次,利用图卷积神经网络对异构图网络进行卷积计算,通过卷积预测结果实现对Web服务的分类。本方法只需少量标注Web服务文档就可以获得较强的分类性能,并且可以自主学习到单词和Web服务描述文档之间的嵌入信息,实验证明,本方法的查准率、查全率、F‑measure、纯度和熵等指标相比于传统Web服务分类方法都有显著提升。

【技术实现步骤摘要】
一种基于图卷积神经网络的Web服务分类方法
本专利技术主要涉及Web服务分类相关
,具体是一种基于图卷积神经网络的Web服务分类方法。
技术介绍
随着Web2.0时代的到来以及Web服务技术的发展,Internet上Web服务数量和种类快速增长,如何找到满足用户需求的Web服务变得越来越困难。为了提高Web服务发现和组合的性能,研究人员提出了许多Web服务分类方法,其中有不少研究工作聚焦于基于功能属性的Web服务分类和推荐。已有的研究表明:Web服务功能描述文本通常具有篇幅短、特征稀疏、信息量少等特点,与短文本十分相似。因此,如何将短文本构造成计算机能够理解的形式则成为了短文本分类的主要问题。针对上述问题,一些研究人员利用从WSDL文档中挖掘出的关键特性来实现Web服务的功能分类。该工作,首先从WSDL文档中提取每个Web服务的特征向量;然后,计算提取出的Web服务特征向量之间的相似度;最后,根据计算出的Web服务特征向量相似度,将Web服务分类为功能相似的组。此外,很多研究人员利用LDA(LatentDirichletAllocation)主题模型或其扩展主题模型,从Web服务描述文档中提取出隐含的主题信息(低维主题向量特征)来表示Web服务,并根据这些主题向量计算Web服务之间的相似度,完成对Web服务的分类。随着研究的深入,近年来对Web服务描述文本中隐藏信息(如词语之间的词序、上下文语境信息等)的深度挖掘也成为研究热点之一。总的来说,以上研究均在一定程度上提高了服务分类的性能,但它们并没有考虑到Web服务描述文本中的单词与描述文本本身之间所隐含的网络结构信息,而利用这些网络结构信息可以进一步提升服务分类的性能。
技术实现思路
为解决目前技术的不足,本专利技术结合现有技术,从实际应用出发,提供一种基于图卷积神经网络的Web服务分类方法,能够切实提高Web服务分类的性能。为实现上述目的,本专利技术的技术方案如下:一种基于图卷积神经网络的Web服务分类方法,所述方法包括:首先,以WEB服务数据集作为基础语料库,将其中的单词和Web服务描述文档作为单个的节点,构建一个基于单词共现和Web服务描述文档词关系的异构图网络,并计算各路径权重;其次,利用图卷积神经网络对异构图网络进行卷积计算,通过卷积预测结果实现对Web服务的分类。进一步的,在构建异构图网络前,首先对Web服务描述文档进行预处理,预处理过程包括如下步骤:(1)、使用python中的自然语言处理工具包pandas从所选的Web服务中分别提取WebAPI的相关信息;(2)、使用python中的自然语言工具包NLTK将单词按照空格进行分词,并且将标点符号和单词分开;(3)、使用python中的自然语言工具包NLTK中的停用词表去除停用词;(4)、对于实质相同的单词进行词干化处理;(5)、提取处理后Web服务描述文档中出现的单词并进行字典化处理;(6)、将处理后的Web服务描述文档和字典中的每一个单词都表示为One-Hot向量,然后将One-Hot向量构建成特征矩阵。进一步的,在构建的异构图网络中,基于Web服务描述文档-单词和单词-单词共同构建节点间的边。进一步的,在构建的异构图网络中,采用词频—逆文本频率计算Web服务描述文档节点和单词节点之间边的权重,基于单词在Web服务描述文档中出现的频率判断其分类能力,采用点互信息计算两个单词节点之间边的权重,以衡量两个单词之间的关联度;其中,针对语料库中所有的Web服务描述文档,使用一个固定大小的滑动窗口来收集单词的共现统计信息。进一步的,权重的计算方法具体包括:将异构图网络中任意两个节点i和j之间的边的权重定义为:一个单词对i,j之间的边的权重的计算过程如下:其中,p(i,j)为单词对的出现频率,p为单个单词的出现频率,#W(i)是语料库中包含单词i的滑动窗口数,#W(i,j)是语料库中包含单词i和单词j的滑动窗口数,#W是语料库中滑动窗口的总数;对于计算的PMI值,只在具有正PMI值的单词对之间添加边。进一步的,在异构图网络构建完成后,利用一个两层的图卷积神经网络对其进行建模和卷积运算,形成单词和Web服务描述文档的嵌入表征向量,其具体过程包括:(1)、对于第一层图卷积神经网络,一个节点的k维特征矩阵计算公式为:其中,是经过归一化处理的对称邻接矩阵,D是图的矩阵,A是图的邻接矩阵,是一个特征矩阵,其中n为节点数,m为节点的特征维度数,是权重矩阵,ρ是激活函数;堆叠多个图卷积神经网络时,将整合更多的邻域信息,得到高阶邻域信息:其中,Wj为权重系数,表示第j个卷积层的权重,j表示图卷积神经网络卷积层的层数,L(0)=χ;(2)、第二层图卷积神经网络将所有节点的特征矩阵与标签集的特征矩阵嵌入成相同的维度,然后输入到softmax分类函数中进行计算:其中,是经过归一化处理的对称邻接矩阵,权重矩阵W0和W1通过梯度下降来训练;令E1和E2则可分别包含第一层与第二层Web服务描述文档和单词的嵌入信息;(3)、将损失函数定义为所有Web服务描述文档的交叉熵误差:其中,yD是具有标签的Web服务描述文档的索引集;F是输出特性的维度,它等于类的数量,Y是标签指示矩阵;通过上述两层图卷积神经网络的卷积计算,得到最后的Web服务分类结果。本专利技术的有益效果:本专利技术中,首次将Web服务数据集作为整个语料库建模成一个“单词&Web服务描述文档”异构图网络,并结合图卷积神经网络学习单词和Web服务描述文档的嵌入信息,通过对Web服务功能描述文本的特征信息进行建模和预测,将Web服务描述文本出现的单词与Web服务描述文本之间所隐含的网络结构信息进行深入挖掘并进行分类预测,将预测结果作为服务分类的最终结果进行集成,本方法只需少量标注Web服务文档就可以获得较强的分类性能,并且可以自主学习到单词和Web服务描述文档之间的嵌入信息,实验证明,本方法的查准率、查全率、F-measure、纯度和熵等指标相比于传统Web服务分类方法都有显著提升。附图说明图1为本专利技术的Web服务分类方法总体框架图;图2为本专利技术的Web服务分类模型结构图;图3为本专利技术的Web服务描述文档对之间的信息交换示意图;图4为不同Web服务分类方法的查准率指标对比图;图5为不同Web服务分类方法的查全率指标对比图;图6为不同Web服务分类方法的F-measure指标对比图;图7为不同Web服务分类方法的熵指标对比图;图8为不同Web服务分类方法的纯度指标对比图。具体实施方式结合附图和具体实施例,对本专利技术作进一步说明。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本发本文档来自技高网
...

【技术保护点】
1.一种基于图卷积神经网络的Web服务分类方法,其特征在于,所述方法包括:首先,以WEB服务数据集作为基础语料库,将其中的单词和Web服务描述文档作为单个的节点,构建一个基于单词共现和Web服务描述文档词关系的异构图网络,并计算各路径权重;其次,利用图卷积神经网络对异构图网络进行卷积计算,通过卷积预测结果实现对Web服务的分类。/n

【技术特征摘要】
1.一种基于图卷积神经网络的Web服务分类方法,其特征在于,所述方法包括:首先,以WEB服务数据集作为基础语料库,将其中的单词和Web服务描述文档作为单个的节点,构建一个基于单词共现和Web服务描述文档词关系的异构图网络,并计算各路径权重;其次,利用图卷积神经网络对异构图网络进行卷积计算,通过卷积预测结果实现对Web服务的分类。


2.如权利要求1所述的一种基于图卷积神经网络的Web服务分类方法,其特征在于,在构建异构图网络前,首先对Web服务描述文档进行预处理,预处理过程包括:
(1)、使用python中的自然语言处理工具包pandas从所选的Web服务中分别提取WebAPI的相关信息;
(2)、使用python中的自然语言工具包NLTK将单词按照空格进行分词,并且将标点符号和单词分开;
(3)、使用python中的自然语言工具包NLTK中的停用词表去除停用词;
(4)、对于实质相同的单词进行词干化处理;
(5)、提取处理后Web服务描述文档中出现的单词并进行字典化处理;
(6)、将处理后的Web服务描述文档和字典中的每一个单词都表示为One-Hot向量,然后将One-Hot向量构建成特征矩阵。


3.如权利要求1所述的一种基于图卷积神经网络的Web服务分类方法,其特征在于,在构建的异构图网络中,基于Web服务描述文档-单词和单词-单词共同构建节点间的边。


4.如权利要求3所述的一种基于图卷积神经网络的Web服务分类方法,其特征在于,在构建的异构图网络中,采用词频—逆文本频率计算Web服务描述文档节点和单词节点之间边的权重,基于单词在Web服务描述文档中出现的频率判断其分类能力,采用点互信息计算两个单词节点之间边的权重,以衡量两个单词之间的关联度;其中,针对语料库中所有的Web服务描述文档,使用一个固定大小的滑动窗口来收集单词的共现统计信息。


5.如权利要求4所述的一种基于图卷积神经网络的Web服务分类方法,其特征在于,权重的计...

【专利技术属性】
技术研发人员:曹步清叶洪帆
申请(专利权)人:湖南科技大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1