一种基于多源数据特征融合的web服务分类方法技术

技术编号:33127252 阅读:14 留言:0更新日期:2022-04-17 00:38
本发明专利技术公开了一种基于多源数据特征融合的web服务分类方法,包括:S1:获取web服务的N个源数据,其中N不小于2;S2:对所述源数据分别进行预处理;S3:将预处理后的所述源数据进行特征提取,得到N个相应的输出特征矩阵;S4:将每个所述输出特征矩阵均输入N个多模态注意力模型和特征融合模型进行特征融合,得到分类特征向量;S5:将所述分类特征向量输入全连接层,输出分类结果。本发明专利技术提供的一种基于多源数据特征融合的web服务分类方法,与现有技术相比较,可以同时利用多种web服务的数据,对多种不同来源的web服务数据特征进行充分挖掘和融合,有效提高了web服务分类的准确率。有效提高了web服务分类的准确率。有效提高了web服务分类的准确率。

【技术实现步骤摘要】
一种基于多源数据特征融合的web服务分类方法


[0001]本专利技术属于web服务自动分类
,涉及一种基于多源数据特征融合的web服务分类方法。

技术介绍

[0002]软件复用作为一种降低软件开发成本的重要方法,一直是软件工程领域研究的重要课题。web服务是一个平台独立的、低耦合的、自包含的、基于可编程的web的应用程序,大大简化了异构组件的复用难度。近年来,随着云计算技术的发展,越来越多高质量的web服务被发布在公共服务平台,供全世界的开发者调用,这是软件复用的重要资源。web服务公共存储库为服务发布者制定了服务发布规范,包括服务描述、服务名称、URL和搜索关键字(标签或标记)。
[0003]软件开发中复用web服务的关键是服务分类,即为海量的公共服务定义类别,以满足二次开发服务检索的需求。服务检索有两种常用的方法。第一种是基于关键词的方法,即服务调用者根据一个或者多个关键字检索选服务。第二种是基于语义web服务(如WDSL

S、OWL

S、WSMO等)的语义搜索。基于语义搜索的服务发现方法准确性更高,但这种方法高度依赖公共服务库中所有服务的语义信息和服务查询中的语义信息。因此,在实际使用过程中,这种方法存在很大的局限性。此外,基于语义搜索的服务发现方法效率远远低于基于关键字的方法。因此,在实践中,基于关键词的服务发现方法应用更为广泛。
[0004]基于关键词的服务发现方法的效果很大程度上取决于服务关键词的质量。以往服务关键词往往是由服务发布者人工选择的。然而,服务发布人员手工选择的服务关键词往往是不充分、不准确的。这主要是因为服务开发人员很难从海量的候选关键词中选择出对于当前服务最合适的关键词,而且开发人员也很难了解所有的候选关键词。
[0005]由于人工分配关键词的局限性大大限制了服务发现的效果,开始出现了通过机器学习方法自动进行关键词预测和标签推荐的工作。机器学习的服务关键词分配方法首先提取和服务有关的特征信息,然后采用合适的机器学习算法对特征进行分类,从而在候选库中选择对应的关键词。
[0006]目前现有的服务分类方法主要有基于传统方法和基于深度学习方法两类。
[0007]在传统方法中,分类和聚类是两种主流的服务类别分组方法。服务聚类是将具有相同特征的web服务汇聚到同一个分组中,使得同一类群服务之间的相似性较大,而不同类群的服务之间差异较大。聚类本身属于无监督学习,因此采用聚类方法时,这些web服务数据是不需要指定标签的。服务聚类经常会用于服务发现中,通过功能描述预先对web服务进行聚类,在请求者搜索服务时可以集中在相似的组内进行查找,剔除了无关服务对服务发现的干扰,从而提高服务发现的效率。分类是根据已知标签的数据集的训练结果对未知标签的文档指定类标号。服务分类同样可以改进web服务发现与组合的性能,而且由于分类是有监督学习,分类结果会有明确的类别标签,因而不需要人工的参与。
[0008]传统方法都取得了一定的成果,但传统机器学习算法的效果不可避免受到特征工
程质量的影响,随着深度学习的发展,越来越多的服务分类研究转向了深度学习。随着深度学习算法的快速发展,近年来机器学习领域取得了重大进展。深度学习方法取得优异的成绩主要得益于深度学习模型强大的特征提取和表示能力,近年来,深度学习模型也被广泛应用于服务分类任务中,但是多数方法太过简单,没有充分利用多源数据信息,准确率低。

技术实现思路

[0009]针对现有技术中存在的问题,本专利技术的目的在于提供一种基于多源数据特征融合的web服务分类方法,至少部分解决上述技术问题。
[0010]本专利技术实施例提供了一种基于多源数据特征融合的web服务分类方法,包括:
[0011]S1:获取web服务的N个源数据,其中N不小于2;
[0012]S2:对所述源数据分别进行预处理;
[0013]S3:将预处理后的所述源数据进行特征提取,得到N个相应的输出特征矩阵;
[0014]S4:将每个所述输出特征矩阵均输入N个多模态注意力模型和特征融合模型进行特征融合,得到分类特征向量;
[0015]S5:将所述分类特征向量输入全连接层,输出分类结果。
[0016]进一步地,所述步骤S2,包括:
[0017]对所述源数据分别进行数据清洗和数据转换,用于去除无效值和数据格式转换。
[0018]进一步地,所述步骤S3,包括:
[0019]将预处理后的所述源数据输入BERT模型进行特征提取;
[0020]N个所述源数据得到相应的N个输出特征矩阵。
[0021]进一步地,所述多模态注意力模型的构建过程,包括:
[0022]将所述输出特征矩阵输入3个全连接网络,每个所述输出特征矩阵得到3个特征向量;所述3个特征向量包括第一特征向量q、第二特征向量k和第三特征向量v;
[0023]将当前所述输出特征矩阵的所述第二特征向量k与N

1个所述输出特征矩阵中对应的所述第二特征向量k进行组合,得到第一组合特征矩阵K;将当前所述输出特征矩阵的所述第三特征向量v与N

1个所述输出特征矩阵中对应的所述第三特征向量v进行组合,得到第二组合特征矩阵V;
[0024]将所述第一特征向量q与所述第一组合特征矩阵K进行乘积运算得到score向量,并所述score向量进行softmax函数处理;
[0025]将函数处理后的所述score向量与所述第二组合特征矩阵V进行乘积运算,得到当前融合向量;
[0026]将当前所述输出特征矩阵与当前所述融合向量加和,得到第一加和矩阵;
[0027]将所述第一加和矩阵输入前馈神经网络进行处理,得到当前融合矩阵;
[0028]将所述第一加和矩阵与所述融合矩阵进行加和,得到第二加和矩阵。
[0029]进一步地,所述特征融合模型的构建过程,包括:
[0030]分别抽取3个所述第二加和矩阵的第一行,作为待处理向量;
[0031]对3个所述带处理向量分别进行赋权;
[0032]对赋权后的3个所述带处理向量按位进行加权求和,得到分类特征向量。
[0033]本专利技术实施例提供的一种基于多源数据特征融合的web服务分类方法,与现有技
术相比较,可以同时利用多种web服务的数据,对多种不同来源的web服务数据特征进行充分挖掘和融合,有效提高了web服务分类的准确率。
[0034]本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
[0035]图1为本专利技术实施例提供的一种基于多源数据特征融合的web服务分类方法框图;
[0036]图2为本专利技术实施例提供的一种基于多源数据特征融合的web服务分类方法整体结构示意图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多源数据特征融合的web服务分类方法,其特征在于,包括:S1:获取web服务的N个源数据,其中N不小于2;S2:对所述源数据分别进行预处理;S3:将预处理后的所述源数据进行特征提取,得到N个相应的输出特征矩阵;S4:将每个所述输出特征矩阵均输入N个多模态注意力模型和特征融合模型进行特征融合,得到分类特征向量;S5:将所述分类特征向量输入全连接层,输出分类结果。2.根据权利要求1所述的一种基于多源数据特征融合的web服务分类方法,其特征在于,所述步骤S2,包括:对所述源数据分别进行数据清洗和数据转换,用于去除无效值和数据格式转换。3.根据权利要求1所述的一种基于多源数据特征融合的web服务分类方法,其特征在于,所述步骤S3,包括:将预处理后的所述源数据输入BERT模型进行特征提取;N个所述源数据得到相应的N个输出特征矩阵。4.根据权利要求1所述的一种基于多源数据特征融合的web服务分类方法,其特征在于,所述多模态注意力模型的构建过程,包括:将所述输出特征矩阵输入3个全连接网络,每个所述输出特征矩阵得到3个特征向量;所述3个特征向量包括第一特征向量q、第二特征向量k和第三特征...

【专利技术属性】
技术研发人员:张晶雷昌然
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1