基于融合标签和文档的网络主题模型的Web服务聚类方法技术

技术编号:26304960 阅读:25 留言:0更新日期:2020-11-10 20:01
本发明专利技术涉及一种基于融合标签和文档的网络主题模型的Web服务聚类方法,首次提出利用图的思想解决Web服务聚类问题,本方法先构建Web服务网络,然后对网络进行图聚类,不仅利用了Web服务文档的文本属性,同时结合了Web服务之间的结构信息,对Web服务之间的关系进行全面的刻画;Web服务网络构建是核心,本方法考虑Web服务标签信息这一重要特征,不仅有效克服Web服务描述文档较短、信息稀疏这一弱点,还使得标签信息在Web服务之间的关系刻画过程中发挥重要作用;对Web服务描述文本和标签分别构建网络,然后将这两种模态的网络进行加权融合,形成Web服务网络;经过在真实数据集上进行了大量的实验验证,本方效果优于其它聚类方法,并且准确率和召回率达到了0.7以上。

【技术实现步骤摘要】
基于融合标签和文档的网络主题模型的Web服务聚类方法
本专利技术涉及Web服务
,更具体地说,涉及一种基于融合标签和文档的网络主题模型的Web服务聚类方法。
技术介绍
Web服务是一种依赖互联网的应用系统,它为互联网用户提供各种数据计算和资源共享服务。随着Web2.0、移动互联网、物联网与云计算等技术的迅猛发展,大量基于SOA(ServiceOrientedArchitecture,面向服务架构)的互联网应用被创建,而Web服务逐渐成为实现SOA架构的主流技术,互联网上的Web服务呈现出快速增长的趋势。据统计,目前最大、最活跃的Web服务发布和共享平台ProgrammableWeb上每天都会产生数十个新的被称为API(ApplicationProgrammingInterface)的Web服务。其中,从2011年6月至2018年3月,网站中的服务数量从3261个增加到19000多个,增幅高达500%。在此背景下,有效地管理Web服务资源和合适Web服务发现已经成为当今人们面临的一个重要挑战,其中,如何辅助用户有效地发现合适的Web服务是面向服务计算领域需要解决的核心问题之一。目前,Web服务聚类作为一种解决服务发现问题的方法被广泛关注,很多研究表明,Web服务聚类将极大地提高Web服务搜索引擎检索相关服务的能力。传统Web服务聚类研究的一个重要限制是,研究人员只关注于利用Web服务的WSDL(WebServicesDescriptionLanguage,Web服务描述语言)文档信息(例如:服务名称、内容、类型、消息、端口),而传统服务聚类方法数据源的单一性限制了聚类的准确性。针对传统Web服务聚类方法的不足,一些学者基于Web服务信息考虑了一些辅助信息,如利用多重融合信息、描述文本、标签、标签共享信息等来提高服务聚类的性能。标签(Tag)作为资源管理和检索的有效方式成为近些年的热点研究对象,有学者提出基于LDA模型(LatentDirichletAllocation)利用标签信息和WSDL文档信息来提高服务聚类性能。尽管该方法的服务聚类效果比传统聚类方法有所提高,但只考虑到标签的语义信息,没有考虑到标签和文档的网络结构信息,不能全面地提高服务聚类的有效性。针对这些方法的不足,本文首先考虑标签信息提高描述文档的有效性,通过主题模型挖掘潜在主题及语义,将服务内容从高维词向量空间映射到低维主题向量空间,实现服务文档的降维。其次,基于主题分布向量构建Web服务网络聚类,可以避免直接构建网络时,因服务规模太大而影响服务聚类效果的问题。
技术实现思路
针对现有技术中存在的不足,本专利技术提供一种基于融合标签和文档的网络主题模型的Web服务聚类方法。本专利技术解决其技术问题所采用的技术方案是:构造一种基于融合标签和文档的网络主题模型的Web服务聚类方法,包括:步骤1,从Web服务数据中提取Web服务的描述文本信息和标签信息;步骤2,对Web服务描述文本信息进行数据清洗;步骤3,用LDA主题模型训练,得到描述文本信息和标签信息的主题概率分布;步骤4,通过文本信息和标签信息的主题概率分布分别构建对应的表征Web服务相似网络;步骤5,重复步骤(3)和步骤(4),得出两种多层Web服务相似网络,将两种Web服务相似网络根据其权重融合为一个Web服务网络;步骤6,用谱聚类方法对Web服务网络进行聚类。其中,对Web服务描述文本信息进行数据清洗的步骤中,将描述文本信息集D={d1,d2,…,dM}和标签信息集T={t1,t2,…,tM}进行数据清洗,数据清洗的方式至少包括:去掉StopWord、去除Punctuation,词形还原。在使用LDA主题模型训练的步骤中,LDA主题模型的输入分别是每个Web服务的文档信息和标签信息,得到文档-主题概率分布θd和标签-主题概率分布θt如公式(1)和公式(2)所示:θd=[θd,k]M×K(1)θt=[θt,k]M×K(2)具体计算如公式(3)和公式(4)所示:其中,表示文档描述文本di中出现主题k的次数,表示文档标签ti中出现主题k的次数,αk是主题的Dirichlet先验。其中,,步骤S4中,构建表征Web服务相似网络时,计算两个表征Web服务相似网络的邻接矩阵,如公式(5)和公式(6)所示:其中,为θd转置,为θt转置。其中,在将Web服务相似网络按照权重叠加融合,生成Web服务网络的步骤中,生成的Web服务网络如公式(7)所示:其中,L为相似网络层数,γ为两种网络融合权重系数。区别于现有技术,本专利技术的一种基于融合标签和文档的网络主题模型的Web服务聚类方法首次提出利用图的思想解决Web服务聚类问题,本方法先构建Web服务网络,然后对网络进行图聚类,不仅利用了Web服务文档的文本属性,同时结合了Web服务之间的结构信息,对Web服务之间的关系进行全面的刻画;Web服务网络构建是核心,本方法考虑Web服务标签信息这一重要特征,不仅有效克服Web服务描述文档较短、信息稀疏这一弱点,还使得标签信息在Web服务之间的关系刻画过程中发挥重要作用;对Web服务描述文本和标签分别构建网络,然后将这两种模态的网络进行加权融合,形成Web服务网络;经过在真实数据集上进行了大量的实验验证,本方效果优于其它聚类方法,并且准确率和召回率达到了0.7以上。附图说明下面将结合附图及实施例对本专利技术作进一步说明,附图中:图1是本专利技术提供的一种基于融合标签和文档的网络主题模型的Web服务聚类方法的流程示意图。图2是本专利技术提供的一种基于融合标签和文档的网络主题模型的Web服务聚类方法中的网络主题模型图。具体实施方式为了对本专利技术的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本专利技术的具体实施方式。参阅图1和图2,本专利技术提供了一种基于融合标签和文档的网络主题模型的Web服务聚类方法,基于融合文档和标签信息,利用LDA得到文档-主题矩阵,然后对矩阵进行运算得到邻接矩阵,构建Web服务网络并用谱聚类聚类。在实际应用过程当中,包括步骤:步骤1,从Web服务数据中提取Web服务的描述文本信息和标签信息;步骤2,对Web服务描述文本信息进行数据清洗;步骤3,用LDA主题模型训练,得到描述文本信息和标签信息的主题概率分布;步骤4,通过文本信息和标签信息的主题概率分布分别构建对应的表征Web服务相似网络;步骤5,重复步骤(3)和步骤(4),得出两种多层Web服务相似网络,将两种Web服务相似网络根据其权重融合为一个Web服务网络;步骤6,用谱聚类方法对Web服务网络进行聚类。其中,对Web服务描述文本信息进行数据清洗的步骤中,将描述文本信息集D={d1,d2,…,dM}和标签信息集T={t1,t2,…,tM}进行数据清洗,数据清本文档来自技高网
...

【技术保护点】
1.一种基于融合标签和文档的网络主题模型的Web服务聚类方法,其特征在于,包括:/n步骤1,从Web服务数据中提取Web服务的描述文本信息和标签信息;/n步骤2,对Web服务描述文本信息进行数据清洗;/n步骤3,用LDA主题模型训练,得到描述文本信息和标签信息的主题概率分布;/n步骤4,通过文本信息和标签信息的主题概率分布分别构建对应的表征Web服务相似网络;/n步骤5,重复步骤(3)和步骤(4),得出两种多层Web服务相似网络,将两种Web服务相似网络根据其权重融合为一个Web服务网络;/n步骤6,用谱聚类方法对Web服务网络进行聚类。/n

【技术特征摘要】
1.一种基于融合标签和文档的网络主题模型的Web服务聚类方法,其特征在于,包括:
步骤1,从Web服务数据中提取Web服务的描述文本信息和标签信息;
步骤2,对Web服务描述文本信息进行数据清洗;
步骤3,用LDA主题模型训练,得到描述文本信息和标签信息的主题概率分布;
步骤4,通过文本信息和标签信息的主题概率分布分别构建对应的表征Web服务相似网络;
步骤5,重复步骤(3)和步骤(4),得出两种多层Web服务相似网络,将两种Web服务相似网络根据其权重融合为一个Web服务网络;
步骤6,用谱聚类方法对Web服务网络进行聚类。


2.根据权利要求1所述的基于融合标签和文档的网络主题模型的Web服务聚类方法,其特征在于,对Web服务描述文本信息进行数据清洗的步骤中,将描述文本信息集D={d1,d2,...,dM}和标签信息集T={t1,t2,...,tM}进行数据清洗,数据清洗的方式至少包括:去掉StopWord、去除Punctuation,词形还原。


3.根据权利要求1所述的基于融合标签和文档的网络主题模型的Web服务聚类方法,其特征在于,在使用LDA主题模型训练的步...

【专利技术属性】
技术研发人员:邓丽平赵偲郑文
申请(专利权)人:太原理工大学
类型:发明
国别省市:山西;14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1