【技术实现步骤摘要】
基于非结构化文本信息的云服务推荐方法
本专利技术涉及计算机领域,尤其涉及一种基于非结构化文本信息的云服务推荐方法。
技术介绍
新兴的云计算技术提供了一种新的服务模式,使我们能够通过互联网访问计算资源、存储和网络基础设施,而无需预先支付基础设施成本。随着云计算技术的飞速发展,许多信息资源都以云服务的形式在公共服务器上进行封装和发布,谷歌、IBM、微软、亚马逊等公司选择通过公共服务器提供云服务产品。用户可以根据需要选择真正适合自己的云服务,以便降低基础设施成本和提高运营效率。然而,随着公共服务器上云服务的数量和类型的迅速增加,用户在如此众多的云服务面前很难选择适合的云服务,云服务推荐应运而生。目前大多基于QoS(服务质量)向用户推荐云服务,但是,由于不同用户的地理位置,网络环境、开发工具不尽相同,所获得的服务质量会动态变化,从而影响推荐的准确度。
技术实现思路
本专利技术实施例提供一种基于非结构化文本信息的云服务推荐方法,能够提高云服务推荐准确度。本专利技术实施例采用如下技术方案:一种基于非结构化文本信息的云服务推荐方法,包括:S1、获取多个云服务的描述性文本信息;S2、 ...
【技术保护点】
1.一种基于非结构化文本信息的云服务推荐方法,其特征在于,包括:S1、获取多个云服务的描述性文本信息;S2、根据所述多个云服务的描述性文本信息应用HDP模型对所述多个云服务进行聚类,得到至少一类云服务;S3、获取用户点击的云服务,在所述至少一类云服务中查找所述用户点击的云服务所在的目标类云服务,确定所述目标类云服务中云服务的排序;S4、根据所述目标类云服务中云服务的排序,向所述用户推荐云服务。
【技术特征摘要】
1.一种基于非结构化文本信息的云服务推荐方法,其特征在于,包括:S1、获取多个云服务的描述性文本信息;S2、根据所述多个云服务的描述性文本信息应用HDP模型对所述多个云服务进行聚类,得到至少一类云服务;S3、获取用户点击的云服务,在所述至少一类云服务中查找所述用户点击的云服务所在的目标类云服务,确定所述目标类云服务中云服务的排序;S4、根据所述目标类云服务中云服务的排序,向所述用户推荐云服务。2.根据权利要求1所述的方法,其特征在于,所述S2包括:S21、对所述获取多个云服务的描述性文本信息进行预处理得到处理后的文本集,所述预处理包括以下任一种或者至少两种组合:分词,将所有的文本转化为小写字母,并过滤掉标点符号、停用词、高频词、低频词以及乱码字符;S22、将所述文本集中的所有特征词建立一个字典,给每个特征词分配一个唯一的ID,并统计每个词在当前文本中出现的频率,得到所述文本集的特征分布矩阵;S23、将所述文本集特征分布矩阵输入到HDP模型中,得到所述文本集的主题分布以及每个云服务对应的文本-主题分布矩阵,完成对所述多个云服务的聚类。3.根据权利要求1所述的方法,其特征在于,所述S23包括:S231、将γ作为文本-主题层级上狄利克雷过程的超参数,将α0作为主题-词层级上狄利克雷过程的超参数;各个云服务的描述性文本的主题服从狄利克雷过程H分布G0~DP(γ,H),Gj~DP(α0,G0),词服从F多项式分布θji|Gj~Gj,xji|θji~F(θji),H与F共轭;观测变量xji表示第j个描述性文本中第i个观测的词,观测变量的分布参数θji视为单词,指示变量tji为第j个描述性文本中第i个观测词对应的中介,T为所有中介tji的集合,φk为从基分布H中采样得到的主题分布,kjt表示第j个描述性文本中第t个中介所对应的主题,K为所有kjt的集合,K为主题的数量,表示第j个描述性文本中第t个中介中包含的单词数,m**表示所有云服务描述性文本中的中介数,m*k表示所有云服务描述性文本中属于第k个主题的中介数,Xjt表示第j个描述性文本中属于中介t的所有词xji的集合;S232、令F(θji)分布的密度函数为f(·),H分布的密度函数为h(·),观测变量xji的指示因子zji=k;当观测数据选择已存在的中介时,条件分布为:表示在给定除了xji以外的属于k的所有单词的情况下,xji属于第k个主题的条件密度,其中-xji表示除了xji以外的属于k的所有单词,分子表示xji被分配主题后概率和,分母表示xji不属于φk的概率和;当观测数据选择新的中介时,条件分布为:其中,右边第一项表示新的中介选择已存在的主题的概率和,第二项是新的中介选择一个新的主题的概率;S233、为每个单词分配一个中介,如公式(3)所示,单词选择某个中介与这个中介中包含的单词数成正比,同时也可以选择一个从G0中采样出来的新的中介,如果中介已存在,使用公式(1)计算观测数据的条件分布如果中介是新的,使用公式(2)计算观测数据的条件分布p(xji);S234、为每个中介分配一个主题,如公式(4)所示,中介选择某个主题与文本集中属于第k个主题的中介数m*k成正比,同时也可以选择一个从H中采样出来的新的主题;S235、重复S233和S234,多次迭代,得到云服务文本集的主题分布及每个云服务的文本-主题分布矩阵,根据主题占比大小排序,选择概率最大的主题作为当前文...
【专利技术属性】
技术研发人员:姜元春,陶丹丹,刘业政,孙见山,孙春华,陈夏雨,刘春丽,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。