一种云环境资源关注点的采集方法、装置及服务器制造方法及图纸

技术编号:14738616 阅读:57 留言:0更新日期:2017-03-01 12:15
本发明专利技术提供了一种云环境资源关注点的采集方法、装置及服务器,其中,云环境资源关注点的采集方法包括:汇总获取满足第一预设条件的词汇;计算所述满足第一预设条件的词汇的重要程度特征向量;根据所述重要程度特征向量得到云环境资源关注点;其中,所述重要程度特征向量用以表征每一对应所述满足第一预设条件的词汇在一个统一资源定位器URL网页中所占的权重。本发明专利技术提供的方案汇总获取满足第一预设条件的词汇,计算对应词汇的重要程度特征向量,进而得到云环境资源关注点;实现了可靠高效地计算、分析、挖掘和提取云环境资源关注点的目的,解决了现有技术中由传统算法获取云环境资源关注点耗时长的问题。

【技术实现步骤摘要】

本专利技术涉及云计算资源
,特别是指一种云环境资源关注点的采集方法、装置及服务器
技术介绍
众所周知,“云”由能进行自我维护和管理的计算服务器、存储服务器、带宽资源、软件和应用等虚拟计算资源构成,“云”就是一种资源池。“云计算”是把所有计算资源集中起来,动态创建且高度虚拟化的资源池,所以如何获取运营商对云环境资源(包括物理资源和虚拟资源)的关注点,从而为运营商高效使用云资源提供帮助是备受关注的一个问题。但是,现有技术中获取云环境资源关注点的传统算法在单机模式运行,容易受到处理器速度、存储容量等诸多计算机硬件性能的阻碍,并且存在耗时长、可扩展性差,随着用户日志增多,算法的复杂度呈多项式增长,算法性能越来越差等问题。
技术实现思路
本专利技术的目的在于提供一种云环境资源关注点的采集方法、装置及服务器,解决现有技术中由传统算法获取云环境资源关注点耗时长的问题。为了解决上述技术问题,本专利技术实施例提供一种云环境资源关注点的采集方法,包括:汇总获取满足第一预设条件的词汇;计算所述满足第一预设条件的词汇的重要程度特征向量;根据所述重要程度特征向量得到云环境资源关注点;其中,所述重要程度特征向量中的每一特征值用以表征每一对应所述满足第一预设条件的词汇在一个统一资源定位器URL网页中所占的权重。可选地,所述根据所述重要程度特征向量得到云环境资源关注点的步骤包括:将所述重要程度特征向量进行数据变换,得到对应的频度;将所述频度进行顺序排列;依次获取排列后满足第二预设条件的频度;根据获取到的频度得到对应的云环境资源关注点。可选地,所述汇总获取满足第一预设条件的词汇的步骤包括:汇总满足第三预设条件的词汇以及其在资源相关URL网页中对应出现的频率;根据所述频率对所述满足第三预设条件的词汇进行排序;依次获取排序后所述满足第三预设条件的词汇,直到获取到的所述满足第三预设条件的词汇对应的频率与所有所述满足第三预设条件的词汇对应的频率达到一预设阈值;将获取到的所述满足第三预设条件的词汇保存为所述满足第一预设条件的词汇。可选地,在所述汇总获取满足第一预设条件的词汇之前,所述采集方法还包括:从样本日志文件中提取资源相关URL;爬取资源相关URL的网页内容,将爬取到的所述网页内容作为待分类文本;将所述待分类文本进行分词,获得所述满足第三预设条件的词汇。可选地,所述将所述待分类文本进行分词,获得所述满足第三预设条件的词汇的步骤包括:将所述待分类文本进行分词,获得资源相关词汇;将所述资源相关词汇转化为数字向量;将所述数字向量进行处理,得到参数特征向量;根据所述参数特征向量得到序参量;根据所述序参量得到所述满足第三预设条件的词汇。可选地,所述根据序参量得到所述满足第三预设条件的词汇的步骤具体为:利用所述序参量和排名算法得到所述满足第三预设条件的词汇。可选地,在所述从样本日志文件中提取资源相关统一资源定位器URL之前,所述采集方法还包括:定期采集初始日志文件;根据所述初始日志文件的日志数据得到所述样本日志文件。可选地,所述根据所述初始日志文件的日志数据得到所述样本日志文件的步骤包括:在接收到网络客户端根据网页打开指令发送的信息请求时,根据所述信息请求从所述初始日志文件中获取打开对应网页所需的信息;将所述打开对应网页所需的信息保存为所述样本日志文件。本专利技术还提供了一种云环境资源关注点的采集装置,包括:第一处理模块,用于汇总获取满足第一预设条件的词汇;计算模块,用于计算所述满足第一预设条件的词汇的重要程度特征向量;第二处理模块,用于根据所述重要程度特征向量得到云环境资源关注点;其中,所述重要程度特征向量中的每一特征值用以表征每一对应所述满足第一预设条件的词汇在一个统一资源定位器URL网页中所占的权重。可选地,所述第二处理模块包括:变换子模块,用于将所述重要程度特征向量进行数据变换,得到对应的频度;第一排序子模块,用于将所述频度进行顺序排列;第一获取子模块,用于依次获取排列后满足第二预设条件的频度;第一处理子模块,用于根据获取到的频度得到对应的云环境资源关注点。可选地,所述第一处理模块包括:汇总子模块,用于汇总满足第三预设条件的词汇以及其在资源相关URL网页中对应出现的频率;第二排序子模块,用于根据所述频率对所述满足第三预设条件的词汇进行排序;第二获取子模块,用于依次获取排序后所述满足第三预设条件的词汇,直到获取到的所述满足第三预设条件的词汇对应的频率与所有所述满足第三预设条件的词汇对应的频率达到一预设阈值;第一保存子模块,用于将获取到的所述满足第三预设条件的词汇保存为所述满足第一预设条件的词汇。可选地,所述采集装置还包括:提取模块,用于所述第一处理模块执行相关操作之前,从样本日志文件中提取资源相关URL;爬取模块,用于爬取资源相关URL的网页内容,将爬取到的所述网页内容作为待分类文本;第三处理模块,用于将所述待分类文本进行分词,获得所述满足第三预设条件的词汇。可选地,所述第三处理模块包括:第二处理子模块,用于将所述待分类文本进行分词,获得资源相关词汇;转化子模块,用于将所述资源相关词汇转化为数字向量;第三处理子模块,用于将所述数字向量进行处理,得到参数特征向量;第四处理子模块,用于根据所述参数特征向量得到序参量;第五处理子模块,用于根据所述序参量得到所述满足第三预设条件的词汇。可选地,所述第五处理子模块具体用于:利用所述序参量和排名算法得到所述满足第三预设条件的词汇。可选地,所述采集装置还包括:采集模块,用于所述提取模块执行相关操作之前,定期采集初始日志文件;第四处理模块,用于根据所述初始日志文件的日志数据得到所述样本日志文件。可选地,所述第四处理模块包括:第三获取子模块,用于在接收到网络客户端根据网页打开指令发送的信息请求时,根据所述信息请求从所述初始日志文件中获取打开对应网页所需的信息;第二保存子模块,用于将所述打开对应网页所需的信息保存为所述样本日志文件。本专利技术还提供了一种服务器,包括:上述的云环境资源关注点的采集装置。本专利技术的上述技术方案的有益效果如下:上述方案中,所述云环境资源关注点的采集方法通过汇总获取满足第一预设条件的词汇,计算对应词汇的重要程度特征向量,进而得到云环境资源关注点;实现了可靠高效地计算、分析、挖掘和提取云环境资源关注点的目的,解决了现有技术中由传统算法获取云环境资源关注点耗时长的问题。附图说明图1为本专利技术实施例一中云环境资源关注点的采集方法流程示意图;图2为本专利技术实施例二中云环境资源关注点的采集装置结构示意图。具体实施方式为使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。本专利技术针对现有的技术中由传统算法获取云环境资源关注点耗时长的问题,提供了多种解决措施,具体如下:实施例一参见图1,本专利技术实施例一中云环境资源关注点的采集方法包括:步骤11:汇总获取满足第一预设条件的词汇;步骤12:计算所述满足第一预设条件的词汇的重要程度特征向量;步骤13:根据所述重要程度特征向量得到云环境资源关注点;其中,所述重要程度特征向量中的每一特征值用以表征每一对应所述满足第一预设条件的词汇在一个统一资源定位器URL网页中所占的权重,优选为TF-IDF特征向量。第一预设条件实质为获取词汇的个数限制本文档来自技高网...
一种云环境资源关注点的采集方法、装置及服务器

【技术保护点】
一种云环境资源关注点的采集方法,其特征在于,包括:汇总获取满足第一预设条件的词汇;计算所述满足第一预设条件的词汇的重要程度特征向量;根据所述重要程度特征向量得到云环境资源关注点;其中,所述重要程度特征向量中的每一特征值用以表征每一对应所述满足第一预设条件的词汇在一个统一资源定位器URL网页中所占的权重。

【技术特征摘要】
1.一种云环境资源关注点的采集方法,其特征在于,包括:汇总获取满足第一预设条件的词汇;计算所述满足第一预设条件的词汇的重要程度特征向量;根据所述重要程度特征向量得到云环境资源关注点;其中,所述重要程度特征向量中的每一特征值用以表征每一对应所述满足第一预设条件的词汇在一个统一资源定位器URL网页中所占的权重。2.如权利要求1所述的采集方法,其特征在于,所述根据所述重要程度特征向量得到云环境资源关注点的步骤包括:将所述重要程度特征向量进行数据变换,得到对应的频度;将所述频度进行顺序排列;依次获取排列后满足第二预设条件的频度;根据获取到的频度得到对应的云环境资源关注点。3.如权利要求1所述的采集方法,其特征在于,所述汇总获取满足第一预设条件的词汇的步骤包括:汇总满足第三预设条件的词汇以及其在资源相关URL网页中对应出现的频率;根据所述频率对所述满足第三预设条件的词汇进行排序;依次获取排序后所述满足第三预设条件的词汇,直到获取到的所述满足第三预设条件的词汇对应的频率与所有所述满足第三预设条件的词汇对应的频率达到一预设阈值;将获取到的所述满足第三预设条件的词汇保存为所述满足第一预设条件的词汇。4.如权利要求3所述的采集方法,其特征在于,在所述汇总获取满足第一预设条件的词汇之前,所述采集方法还包括:从样本日志文件中提取资源相关URL;爬取资源相关URL的网页内容,将爬取到的所述网页内容作为待分类文本;将所述待分类文本进行分词,获得所述满足第三预设条件的词汇。5.如权利要求4所述的采集方法,其特征在于,所述将所述待分类文本进行分词,获得所述满足第三预设条件的词汇的步骤包括:将所述待分类文本进行分词,获得资源相关词汇;将所述资源相关词汇转化为数字向量;将所述数字向量进行处理,得到参数特征向量;根据所述参数特征向量得到序参量;根据所述序参量得到所述满足第三预设条件的词汇。6.如权利要求5所述的采集方法,其特征在于,所述根据序参量得到所述满足第三预设条件的词汇的步骤具体为:利用所述序参量和排名算法得到所述满足第三预设条件的词汇。7.如权利要求4所述的采集方法,其特征在于,在所述从样本日志文件中提取资源相关统一资源定位器URL之前,所述采集方法还包括:定期采集初始日志文件;根据所述初始日志文件的日志数据得到所述样本日志文件。8.如权利要求7所述的采集方法,其特征在于,所述根据所述初始日志文件的日志数据得到所述样本日志文件的步骤包括:在接收到网络客户端根据网页打开指令发送的信息请求时,根据所述信息请求从所述初始日志文件中获取打开对应网页所需的信息;将所述打开对应网页所需的信息保存为所述样本日志文件。9.一种云环境资源关注点的采集装置,其特征在于,包括:第一处理模块,用于汇总获取满足第一预设条件的词汇;计算模块,用于计算所述满足第一预设条件的词汇的重要...

【专利技术属性】
技术研发人员:周莉
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1