一种动态计算新闻采集服务资源的方法技术

技术编号:20329220 阅读:33 留言:0更新日期:2019-02-13 05:48
本发明专利技术公开一种动态计算新闻采集服务资源的方法。所述方法以过往所采集的新闻数据和为采集数据所投入的采集资源量为基础、对数据进行特征抽取,通过逻辑回归模型动态分析确定对特定网站的数据采集频率,进而动态确定对特定网站进行数据采集所需要投入的采集资源,再通过实际采集的数据量和资源投入量作为反馈信息,不断修正逻辑回归模型的参数,对采集频率进行动态修正和优化。通过所述方法,可以在采集过程中动态调整优化采集频率和资源投入,有效地克服漏采和采集成本过高等问题,在确保采集质量的前提下,大幅减低采集成本。

【技术实现步骤摘要】
一种动态计算新闻采集服务资源的方法
本专利技术属于数据分析
,具体涉及一种动态计算新闻采集服务资源的方法。
技术介绍
新闻网站每天更新数据频繁,站点数量众多,对于从事于网站数据挖掘分析的企业而言,需要大量的服务器/带宽/IP资源,来对新闻网站的数据资源进行采集,每一类资源的使用都会涉及大量的成本。对新闻网站采集频率过低,容易遗漏采集新闻;采集频率高,则需要的服务器/带宽成本高,当采集频率过高时,为了减少新闻站点的误判,还需要使用代理IP进行采集。现有采集系统一般会按单一频率采集网站数据资源,部分优秀的采集系统会采用分级管理,对网站进行简单分类,针对每一类采用固定频率进行数据资源采集。这些方法,难以合理配置对新闻网站的采集频率,无法避免前述的漏采集或者过高采集成本的问题。逻辑回归是一种有监督的统计学习方法,主要用于对样本进行分类。在线性回归模型中,输出一般是连续的,例如y=f(x)=ax+b,对于每一个输入的x,都有一个对应的y输出。模型的定义域和值域都可以是[-∞,+∞]。但是对于逻辑回归,定义域可以是连续的[-∞,+∞],但值域一般是离散的,即只有有限多个输出值。例如,其值域可以只有两个值{0,1},这两个值可以表示对样本的某种分类,比如高/低、患病/健康、阴性/阳性等,这就是最常见的二分类逻辑回归。因此,从整体上来说,通过逻辑回归模型,我们将在整个实数范围上的x映射到了有限个点上,这样就实现了对x的分类。因为每次拿过来一个x,经过逻辑回归分析,就可以将它归入某一类y中。逻辑回归也被称为广义线性回归模型,它与线性回归模型的形式基本上相同,都具有ax+b,其中a和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将ax+b作为因变量,即y=ax+b,而logistic回归则通过函数S将ax+b对应到一个隐状态p,p=S(ax+b),然后根据p与1-p的大小决定因变量的值。这里的函数S就是Sigmoid函数(1)将t换成ax+b,可以得到逻辑回归模型的参数形式:(2)如何用最少的计算、存储和网络资源获得满意的数据资源采集效果,是本专利技术需要解决的问题。本专利技术通过动态评估采集数量,预测下一步采集数量,并对采集资源合理调用,在保证采集准确的前提下,降低所需要的采集资源。
技术实现思路
为了解决现有数据采集系统静态设置数据采集频率,导致数据采集不全、漏采重要数据,或者浪费计算、存储和网络资源,导致采集成本过高等问题,本专利技术提供一种动态计算新闻采集服务资源的方法,所述方法以历史数据为基础、对数据进行特征抽取,通过逻辑回归模型动态分析确定对特定网站的数据采集频率,进而动态确定了对特定网站进行数据采集所需要投入的采集资源,如计算、存储、网络资源等。通过所述方法,可以在采集过程中动态调整优化采集频率和资源投入,有效地克服漏采和采集成本过高等问题,在确保采集质量的前提下,大幅减低采集成本。为实现上述目标,本专利技术采用以下技术方案:一种动态计算新闻采集服务资源的方法,所述方法以过往所采集的新闻数据和为采集数据所投入的采集资源量为基础、对数据进行特征抽取,通过逻辑回归模型动态分析确定对特定网站的数据采集频率,进而动态确定对特定网站进行数据采集所需要投入的采集资源,再通过实际采集的数据量和资源投入量作为反馈信息,不断修正逻辑回归模型的参数,对采集频率进行动态修正和优化。一种动态计算新闻采集服务资源的方法,所述方法包括以下步骤:1)选择输入数据;2)抽取输入数据特征;3)对输入数据的每个特征值进行归一化处理;4)采用是否增加采集频率作为分类标识,增加频率记为1,不增加频率记为0;5)将输入数据的特征值与对应的分类标识组合在一起构成训练数据集;6)将数据集随机地分成两类,一类为训练数据集,另一类为测试数据集;7)选用逻辑回归算法作为分类算法;8)以各网站的训练数据集作为输入,分别对逻辑回归算法进行训练,得到对应的逻辑回归分类模型;9)将采集频率分成若干类,由低到高,分别记为f1、f2、…fn;10)为每个新闻网站分配一个初始采集频率,设置一个累加器;11)以各网站的测试数据集作为输入,通过逻辑回归分类模型给出一个分类值;12)若分类值为1,则增加该网站的采集频率到上一个等级,若已达最高采集频率fn,则维持采集频率为fn不变,将网站对应的累加器清零;若分类值为0,则维持该网站的采集频率不变,同时在累加器中加1,若累加器的值达到规定的阈值,则选择降低该网站的采集频率,若已达该网站的初始采集频率fi,则维持采集频率为fi不变;13)以新的采集频率对各新闻网站进行数据采集,并以新获取的数据特征作为反馈信息,对该网站的逻辑回归分类模型进行修正优化,以保证针对该网站的采集频率处在合理位置,既不过低,导致数据丢失,也不过高,导致资源浪费,增加采集成本。优选的,所述步骤9)中,将采集频率分为5等,分别记为f1、f2、f3、f4、f5。优选的,所述步骤10)中,一般选择f1作为各网站的初始采集频率,对于一些重要的网站,可以采用其他高于f1的频率作为初始采集频率,以保证数据采集质量。优选的,所述步骤12)中,阈值设置为2,即如果某网站连续两次分类值为0,则调低该网站的采集频率。本专利技术的优点和有益效果为:本专利技术基于网站过往的采集数据质量和采集资源投入量,对分类算法进行训练,得到训练模型,已经该模型确定采集资源的投入量,并将实际的数据采集质量和资源投入量作为反馈信息不断修正优化分类模型,从而保证了采集资源投入量的动态合理性,既不会由于采集资源投入过低,导致数据丢失,也不会由于采集资源投入过高,导致资源浪费,增加采集成本。同时,对于重要的网站,本专利技术通过抬高初始频率的方式,提供资源保障,确保重要资源的采集质量。具体实施方式下面结合实施例对本专利技术作进一步说明。实施例一种动态计算新闻采集服务资源的方法,按照以下步骤执行:1)选择输入数据;2)抽取输入数据特征;3)对输入数据的每个特征值进行归一化处理;4)采用是否增加采集频率作为分类标识,增加频率记为1,不增加频率记为0;5)将输入数据的特征值与对应的分类标识组合在一起构成训练数据集;6)将数据集随机地分成两类,一类为训练数据集,另一类为测试数据集,其中训练数据集占80%,测试数据集占20%;7)选用逻辑回归算法作为分类算法;8)以各网站的训练数据集作为输入,分别对逻辑回归算法进行训练,得到对应的逻辑回归分类模型;9)将采集频率分成5类,由低到高,分别记为f1、f2、f3、f4、f5;10)为每个新闻网站分配一个初始采集频率f1,设置一个累加器,对于个别重要的网站设置初始采集频率为f3;11)以各网站的测试数据集作为输入,通过逻辑回归分类模型给出一个分类值;12)若分类值为1,则增加该网站的采集频率到上一个等级,若已达最高采集频率f5,则维持采集频率为f5不变,将网站对应的累加器清零;若分类值为0,则维持该网站的采集频率不变,同时在累加器中加1,若累加器的值达到2,则选择降低该网站的采集频率,若已达该网站的初始采集频率f1或f3,则维持采集频率为f1或f3不变;13)以新的采集频率对各新闻网站进行数据采集,并以新获取的数据特征作为反馈信息,对该网站的逻辑回归分类模型进行修正优化,以保证针对该网本文档来自技高网
...

【技术保护点】
1.一种动态计算新闻采集服务资源的方法,其特征在于:所述方法以过往所采集的新闻数据质量和为采集数据所投入的采集资源量为基础数据、对数据进行特征抽取,通过逻辑回归模型动态分析确定对特定网站的数据采集频率,进而动态确定对特定网站进行数据采集所需要投入的采集资源,再通过实际采集的数据量和资源投入量作为反馈信息,不断修正逻辑回归模型的参数,实现对采集频率的动态修正和优化。

【技术特征摘要】
1.一种动态计算新闻采集服务资源的方法,其特征在于:所述方法以过往所采集的新闻数据质量和为采集数据所投入的采集资源量为基础数据、对数据进行特征抽取,通过逻辑回归模型动态分析确定对特定网站的数据采集频率,进而动态确定对特定网站进行数据采集所需要投入的采集资源,再通过实际采集的数据量和资源投入量作为反馈信息,不断修正逻辑回归模型的参数,实现对采集频率的动态修正和优化。2.根据权利要求1所述的一种动态计算新闻采集服务资源的方法,其特征在于,所述方法包括以下步骤:1)选择输入数据;2)抽取输入数据特征;3)对输入数据的每个特征值进行归一化处理;4)采用是否增加采集频率作为分类标识,增加频率记为1,不增加频率记为0;5)将输入数据的特征值与对应的分类标识组合在一起构成训练数据集;6)将数据集随机地分成两类,一类为训练数据集,另一类为测试数据集;7)选用逻辑回归算法作为分类算法;8)以各网站的训练数据集作为输入,分别对逻辑回归算法进行训练,得到对应的逻辑回归分类模型;9)将采集频率分成若干类,由低到高,分别记为f1、f2、…fn;10)为每个新闻网站分配一个初始采集频率,设置一个累加器;11)以各网站的测试数据集作为输入,通过逻辑回归分类模型给出一...

【专利技术属性】
技术研发人员:詹咏松程国艮
申请(专利权)人:中译语通科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1