一种动态计算新闻采集服务资源的方法技术

技术编号:20329220 阅读:48 留言:0更新日期:2019-02-13 05:48
本发明专利技术公开一种动态计算新闻采集服务资源的方法。所述方法以过往所采集的新闻数据和为采集数据所投入的采集资源量为基础、对数据进行特征抽取,通过逻辑回归模型动态分析确定对特定网站的数据采集频率,进而动态确定对特定网站进行数据采集所需要投入的采集资源,再通过实际采集的数据量和资源投入量作为反馈信息,不断修正逻辑回归模型的参数,对采集频率进行动态修正和优化。通过所述方法,可以在采集过程中动态调整优化采集频率和资源投入,有效地克服漏采和采集成本过高等问题,在确保采集质量的前提下,大幅减低采集成本。

【技术实现步骤摘要】
一种动态计算新闻采集服务资源的方法
本专利技术属于数据分析
,具体涉及一种动态计算新闻采集服务资源的方法。
技术介绍
新闻网站每天更新数据频繁,站点数量众多,对于从事于网站数据挖掘分析的企业而言,需要大量的服务器/带宽/IP资源,来对新闻网站的数据资源进行采集,每一类资源的使用都会涉及大量的成本。对新闻网站采集频率过低,容易遗漏采集新闻;采集频率高,则需要的服务器/带宽成本高,当采集频率过高时,为了减少新闻站点的误判,还需要使用代理IP进行采集。现有采集系统一般会按单一频率采集网站数据资源,部分优秀的采集系统会采用分级管理,对网站进行简单分类,针对每一类采用固定频率进行数据资源采集。这些方法,难以合理配置对新闻网站的采集频率,无法避免前述的漏采集或者过高采集成本的问题。逻辑回归是一种有监督的统计学习方法,主要用于对样本进行分类。在线性回归模型中,输出一般是连续的,例如y=f(x)=ax+b,对于每一个输入的x,都有一个对应的y输出。模型的定义域和值域都可以是[-∞,+∞]。但是对于逻辑回归,定义域可以是连续的[-∞,+∞],但值域一般是离散的,即只有有限多个输出值。例如,其值域本文档来自技高网...

【技术保护点】
1.一种动态计算新闻采集服务资源的方法,其特征在于:所述方法以过往所采集的新闻数据质量和为采集数据所投入的采集资源量为基础数据、对数据进行特征抽取,通过逻辑回归模型动态分析确定对特定网站的数据采集频率,进而动态确定对特定网站进行数据采集所需要投入的采集资源,再通过实际采集的数据量和资源投入量作为反馈信息,不断修正逻辑回归模型的参数,实现对采集频率的动态修正和优化。

【技术特征摘要】
1.一种动态计算新闻采集服务资源的方法,其特征在于:所述方法以过往所采集的新闻数据质量和为采集数据所投入的采集资源量为基础数据、对数据进行特征抽取,通过逻辑回归模型动态分析确定对特定网站的数据采集频率,进而动态确定对特定网站进行数据采集所需要投入的采集资源,再通过实际采集的数据量和资源投入量作为反馈信息,不断修正逻辑回归模型的参数,实现对采集频率的动态修正和优化。2.根据权利要求1所述的一种动态计算新闻采集服务资源的方法,其特征在于,所述方法包括以下步骤:1)选择输入数据;2)抽取输入数据特征;3)对输入数据的每个特征值进行归一化处理;4)采用是否增加采集频率作为分类标识,增加频率记为1,不增加频率记为0;5)将输入数据的特征值与对应的分类标识组合在一起构成训练数据集;6)将数据集随机地分成两类,一类为训练数据集,另一类为测试数据集;7)选用逻辑回归算法作为分类算法;8)以各网站的训练数据集作为输入,分别对逻辑回归算法进行训练,得到对应的逻辑回归分类模型;9)将采集频率分成若干类,由低到高,分别记为f1、f2、…fn;10)为每个新闻网站分配一个初始采集频率,设置一个累加器;11)以各网站的测试数据集作为输入,通过逻辑回归分类模型给出一...

【专利技术属性】
技术研发人员:詹咏松程国艮
申请(专利权)人:中译语通科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1