The invention discloses a data acquisition method and a device, which relates to the network technical field and solves the problem of low data accuracy rate of the existing web page news influence. The main technical scheme of the invention is: the source of information for web news from web sources; preset library, extract information corresponding to the source of information and news on the web pages, storing the preset page source library has a plurality of information sources, and corresponding to the sources of information are the weight value the corresponding source of information; the weight of the extracted values determined for the web page has an impact on the news data.
【技术实现步骤摘要】
数据获取方法及装置
本专利技术涉及网络
,尤其涉及一种数据获取方法及装置。
技术介绍
随着网络的普及以及网民数量的激增,网络新闻作为一种全新的相对独立的新闻传播模式异军突起,已经成为人们获取信息的又一重要途径。其中,网络新闻是指传受基于互联网的新闻信息。而对于网络新闻的影响力研究逐渐成为关注的热点,通过对网络新闻进行影响力计算,为新闻的真实度判别提供相关依据,相较于其它大众媒体,网络媒体表现出更多的复杂性,这种复杂性的生成既源于媒介技术,也源于网络的空间特性。目前,通过网页新闻的转载率和回复率作为判断新闻影响力的指标,但是网页新闻的回复率和转载率与新闻出现的时间成正比关系,并在一段时间后逐渐停止,因此这种计算方法对于评价实时新闻的影响力是不准确的,从而现有获取的网页新闻影响力的准确率低。
技术实现思路
鉴于上述问题,提出了本专利技术,以便提供一种克服上述问题或者至少部分地解决上述问题的数据获取方法及装置。为达到上述目的,本专利技术主要提供如下技术方案:一方面,本专利技术实施例提供了一种数据获取方法,该方法包括:获取网页新闻的来源信息;从预置网页来源库中,提取与所述网页新闻的来源信息对应的来源信息,所述预置网页来源库中存储有多个所述来源信息,和与所述来源信息分别对应的权重值;将所述提取的来源信息对应的权重值确定为对所述网页新闻具有影响的数据。另一方面,本专利技术实施例还提供一种数据获取装置,该装置包括:获取单元,用于获取网页新闻的来源信息;提取单元,用于从预置网页来源库中,提取与所述网页新闻的来源信息对应的来源信息,所述预置网页来源库中存储有多个所述来源信 ...
【技术保护点】
一种数据获取方法,其特征在于,包括:获取网页新闻的来源信息;从预置网页来源库中,提取与所述网页新闻的来源信息对应的来源信息,所述预置网页来源库中存储有多个所述来源信息,和与所述来源信息分别对应的权重值;将所述提取的来源信息对应的权重值确定为对所述网页新闻具有影响的数据。
【技术特征摘要】
1.一种数据获取方法,其特征在于,包括:获取网页新闻的来源信息;从预置网页来源库中,提取与所述网页新闻的来源信息对应的来源信息,所述预置网页来源库中存储有多个所述来源信息,和与所述来源信息分别对应的权重值;将所述提取的来源信息对应的权重值确定为对所述网页新闻具有影响的数据。2.根据权利要求1所述方法,其特征在于,所述获取网页新闻的来源信息包括:获取所述网页新闻;通过爬虫爬取全网数据,判断是否存在与所述网页新闻相同的网页;若不存在,则从所述网页新闻中获取所述来源信息。3.根据权利要求2所述方法,其特征在于,所述判断是否存在与所述网页新闻相同的网页之后,所述方法还包括:若存在,则从所述相同的网页中提取起始来源的网页新闻;从所述起始来源的网页新闻中获取所述来源信息。4.根据权利要求3所述方法,其特征在于,所述从预置网页来源库中,提取与所述网页新闻的来源信息对应的来源信息之前,所述方法还包括:判断是否能够从所述网页新闻中提取到历史权重值;若能够从所述网页新闻中提取到历史权重值,则将所述提取的历史权重值确定为对所述网页新闻具有影响的数据。5.根据权利要求4所述方法,其特征在于,所述从预置网页来源库中,提取与所述网页新闻的来源信息对应的来源信息包括:若不能够从所述网页新闻中提取到历史权重值,则从预置网页来源库中,提取与所述网页新闻的来源信息对应的来源信息。6....
【专利技术属性】
技术研发人员:刘嘉,钦滨杰,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。