数据获取方法及装置制造方法及图纸

技术编号:15391548 阅读:113 留言:0更新日期:2017-05-19 04:49
本发明专利技术公开了一种数据获取方法及装置,涉及网络技术领域,解决了现有获取的网页新闻影响力的数据准确率低的问题。本发明专利技术的主要技术方案为:获取网页新闻的来源信息;从预置网页来源库中,提取与所述网页新闻的来源信息对应的来源信息,所述预置网页来源库中存储有多个所述来源信息,和与所述来源信息分别对应的权重值;将所述提取的来源信息对应的权重值确定为对所述网页新闻具有影响的数据。

Data acquisition method and device

The invention discloses a data acquisition method and a device, which relates to the network technical field and solves the problem of low data accuracy rate of the existing web page news influence. The main technical scheme of the invention is: the source of information for web news from web sources; preset library, extract information corresponding to the source of information and news on the web pages, storing the preset page source library has a plurality of information sources, and corresponding to the sources of information are the weight value the corresponding source of information; the weight of the extracted values determined for the web page has an impact on the news data.

【技术实现步骤摘要】
数据获取方法及装置
本专利技术涉及网络
,尤其涉及一种数据获取方法及装置。
技术介绍
随着网络的普及以及网民数量的激增,网络新闻作为一种全新的相对独立的新闻传播模式异军突起,已经成为人们获取信息的又一重要途径。其中,网络新闻是指传受基于互联网的新闻信息。而对于网络新闻的影响力研究逐渐成为关注的热点,通过对网络新闻进行影响力计算,为新闻的真实度判别提供相关依据,相较于其它大众媒体,网络媒体表现出更多的复杂性,这种复杂性的生成既源于媒介技术,也源于网络的空间特性。目前,通过网页新闻的转载率和回复率作为判断新闻影响力的指标,但是网页新闻的回复率和转载率与新闻出现的时间成正比关系,并在一段时间后逐渐停止,因此这种计算方法对于评价实时新闻的影响力是不准确的,从而现有获取的网页新闻影响力的准确率低。
技术实现思路
鉴于上述问题,提出了本专利技术,以便提供一种克服上述问题或者至少部分地解决上述问题的数据获取方法及装置。为达到上述目的,本专利技术主要提供如下技术方案:一方面,本专利技术实施例提供了一种数据获取方法,该方法包括:获取网页新闻的来源信息;从预置网页来源库中,提取与所述网页新闻的来源信息对应的来源信息,所述预置网页来源库中存储有多个所述来源信息,和与所述来源信息分别对应的权重值;将所述提取的来源信息对应的权重值确定为对所述网页新闻具有影响的数据。另一方面,本专利技术实施例还提供一种数据获取装置,该装置包括:获取单元,用于获取网页新闻的来源信息;提取单元,用于从预置网页来源库中,提取与所述网页新闻的来源信息对应的来源信息,所述预置网页来源库中存储有多个所述来源信息,和与所述来源信息分别对应的权重值;确定单元,用于将所述提取的来源信息对应的权重值确定为对所述网页新闻具有影响的数据。借由上述技术方案,本专利技术实施例提供的技术方案至少具有下列优点:本专利技术实施例提供了一种数据获取方法及装置,首先获取网页新闻的来源信息,然后从预置网页来源库中,提取与所述网页新闻的来源信息对应的来源信息,所述预置网页来源库中存储有多个所述来源信息,和与所述来源信息分别对应的权重值,最后将所述提取的来源信息对应的权重值确定为对所述网页新闻具有影响的数据。与目前通过网页新闻的转载率和回复率作为评价网页新闻影响力的数据指标相比,本专利技术实施例首先获取网页新闻的来源信息,然后从预置网页来源库中,提取与所述网页新闻的来源信息对应的来源信息,最后将所述提取的来源信息对应的权重值确定为对所述网页新闻具有影响的数据,本专利技术通过将网络新闻影响力的数据评价转化为对新闻来源网页的评价,从而能够对一些高转发率和高评论的虚假新闻进行识别,并实时的对网络新闻的影响力进行判别,进而提高了网页新闻影响力获取的准确率。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术实施例提供的一种数据获取方法流程图;图2为本专利技术实施例提供的另一种数据获取方法流程图;图3为本专利技术实施例提供的一种数据获取装置的组成框图;图4为本专利技术实施例提供的另一种数据获取装置的组成框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。为使本专利技术技术方案的优点更加清楚,下面结合附图和实施例对本专利技术作详细说明。本专利技术实施例提供了一种数据获取方法,如图1所示,所述方法包括:S101、获取网页新闻的来源信息。其中,网络新闻的来源信息用于表示网络新闻具体隶属于哪个的网站,例如,网络当中存在一篇关于“十八届五中全会明日召开”的新闻,获取到该网页新闻对应的来源信息为中央政府网站。需要说明的是,获取网页新闻的来源信息具体过程如下:首先获取该网页新闻,然后通过爬虫爬取全网数据判断网络中是否存在与该网页新闻相同的网页,若存在则需要从这些相同的网页中查找网页新闻最初来源的网站,然后从最初来源的网站中获取网页新闻的来源信息;若不存在则直接从所述网页新闻中获取来源信息。S102、从预置网页来源库中,提取与所述网页新闻的来源信息对应的来源信息。其中,所述预置网页来源库中存储有多个所述来源信息,和与所述来源信息分别对应的权重值,所述预置网页来源库中的来源信息对应的权重值可以根据实际网站信用度等级进行划分,也可以根据网站的标重等级进行划分,还可以综合标重等级和网站信用等级进行划分,本专利技术实施例不做具体限定。所述权重值用于表示网页新闻对应的影响力,权重值越大表明网页新闻的影响力越高。这里所说的标重等级可以是指官方公布的政府部门级别,也可以是各个网站公布的主网站子网站之间的级别等。对此本专利技术不做任何限定。例如,预置网页库中按照网站的标重级别进行划分,划分的来源信息和与来源信息对应的权重值具体比例可以如下所示:1级中央标重网站50%;2级地方标重网站30%;2.1级省级标重网站15%;2.2级市级标重网站10%;2.3级县级标重网站5%;3级新闻网站20%;3.1级省级新闻网10%;3.2级市级新闻网6%;3.3级县级新闻网4%。S103、将所述提取的来源信息对应的权重值确定为对所述网页新闻具有影响的数据。对于本专利技术实施例,首先获取网页新闻的来源信息,然后从预置网页来源库中,提取与所述网页新闻的来源信息对应的来源信息,最后将所述提取的来源信息对应的权重值确定为对所述网页新闻具有影响的数据,本专利技术通过将网络新闻影响力的数据评价转化为对新闻来源网页的评价,从而能够对一些高转发率和高评论的虚假新闻进行识别,并实时的对网络新闻的影响力进行判别,进而提高了网页新闻影响力获取的准确率。本专利技术实施例提供了一种数据获取方法,首先获取网页新闻的来源信息,然后从预置网页来源库中,提取与所述网页新闻的来源信息对应的来源信息,所述预置网页来源库中存储有多个所述来源信息,和与所述来源信息分别对应的权重值,最后将所述提取的来源信息对应的权重值确定为对所述网页新闻具有影响的数据。与目前通过网页新闻的转载率和回复率作为评价网页新闻影响力的数据指标相比,本专利技术实施例首先获取网页新闻的来源信息,然后从预置网页来源库中,提取与所述网页新闻的来源信息对应的来源信息,最后将所述提取的来源信息对应的权重值确定为对所述网页新闻具有影响的数据,本专利技术通过将网页新闻影响力的数据评价转化为对新闻来源网页的评价,从而能够对一些高转发率和高评论的虚假新闻进行识别,并实时的对网络新闻的影响力进行判别,进而提高了网页新闻影响力获取的准确率。本专利技术实施例提供了另一种数据获取方法,如图2所示,所述方法包括:S201、获取网页新闻的来源信息。其中,网络新闻的来源信息用于表示网络新闻具体隶属于哪个的网站,例如,网络当中存在一篇关于“沈阳大东区创业创新基地首批入驻42家企业”的新闻,获取到该网页新闻对应的来源信息为辽宁省标重网站。对于本专利技术实施例,步骤S201包括:获取所述网页新闻;通过爬虫本文档来自技高网...

【技术保护点】
一种数据获取方法,其特征在于,包括:获取网页新闻的来源信息;从预置网页来源库中,提取与所述网页新闻的来源信息对应的来源信息,所述预置网页来源库中存储有多个所述来源信息,和与所述来源信息分别对应的权重值;将所述提取的来源信息对应的权重值确定为对所述网页新闻具有影响的数据。

【技术特征摘要】
1.一种数据获取方法,其特征在于,包括:获取网页新闻的来源信息;从预置网页来源库中,提取与所述网页新闻的来源信息对应的来源信息,所述预置网页来源库中存储有多个所述来源信息,和与所述来源信息分别对应的权重值;将所述提取的来源信息对应的权重值确定为对所述网页新闻具有影响的数据。2.根据权利要求1所述方法,其特征在于,所述获取网页新闻的来源信息包括:获取所述网页新闻;通过爬虫爬取全网数据,判断是否存在与所述网页新闻相同的网页;若不存在,则从所述网页新闻中获取所述来源信息。3.根据权利要求2所述方法,其特征在于,所述判断是否存在与所述网页新闻相同的网页之后,所述方法还包括:若存在,则从所述相同的网页中提取起始来源的网页新闻;从所述起始来源的网页新闻中获取所述来源信息。4.根据权利要求3所述方法,其特征在于,所述从预置网页来源库中,提取与所述网页新闻的来源信息对应的来源信息之前,所述方法还包括:判断是否能够从所述网页新闻中提取到历史权重值;若能够从所述网页新闻中提取到历史权重值,则将所述提取的历史权重值确定为对所述网页新闻具有影响的数据。5.根据权利要求4所述方法,其特征在于,所述从预置网页来源库中,提取与所述网页新闻的来源信息对应的来源信息包括:若不能够从所述网页新闻中提取到历史权重值,则从预置网页来源库中,提取与所述网页新闻的来源信息对应的来源信息。6....

【专利技术属性】
技术研发人员:刘嘉钦滨杰
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1