新冠肺炎疫情数据的实时采集方法技术

技术编号:28119840 阅读:28 留言:0更新日期:2021-04-19 11:24
本发明专利技术公开了新冠肺炎疫情数据的实时采集方法,包括以下步骤:一、建立配置文件,将多个信源网站内实时反映疫情数据的网页的基本信息预置在配置文件中,包括多个字段的名称、各字段的存储路径,各字段的被采纳次数;二、采集网页数据,通过配置文件中待采集字段的存储路径从多个信源网站采集待采集字段当前的数值;三、数据对齐处理,以待采集字段的数据对齐结果为待采集字段的采集数据;步骤四、更新配置文件,将各信源网站中待采集字段的数值与待采集字段的采集数据相同的信源网站中待采集字段的被采纳次数加1。本发明专利技术的方法从多个信源网站的实时数据中获取可信度最高的数据作为采集数据,提高了疫情实时数据的准确性。提高了疫情实时数据的准确性。提高了疫情实时数据的准确性。

【技术实现步骤摘要】
新冠肺炎疫情数据的实时采集方法


[0001]本专利技术涉及信息采集
更具体地说,本专利技术涉及一种新冠肺炎疫情数据的实时采集方法。

技术介绍

[0002]随着新冠肺炎疫情的发生,人们对疫情的关注度很高,许多网站提供了新冠肺炎疫情的实时数据,包括各国家各地区的新增感染人数、新增治愈人数、累计死亡人数和累计感染人数等字段,例如21世纪经济报道的全球疫情实时查询模块、腾讯新闻的疫情实时追踪模块,这些网站基本实现了疫情数据的实时更新。
[0003]但是,当前大部分网站的疫情模块的信源互不相同,例如腾讯新闻的疫情模块将世界卫生组织和约翰霍普金斯大学网站作为信源,新华网的疫情模块将国家卫健委作为信源。这些网站普遍使用较少数量的信源,甚至仅采用单一信源,难以客观且准确地实时反映疫情的变化情况,主要表现在以下几个方面:(1)21世纪经济报道的全球疫情实时查询模块下的某些地区的新增感染人数字段的数据经常得不到更新而以下划线替代;(2)新华网的数据更新频率较低,仅能查看到若干天前的数据;(3)不同的信源网站提供的数据存在差异,例如截至某月某日某国累计感染人数,各信源网站可能返回不同的数据;(4)由于单一网站的信息搜集整合能力有限,可能会出现某些国家地区的新增病例数等信息在发起采集任务时尚未完成更新的问题,造成网站上对于疫情的部分字段数据出现缺省的现象。不同网站上的疫情数据存在较大的差异性,难以准确地实时反映疫情的变化情况,因此,为了更准确地实时反映疫情的变化情况,急需找到疫情数据采集效率更高、更准确的采集方法。

技术实现思路

[0004]本专利技术的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
[0005]本专利技术还有一个目的是提供一种新冠肺炎疫情数据的实时采集方法,从多个信源网站实时采集疫情数据,并通过数据对齐处理获得可信度更高的数据作为采集数据。
[0006]为了实现根据本专利技术的这些目的和其它优点,提供了一种新冠肺炎疫情数据的实时采集方法,包括以下步骤:
[0007]一、建立配置文件,将多个信源网站内实时反映疫情数据的网页的基本信息预置在配置文件中,所述基本信息包括多个字段的名称、各字段的存储路径,以及各字段的被采纳次数,所述字段为疫情数据中的可量化指标;
[0008]二、采集网页数据,通过配置文件中待采集字段的存储路径从多个信源网站采集待采集字段当前的数值;
[0009]三、数据对齐处理,以待采集字段的数据对齐结果为待采集字段的采集数据,对待采集字段进行对齐处理,包括以下步骤:
[0010]S1、判断从多个信源网站采集的该字段当前的数值是否相同,若是,则该字段当前的数值为对齐结果,若否,进入S2;
[0011]S2、统计多个信源网站采集的该字段的不同数值的出现次数,判断出现次数最多的数值是否唯一,若是,则出现次数最多的该字段的数值为对齐结果,若否,进入S3;
[0012]S3、对于出现次数最多的数值相应的信源网站,读取配置文件中相应信源网站内该字段的被采纳次数,以被采纳次数最大的信源网站上采集的该字段的数值为对齐结果;
[0013]步骤四、更新配置文件,将各信源网站中待采集字段当前的数值与待采集字段的采集数据相同的信源网站中待采集字段的被采纳次数加1,并更新配置文件中相应信源网站中相应字段的被采纳次数,其中,各信源网站中各字段的被采纳次数在初始化时预设为0。
[0014]优选的是,所述的新冠肺炎疫情数据的实时采集方法,还包括:当步骤S3中被采纳次数最大的数值不是唯一时,判断被采纳次数最大的数值相应的该字段的数值是否相同,若是,则以该字段的数值为对齐结果;若否,则以被采纳次数最大的数值相应的该字段的数值中最大的数值为对齐结果。
[0015]优选的是,所述的新冠肺炎疫情数据的实时采集方法,所述配置文件中,还包括连接多个信源网站的多个网页链接,用于获取相应信源网站的网页源代码,步骤二中采集网页数据时,选择器以配置文件中待采集字段在信源网站中的存储路径为参数,从相应信源网站的网页源代码中采集信源网站中待采集字段当前的数值。
[0016]优选的是,所述的新冠肺炎疫情数据的实时采集方法,对于任一信源网站,当其设有查询接口时,在步骤一中建立配置文件时将查询接口设置在配置文件中,并在步骤二中采集网页数据时,通过调用查询接口采集相应信源网站的待采集字段当前的数值。
[0017]优选的是,所述的新冠肺炎疫情数据的实时采集方法,步骤二中采集网页数据时,当通过配置文件中待采集字段的存储路径从其中任一信源网站中不能获得待采集字段当前的数值时,调用开源自动化测试工具对信源网站中待采集字段进行渲染,获得待采集字段的存储路径,再通过选择器以配置文件中待采集字段在信源网站中的存储路径为参数,从相应信源网站的网页源代码中采集信源网站中待采集字段当前的数值。
[0018]优选的是,所述的新冠肺炎疫情数据的实时采集方法,数据对齐处理之前将从多个信源网站采集的待采集字段当前的数值转化为统一的数值格式。
[0019]优选的是,所述的新冠肺炎疫情数据的实时采集方法,多个信源网站包括腾讯新闻、21世纪财经、新华网、搜狗搜索和新浪网中的至少两个网站。
[0020]优选的是,所述的新冠肺炎疫情数据的实时采集方法,还包括:步骤五、将步骤三中待采集字段的采集数据存入数据库,记录采集时间,并将操作数据库的SQL语句置于配置文件中。
[0021]优选的是,所述的新冠肺炎疫情数据的实时采集方法,读取配置文件时,对于第一类信息,仅在采集初始化时从配置文件中一次读取,所述第一类信息包括不同信源网站的网页链接、各字段的存储路径和查询接口,以及操作数据库的SQL语句;对于第二类信息,在每次读取配置文件时,重新读取并采集,所述第二类信息为多个信源网站中各字段的被采纳次数。
[0022]本专利技术至少包括以下有益效果:(1)通过配置文件从多各信源网站实时采集疫情数据,解决单个信源网站疫情数据缺省或数据更新不及时的问题;(2)通过数据对齐处理,从多个信源网站的实时数据中获取可信度最高的数据作为采集数据,提高了疫情实时数据
的准确性。
[0023]本专利技术的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本专利技术的研究和实践而为本领域的技术人员所理解。
附图说明
[0024]图1为本专利技术的技术方案中对待采集字段进行数字对齐处理的流程示意图。
具体实施方式
[0025]下面结合附图对本专利技术做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
[0026]需要说明的是,下述实施方案中所述实验方法,如无特殊说明,均为常规方法,所述试剂和材料,如无特殊说明,均可从商业途径获得。
[0027]如图1所示,本专利技术提供一种新冠肺炎疫情数据的实时采集方法,包括以下步骤:
[0028]一、建立配置文件,将多个信源网站内实时反映疫情数据的网页的基本信息预置在配置文件中,所述基本信息包括多个字段的名称本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.新冠肺炎疫情数据的实时采集方法,其特征在于,包括以下步骤:一、建立配置文件,将多个信源网站内实时反映疫情数据的网页的基本信息预置在配置文件中,所述基本信息包括多个字段的名称、各字段的存储路径,以及各字段的被采纳次数,所述字段为疫情数据中的可量化指标;二、采集网页数据,通过配置文件中待采集字段的存储路径从多个信源网站采集待采集字段当前的数值;三、数据对齐处理,以待采集字段的数据对齐结果为待采集字段的采集数据,对待采集字段进行对齐处理,包括以下步骤:S1、判断从多个信源网站采集的该字段当前的数值是否相同,若是,则该字段当前的数值为对齐结果,若否,进入S2;S2、统计多个信源网站采集的该字段的不同数值的出现次数,判断出现次数最多的数值是否唯一,若是,则出现次数最多的该字段的数值为对齐结果,若否,进入S3;S3、对于出现次数最多的数值相应的信源网站,读取配置文件中相应信源网站内该字段的被采纳次数,以被采纳次数最大的信源网站上采集的该字段的数值为对齐结果;步骤四、更新配置文件,将各信源网站中待采集字段当前的数值与待采集字段的采集数据相同的信源网站中待采集字段的被采纳次数加1,并更新配置文件中相应信源网站中相应字段的被采纳次数,其中,各信源网站中各字段的被采纳次数在初始化时预设为0。2.如权利要求1所述的新冠肺炎疫情数据的实时采集方法,其特征在于,还包括:当步骤S3中被采纳次数最大的数值不是唯一时,判断被采纳次数最大的数值相应的该字段的数值是否相同,若是,则以该字段的数值为对齐结果;若否,则以被采纳次数最大的数值相应的该字段的数值中最大的数值为对齐结果。3.如权利要求1所述的新冠肺炎疫情数据的实时采集方法,其特征在于,所述配置文件中,还包括连接多个信源网站的多个网页链接,用于获取相应信源网站的网页源代码,步骤二中采集网页数据时,选择器以配置文件中待...

【专利技术属性】
技术研发人员:刘春阳解伟凡张翔宇钟习解峥杜慧王鹏俞晓明刘悦
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1