【技术实现步骤摘要】
一种面向公共突发事务的疫情大数据清理方法
本专利技术涉及数据清理方法领域,尤其是涉及一种面向公共突发事务的疫情大数据清理方法。
技术介绍
准确、及时、完备的疫情大数据是疫情防控的重要支撑。但疫情数据具备数据量大且增长快速、发布形式多样、发布渠道广、数据结构复杂、数据类型丰富等特点,因此数据的快速获取、清洗、管理也具备较大的难点。当前,疫情数据发布平台主要包括两类:第一类数据发布是国家卫健委等官方发布的原始疫情数据,这类数据主要由描述性数据组成,缺乏规范化的数据库格式,不便于后续统计分析。另一类数据发布是第三方数据发布平台,例如丁香网、腾讯疫情大数据平台、百度疫情大数据平台,这类数据发布的特点是在国家卫健委等信息基础上进行了初步加工,生成了具有规范化的数据库格式,可直接获取统计报表,但也存在数据不完备、数据冗余等质量问题,且多数平台对疫情数据的统计都是按地级市为最小统计单元,缺乏区县详细统计数据。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在疫情数据不完备、规范化的缺陷而提供一种面向公 ...
【技术保护点】
1.一种面向公共突发事务的疫情大数据清理方法,其特征在于,包括以下步骤:/n病例位置数据清洗步骤:获取病例位置数据,并采用预先建立的病例位置数据清洗策略,对该病例位置数据进行数据清洗;/n区县统计数据清洗步骤:获取区县统计数据,并采用预先建立的区县统计数据清洗策略,对该区县统计数据进行数据清洗;/n疫情大数据构建步骤:根据数据清洗后的所述病例位置数据和数据清洗后的所述区县统计数据,获得数据清洗后的疫情大数据;/n所述病例位置数据清洗策略包括以下步骤:/nS11:获取官方发布的原始疫情数据,从该原始疫情数据中病例的描述性信息中,提取病例的位置信息,对该位置信息进行地理编码,解 ...
【技术特征摘要】
1.一种面向公共突发事务的疫情大数据清理方法,其特征在于,包括以下步骤:
病例位置数据清洗步骤:获取病例位置数据,并采用预先建立的病例位置数据清洗策略,对该病例位置数据进行数据清洗;
区县统计数据清洗步骤:获取区县统计数据,并采用预先建立的区县统计数据清洗策略,对该区县统计数据进行数据清洗;
疫情大数据构建步骤:根据数据清洗后的所述病例位置数据和数据清洗后的所述区县统计数据,获得数据清洗后的疫情大数据;
所述病例位置数据清洗策略包括以下步骤:
S11:获取官方发布的原始疫情数据,从该原始疫情数据中病例的描述性信息中,提取病例的位置信息,对该位置信息进行地理编码,解析出空间位置坐标,构建第一病例位置数据;
S12:从第三方平台中获取病例位置数据,作为第二病例位置数据;
S13:对所述第一病例位置数据和第二病例位置数据进行匹配,如果匹配成功,则获得数据清洗后的病例位置数据,否则,进行数据核对处理。
2.根据权利要求1所述的一种面向公共突发事务的疫情大数据清理方法,其特征在于,所述步骤S11中,通过关键词查找,从原始疫情数据中病例的描述性信息中,提取病例的位置信息,所述关键词查找采用的关键词包括居住地、常住地、家庭住址。
3.根据权利要求1所述的一种面向公共突发事务的疫情大数据清理方法,其特征在于,所述步骤S12中,利用爬虫技术从第三方平台中获取病例位置数据。
4.根据权利要求1所述的一种面向公共突发事务的疫情大数据清理方法,其特征在于,步骤S12中,所述匹配的方法具体为:
S121:采用语义匹配方法,对所述第一病例位置数据和第二病例位置数据进行匹配,若匹配则进行步骤S122,否则匹配不成功;
S122:采用空间匹配方法,对所述第一病例位置数据和第二病例位置数据进行匹配,若匹配则匹配成功,否则匹配不成功。
5.根据权利要求4所述的一种面向公共突发...
【专利技术属性】
技术研发人员:谢欢,晏雄锋,童小华,冯永玖,陈鹏,魏超,刘世杰,金雁敏,许雄,柳思聪,王超,肖长江,郭艺友,
申请(专利权)人:同济大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。