一种与汽车相关的多源数据的整合存储系统及方法技术方案

技术编号:19023444 阅读:32 留言:0更新日期:2018-09-26 19:04
本发明专利技术公开了一种与汽车相关的多源数据的整合存储系统及整合存储方法,该系统中通过数据初步处理部将多源数据整理为关系型数据,从而为后续的进一步筛选处理做好准备,再通过属性合规处理部和属性深度处理部对所述关系型数据的各个属性作出进一步清洗处理,将其中不符合要求的数据修改成规范数据,删除其中无法修改成规范数据的数据和错误数据,即去掉了不合规及非法的数据,并将清洗后形成纯净的可用的数据存储在只读系统中,从而使得所述多源数据变为可用的数据。

【技术实现步骤摘要】
一种与汽车相关的多源数据的整合存储系统及方法
本专利技术涉及数据的整合处理系统,尤其是多源数据的整合处理存储系统,具体涉及一种多数据源整合存储系统及整合存储方法。
技术介绍
随着大数据时代的来临,数据的使用和分析越来越受到人们的关注,但是关于数据的使用有一个不可规避的问题,即数据的来源很多,导致各种来源的数据形式、格式是不同的,难以统一,所以也就难以直接拿来使用,以免给程序带来过多的负面影响,造成不必要的麻烦,但是如果舍弃这部分数据还会导致数据浪费,降低分析的准确性,所以如何能够在造成较小系统影响的情况下合理利用这些多源数据就显得极为重要和困难,目前,关于如车辆牌号、品牌、排量等属性的与汽车相关的数据还没用良好的数据筛查处理方法,面对较大的身份属性数据时,往往难以顺利地分选出其中的可用数据,所以据此所做的数据分析的准确性仍然有待提高。由于上述原因,本专利技术人对现有的数据分析处理方法和系统做了分析研究,以便设计出一种能够解决上述问题的新的多数据源整合存储系统及整合存储方法。
技术实现思路
为了克服上述问题,本专利技术人进行了锐意研究,设计出一种与汽车相关的多数据源整合存储系统及整合存储方法,该系统中通过数据初步处理部将多源数据整理为关系型数据,从而为后续的进一步筛选处理做好准备,再通过属性合规处理部和属性深度处理部对所述关系型数据的各个属性作出进一步清洗处理,将其中不符合要求的数据修改成规范数据,删除其中无法修改成规范数据的数据和错误数据,即去掉了不合规及非法的数据,并将清洗后形成纯净的可用的数据存储在只读系统中,从而使得所述多源数据变为可用的数据,从而完成本专利技术。具体来说,本专利技术提供一种与汽车相关的多源数据的整合存储系统,其特征在于,该系统包括原始数据部001、数据初步处理部002、初步数据存储部003、数据清理处理部004和只读系统部005;其中,所述原始数据部001用于存放获取的数据,并将获取到的数据传输给数据初步处理部002;所述数据初步处理部002用于将原始数据部001中的数据转化为关系型数据,并将之存储在初步数据存储部003中;所述初步数据存储部003,其用于存储经数据初步处理部002处理过的数据,并将该数据传递给数据清理处理部004;所述初步数据存储部003中存储的数据所具有的属性包括车辆牌号、排量、品牌、车辆识别码等;所述数据清理处理部004包括:属性合规处理部041,其用于检查并处理来自初步数据存储部003数据的常规性,并根据检查并处理的结果将数据标记为合规数据或者不合规数据;和属性深度处理部042,其用于检查合规数据的深层次合规性,并将符合深层次合规性要求的数据传输至只读系统部005;所述只读系统部005用于存储经过数据清理处理部004处理后的数据。其中,所述数据初步处理部002包括:常规数据处理模块021,其用于处理来自原始数据部001的常规数据,非常规数据处理模块022,其用于处理来自原始数据部001的非常规数据;和数据判断分类模块023,其用于接收原始数据部001传出的数据,判断该接收到的数据是常规数据或者非常规数据,将常规数据传递给常规数据处理模块021,将非常规数据传递给非常规数据处理模块022。其中,所述常规数据为存储在常规文件中的数据,所述常规文件包括excl文件;或者,所述常规文件包括数据库导出文件;或者,所述常规文件包括有固定分隔符的文本文件。其中,所述属性合规处理部041包括:车辆牌号合规处理部0411,其用于检验和/或转换车辆牌号数据的长度,还用于检验数据的第一个字符是否为有效的省份简称,检验数据的第二个字符是否为有效的地区代码,并将长度为7位、第一个字符是有效的省份简称、第二个字符是有效的地区代码的数据标记为合规数据,将其他数据标记为不合规数据或删除;排量合规处理部0412,其用于检验和/或转换排量数据,将排量单位L前的字符是数字的数据标记为合规数据,将其他数据标记为不合规数据或删除;品牌合规处理部0413,其用于检验和/或转换品牌数据,将适格品牌数据标记为合规数据,将其他数据标记为不合规数据或删除;车辆识别码合规处理部0414,其用于检验和/或转换车辆识别码数据,将长度为17位的车辆识别码数据标记为合规数据,将其他数据标记为不合规数据或删除。其中,车辆牌号合规处理部0411检验到车辆牌号数据长度为非7位、第一个字符非有效的省份简称或者第二个字符非有效的地区代码时将该车辆牌号数据移动到数据回收站,继续检验下一个车辆牌号数据,待车辆牌号都检验完毕后,检验数据回收站中的车辆牌号,判断其中大于7位的车辆牌号是否可以转换为7位,若可以转换,则将其转换处理为7位,若不能转换,则删除该车辆牌号;排量合规处理部0412检验到排量数据中含有单位L,且单位L前的字符为数字时将该排量数据标记为合规数据,否则将该排量数据移动到数据回收站,继续检验下一个排量数据,待排量数据都检验完毕后,检验数据回收站中的排量数据,将其中无单位L且位数是三位的数据转换为带有单位L的排量数据,则删除其他数据;品牌合规处理部0413检验到品牌数据中含有适格品牌时将该品牌数据标记为合规数据,否则将该品牌数据移动到数据回收站,继续检验下一个品牌数据,待品牌数据都检验完毕后,检验数据回收站中的品牌数据,判断品牌数据中是否包含能够表征品牌特征的信息,并根据该信息将该品牌数据转换为适格品牌,若不包含能够表征品牌特征的信息,则删除该品牌数据;车辆识别码合规处理部0414检验到车辆识别码数据的位数是17位时将该车辆识别码数据标记为合规数据,否则将该车辆识别码数据移动到数据回收站,继续检验下一个车辆识别码数据,待车辆识别码数据都检验完毕后,检验数据回收站中的车辆识别码数据,判断车辆识别码数据中大于17位的车辆识别码是否可以转换为17位,若可以转换,则将其转换处理为17位,若不能转换,则删除该车辆识别码数据。其中,所述属性深度处理部042包括:车辆牌号深度处理部0421,其用于检验车辆牌号数据中第3位至第7位字符是否只由字母和数字组成,检验结果为“是”的车辆牌号数据为具有深层次合规性的数据,并将该数据传输至只读系统部005;排量深度处理部0422,其用于检验排量数据中的数值是否介于0到10之间,检验结果为“是”的排量数据为具有深层次合规性的数据,并将该数据传输至只读系统部005;品牌深度处理部0423,其用于检验品牌数据中是否包含多个品牌信息,将包含多个品牌信息的品牌数据拆分成多个只包含一个品牌信息的品牌数据,都标记成具有深层次合规性的数据,并都传输至只读系统部005;车辆识别码深度处理部0424,其用于检验车辆识别码数据中的第1-3位是否为有效的世界制造商识别代码、第4-8位是否为合法的车辆特征代码、第9位是否为合法的校验位、第10-11位是否为数字或字母、第12-17位是否为合法的数字,并将判断结果都为“是”的车辆识别码数据标记成具有深层次合规性的数据,并传输至只读系统部005。其中,所述只读系统部005在导入来自数据清理处理部004的数据时处于读写状态,在完成数据导入后自动回置为只读状态。本专利技术还提供一种与汽车相关的多数据源整合存储方法,其特征在于,该方法包括如下步骤:步骤1,通过原始数据部001存放外部的多源数据,本文档来自技高网...

【技术保护点】
1.与汽车相关的多源数据的整合存储系统,其特征在于,该系统包括原始数据部(001)、数据初步处理部(002)、初步数据存储部(003)、数据清理处理部(004)和只读系统部(005);其中,所述原始数据部(001)用于存放获取的数据,并将获取到的数据传输给数据初步处理部(002);所述数据初步处理部(002)用于将原始数据部(001)中的数据转化为关系型数据,并将之存储在初步数据存储部(003)中;所述初步数据存储部(003),其用于存储经数据初步处理部(002)处理过的数据,并将该数据传递给数据清理处理部(004);所述初步数据存储部(003)中存储的数据所具有的属性包括车辆牌号、排量、品牌、车辆识别码等;所述数据清理处理部(004)包括:属性合规处理部(041),其用于检查并处理来自初步数据存储部(003)数据的常规性,并根据检查并处理的结果将数据标记为合规数据或者不合规数据;和属性深度处理部(042),其用于检查合规数据的深层次合规性,并将符合深层次合规性要求的数据传输至只读系统部(005);所述只读系统部(005)用于存储经过数据清理处理部(004)处理后的数据。

【技术特征摘要】
1.与汽车相关的多源数据的整合存储系统,其特征在于,该系统包括原始数据部(001)、数据初步处理部(002)、初步数据存储部(003)、数据清理处理部(004)和只读系统部(005);其中,所述原始数据部(001)用于存放获取的数据,并将获取到的数据传输给数据初步处理部(002);所述数据初步处理部(002)用于将原始数据部(001)中的数据转化为关系型数据,并将之存储在初步数据存储部(003)中;所述初步数据存储部(003),其用于存储经数据初步处理部(002)处理过的数据,并将该数据传递给数据清理处理部(004);所述初步数据存储部(003)中存储的数据所具有的属性包括车辆牌号、排量、品牌、车辆识别码等;所述数据清理处理部(004)包括:属性合规处理部(041),其用于检查并处理来自初步数据存储部(003)数据的常规性,并根据检查并处理的结果将数据标记为合规数据或者不合规数据;和属性深度处理部(042),其用于检查合规数据的深层次合规性,并将符合深层次合规性要求的数据传输至只读系统部(005);所述只读系统部(005)用于存储经过数据清理处理部(004)处理后的数据。2.根据权利要求1所述的多数据源整合存储系统,其特征在于,所述数据初步处理部(002)包括:常规数据处理模块(021),其用于处理来自原始数据部(001)的常规数据,非常规数据处理模块(022),其用于处理来自原始数据部(001)的非常规数据;和数据判断分类模块(023),其用于接收原始数据部(001)传出的数据,判断该接收到的数据是常规数据或者非常规数据,将常规数据传递给常规数据处理模块(021),将非常规数据传递给非常规数据处理模块(022)。3.根据权利要求2所述的多数据源整合存储系统,其特征在于,所述常规数据为存储在常规文件中的数据,所述常规文件包括excl文件;或者,所述常规文件包括数据库导出文件;或者,所述常规文件包括有固定分隔符的文本文件。4.根据权利要求1所述的多数据源整合存储系统,其特征在于,所述属性合规处理部(041)包括:车辆牌号合规处理部(0411),其用于检验和/或转换车辆牌号数据的长度,还用于检验数据的第一个字符是否为有效的省份简称,检验数据的第二个字符是否为有效的地区代码,并将长度为7位、第一个字符是有效的省份简称、第二个字符是有效的地区代码的数据标记为合规数据,将其他数据标记为不合规数据或删除;排量合规处理部(0412),其用于检验和/或转换排量数据,将排量单位L前的字符是数字的数据标记为合规数据,将其他数据标记为不合规数据或删除;品牌合规处理部(0413),其用于检验和/或转换品牌数据,将适格品牌数据标记为合规数据,将其他数据标记为不合规数据或删除;和车辆识别码合规处理部(0414),其用于检验和/或转换车辆识别码数据,将长度为17位的车辆识别码数据标记为合规数据,将其他数据标记为不合规数据或删除。5.根据权利要求4所述的多数据源整合存储系统,其特征在于,车辆牌号合规处理部(0411)检验到车辆牌号数据长度为非7位、第一个字符非有效的省份简称或者第二个字符非有效的地区代码时将该车辆牌号数据移动到数据回收站,继续检验下一个车辆牌号数据,待车辆牌号都检验完毕后,检验数据回收站中的车辆牌号,判断其中大于7位的车辆牌号是否可以转换为7位,若可以转换,则将其转换处理为7位,若不能转换,则删除该车辆牌号;排量合规处理部(0412)检验到排量数据中含有单位L,且单位L前的字符为数字时将该排量数据标记为合规数据,否则将该排量数据移动到数据回收站,继续检验下一个排量数据,待排量数据都检验完毕后,检验数据回收站中的排量数据,将其中无单位L且位数是三位的数据转换为带有单位L的排量数据,则删除其他数据;品牌合规处理部(0413)检验到品牌数据中含有适格品牌时将该品牌数据标记为合规数据,否则将该品牌数据移动到数据回收站,继续检验下一个品牌数据,待品牌数据都检验完毕后,检验数据回收站中的品牌数据,判断品牌数据中是否包含能够表征品牌特征的信息,并根据该信息将该品牌数据转换为适格品牌,若不包含能够表征品牌特征的信息,则删除该品牌数据;车辆识别码合规处理部(0414)检验到车辆识别码数据的位数是17位时将该车辆识别码数据标记为合规数据,否则将该车辆识别码数据移动到数据回收站,继续检验下一个车辆识别码数据,待车辆识别码数据都检验完毕后,检验数据回收站中的车辆识别码数据,判断车辆识别码数据中大于17位的车辆识别码是否可以转换为17位,若可以转换,则将其转换处理为17位,若不能转换,则删除该车辆识别码数据。6.根据权利要求1所述的多数据源整合存储系统,其特征在于,所述属性深度处理部(042)包括:车辆牌号深度处理部(0421),其用于检验车辆牌号数据中第3位至第7位字符是否只由字母和数字组成,检验结果为“是”的车辆牌号数据为具有深层次合规性的数据,并将该数据传输至只读系统部(005);排量深度处理部(0422),其用于检验排量数据中的数值是否介于0到10之间,检验结果为“是”的排量数据为具有深层次合规性的数据,并将该数据传输至只读系统部(005);品牌深度处理部(0423),其用于检验品牌数据中是否包含多个品牌信息,将包含多个品牌信息的品牌数据拆分成多个只包含一个品牌信息的品牌数据,都标记成具有深层次合规性的数据,并都传输至只读系统部(005);和车辆识别码深度处理部(042...

【专利技术属性】
技术研发人员:张守义
申请(专利权)人:北京宸信征信有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1