一种具有网络属性的多源数据的整合存储系统及方法技术方案

技术编号:19023431 阅读:24 留言:0更新日期:2018-09-26 19:04
本发明专利技术公开了一种具有网络属性的多源数据的整合存储系统及整合存储方法,该系统中通过数据初步处理部将多源数据整理为关系型数据,从而为后续的进一步筛选处理做好准备,再通过属性合规处理部和属性深度处理部对所述关系型数据的各个属性作出进一步清洗处理,将其中不符合要求的数据修改成规范数据,删除其中无法修改成规范数据的数据和错误数据,即去掉了不合规及非法的数据,并将清洗后形成纯净的可用的数据存储在只读系统中,从而使得所述多源数据变为可用的数据。

【技术实现步骤摘要】
一种具有网络属性的多源数据的整合存储系统及方法
本专利技术涉及数据的整合处理系统,尤其是多源数据的整合处理存储系统,具体涉及一种多数据源整合存储系统及整合存储方法。
技术介绍
随着大数据时代的来临,数据的使用和分析越来越受到人们的关注,但是关于数据的使用有一个不可规避的问题,即数据的来源很多,导致各种来源的数据形式、格式是不同的,难以统一,所以也就难以直接拿来使用,以免给程序带来过多的负面影响,造成不必要的麻烦,但是如果舍弃这部分数据还会导致数据浪费,降低分析的准确性,所以如何能够在造成较小系统影响的情况下合理利用这些多源数据就显得极为重要和困难,目前,关于如URL、终端品牌、IP地址、mac地址等网络属性数据还没用良好的数据筛查处理方法,面对较大的网络属性数据时,往往难以顺利地分选出其中的可用数据,所以据此所做的数据分析的准确性仍然有待提高。由于上述原因,本专利技术人对现有的数据分析处理方法和系统做了分析研究,以便设计出一种能够解决上述问题的新的多数据源整合存储系统及整合存储方法。
技术实现思路
为了克服上述问题,本专利技术人进行了锐意研究,设计出一种多数据源整合存储系统及整合存储方法,该系统中通过数据初步处理部将多源数据整理为关系型数据,从而为后续的进一步筛选处理做好准备,再通过属性合规处理部和属性深度处理部对所述关系型数据的各个属性作出进一步清洗处理,将其中不符合要求的数据修改成规范数据,删除其中无法修改成规范数据的数据和错误数据,即去掉了不合规及非法的数据,并将清洗后形成纯净的可用的数据存储在只读系统中,从而使得所述多源数据变为可用的数据,从而完成本专利技术。具体来说,本专利技术提供一种具有网络属性的多源数据的整合存储系统,该系统包括原始数据部001、数据初步处理部002、初步数据存储部003、数据清理处理部004和只读系统部005;其中,所述原始数据部001用于存放获取的数据,并将获取到的数据传输给数据初步处理部002;所述数据初步处理部002用于将原始数据部001中的数据转化为关系型数据,并将之存储在初步数据存储部003中;所述初步数据存储部003,其用于存储经数据初步处理部002处理过的数据,并将该数据传递给数据清理处理部004;所述初步数据存储部003中存储的数据所具有的属性包括URL、终端品牌、IP地址和mac地址等;所述数据清理处理部004包括:属性合规处理部041,其用于检查并处理来自初步数据存储部003数据的常规性,并根据检查并处理的结果将数据标记为合规数据或者不合规数据;和属性深度处理部042,其用于检查合规数据的深层次合规性,并将符合深层次合规性要求的数据传输至只读系统部005;所述只读系统部005用于存储经过数据清理处理部004处理后的数据。其中,所述数据初步处理部002包括:常规数据处理模块021,其用于处理来自原始数据部001的常规数据,非常规数据处理模块022,其用于处理来自原始数据部001的非常规数据;和数据判断分类模块023,其用于接收原始数据部001传出的数据,判断该接收到的数据是常规数据或者非常规数据,将常规数据传递给常规数据处理模块021,将非常规数据传递给非常规数据处理模块022。其中,所述常规数据为存储在常规文件中的数据,所述常规文件包括excl文件;或者,所述常规文件包括数据库导出文件;或者,所述常规文件包括有固定分隔符的文本文件。其中,所述属性合规处理部041包括:URL合规处理部0411,其用于对URL数据做解析处理,并将解析得到的数据标记为合规数据,将不可解析的URL数据标记为不合规数据或删除;终端品牌合规处理部0412,其用于检验和/或转换终端品牌数据,并将含有适格终端品牌的数据标记为合规数据,将其他数据标记为不合规数据或删除;IP地址合规处理部0413,其用于检验和/或修改IP地址数据的长度,将总长度介于7至15位的数据标记为合规数据,将其他长度的数据标记为不合规数据或删除;和mac地址合规处理部0414,其用于检验和/或修改mac地址数据的长度,将总长度为17位的数据标记为合规数据,将总长度为其他位数的mac地址数据标记为不合规数据或删除。其中,URL合规处理部0411通过转码函数对URL数据做解析处理;终端品牌合规处理部0412检验到终端品牌数据中含有适格终端品牌时将该终端品牌数据标记为合规数据,否则将该终端品牌数据移动到数据回收站,继续检验下一个终端品牌数据,待终端品牌数据都检验完毕后,检验数据回收站中的终端品牌数据,判断数据回收站中的终端品牌数据中是否包含能够表征终端品牌特征的信息,并根据该信息将该终端品牌数据转换为适格终端品牌,若不包含能够表征终端品牌特征的信息,则删除该终端品牌数据;IP地址合规处理部0413检验到IP地址数据不是总长度介于7至15位的数据时,将该IP地址数据移动到数据回收站,继续检验下一个IP地址数据,待IP地址数据都检验完毕后,检验数据回收站中的IP地址数据,判断IP地址数据是否可以修改为总长度是7至15位的数据,若可以修改,则修改该IP地址数据,若不可修改,则删除该IP地址数据;mac地址合规处理部0414检验到mac地址数据的长度不是17位时将该mac地址数据移动到数据回收站,继续检验下一个mac地址数据,待mac地址数据都检验完毕后,检验数据回收站中的mac地址数据,判断mac地址数据是否可以修改为总长度是17位的数据,若可以修改,则修改该mac地址数据,若不可修改,则删除该mac地址数据。其中,所述属性深度处理部042包括:URL深度处理部0421,其用于提取URL数据中关键字,并将提取出的关键字传输至只读系统部005;终端品牌深度处理部0422,其用于检验终端品牌数据中是否既包含中文又包含英文,并且删除其中的英文部分,保留中文部分,认为经过删除或者未经删除而只包含中文的终端品牌数据为具有深层次合规性的数据,并将该数据传输至只读系统部005;IP地址深度处理部0423,其用于检验IP地址数据是否为合法IP地址数据,所述合法IP地址数据是指全部由数字和点组成且点不在开头和结尾、两个点不相连的IP地址数据;检验结果为“是”的IP地址数据为具有深层次合规性的数据,并将该数据传输至只读系统部005;和mac地址深度处理部0424,其用于检验mac地址数据是否为合法mac地址数据,所述合法mac地址数据是指由6个16进制数组成的且每两个16进制数之间用冒号或短横线相隔的mac地址数据;检验结果为“是”的mac地址数据为具有深层次合规性的数据,并将该数据传输至只读系统部005。其中,所述只读系统部005在导入来自数据清理处理部(004)的数据时处于读写状态,在完成数据导入后自动回置为只读状态。本专利技术还提供一种具有网络属性的多数据源整合存储方法,其特征在于,该方法包括如下步骤:步骤1,通过原始数据部001存放外部的多源数据,并将其中的数据传输给数据初步处理部002;步骤2,通过数据初步处理部002将原始数据部001中的数据转化为关系型数据,并将之存储在初步数据存储部003中:步骤3,通过初步数据存储部003存储经数据初步处理部002处理过的数据,并将该数据传递给数据清理处理部004;所述初步数据存储部003中存储的数据所具有本文档来自技高网...

【技术保护点】
1.具有网络属性的多源数据的整合存储系统,其特征在于,该系统包括原始数据部(001)、数据初步处理部(002)、初步数据存储部(003)、数据清理处理部(004)和只读系统部(005);其中,所述原始数据部(001)用于存放获取的数据,并将获取到的数据传输给数据初步处理部(002);所述数据初步处理部(002)用于将原始数据部(001)中的数据转化为关系型数据,并将之存储在初步数据存储部(003)中;所述初步数据存储部(003),其用于存储经数据初步处理部(002)处理过的数据,并将该数据传递给数据清理处理部(004);所述初步数据存储部(003)中存储的数据所具有的属性包括URL、终端品牌、IP地址和mac地址等;所述数据清理处理部(004)包括:属性合规处理部(041),其用于检查并处理来自初步数据存储部(003)数据的常规性,并根据检查并处理的结果将数据标记为合规数据或者不合规数据;和属性深度处理部(042),其用于检查合规数据的深层次合规性,并将符合深层次合规性要求的数据传输至只读系统部(005);所述只读系统部(005)用于存储经过数据清理处理部(004)处理后的数据。

【技术特征摘要】
1.具有网络属性的多源数据的整合存储系统,其特征在于,该系统包括原始数据部(001)、数据初步处理部(002)、初步数据存储部(003)、数据清理处理部(004)和只读系统部(005);其中,所述原始数据部(001)用于存放获取的数据,并将获取到的数据传输给数据初步处理部(002);所述数据初步处理部(002)用于将原始数据部(001)中的数据转化为关系型数据,并将之存储在初步数据存储部(003)中;所述初步数据存储部(003),其用于存储经数据初步处理部(002)处理过的数据,并将该数据传递给数据清理处理部(004);所述初步数据存储部(003)中存储的数据所具有的属性包括URL、终端品牌、IP地址和mac地址等;所述数据清理处理部(004)包括:属性合规处理部(041),其用于检查并处理来自初步数据存储部(003)数据的常规性,并根据检查并处理的结果将数据标记为合规数据或者不合规数据;和属性深度处理部(042),其用于检查合规数据的深层次合规性,并将符合深层次合规性要求的数据传输至只读系统部(005);所述只读系统部(005)用于存储经过数据清理处理部(004)处理后的数据。2.根据权利要求1所述的多数据源整合存储系统,其特征在于,所述数据初步处理部(002)包括:常规数据处理模块(021),其用于处理来自原始数据部(001)的常规数据,非常规数据处理模块(022),其用于处理来自原始数据部(001)的非常规数据;和数据判断分类模块(023),其用于接收原始数据部(001)传出的数据,判断该接收到的数据是常规数据或者非常规数据,将常规数据传递给常规数据处理模块(021),将非常规数据传递给非常规数据处理模块(022)。3.根据权利要求2所述的多数据源整合存储系统,其特征在于,所述常规数据为存储在常规文件中的数据,所述常规文件包括excl文件;或者,所述常规文件包括数据库导出文件;或者,所述常规文件包括有固定分隔符的文本文件。4.根据权利要求1所述的多数据源整合存储系统,其特征在于,所述属性合规处理部(041)包括:URL合规处理部(0411),其用于对URL数据做解析处理,并将解析得到的数据标记为合规数据,将不可解析的URL数据标记为不合规数据或删除;终端品牌合规处理部(0412),其用于检验和/或转换终端品牌数据,并将含有适格终端品牌的数据标记为合规数据,将其他数据标记为不合规数据或删除;IP地址合规处理部(0413),其用于检验和/或修改IP地址数据的长度,将总长度介于7至15位的数据标记为合规数据,将其他长度的数据标记为不合规数据或删除;和mac地址合规处理部(0414),其用于检验和/或修改mac地址数据的长度,将总长度为17位的数据标记为合规数据,将总长度为其他位数的mac地址数据标记为不合规数据或删除。5.根据权利要求4所述的多数据源整合存储系统,其特征在于,URL合规处理部(0411)通过转码函数对URL数据做解析处理;终端品牌合规处理部(0412)检验到终端品牌数据中含有适格终端品牌时将该终端品牌数据标记为合规数据,否则将该终端品牌数据移动到数据回收站,继续检验下一个终端品牌数据,待终端品牌数据都检验完毕后,检验数据回收站中的终端品牌数据,判断数据回收站中的终端品牌数据中是否包含能够表征终端品牌特征的信息,并根据该信息将该终端品牌数据转换为适格终端品牌,若不包含能够表征终端品牌特征的信息,则删除该终端品牌数据;IP地址合规处理部(0413)检验到IP地址数据不是总长度介于7至15位的数据时,将该IP地址数据移动到数据回收站,继续检验下一个IP地址数据,待IP地址数据都检验完毕后,检验数据回收站中的IP地址数据,判断IP地址数据是否可以修改为总长度是7至15位的数据,若可以修改,则修改该IP地址数据,若不可修改,则删除该IP地址数据;mac地址合规处理部(0414)检验到mac地址数据的长度不是17位时将该mac地址数据移动到数据回收站,继续检验下一个mac地址数据,待mac地址数据都检验完毕后,检验数据回收站中的mac地址数据,判断mac地址数据是否可以修改为总长度是17位的数据,若可以修改,则修改该mac地址数据,若不可修改,则删除该mac地址数据。6.根据权利要求1所述的多数据源整合存储系统,其特征在于,所述属性深度处理部(042)包括:URL深度处理部(0421),其用于提取URL数据中关键字,并将提取出的关键字传输至只读系统部(005);终端品牌深度处理部(0422),其用于检验终端品牌数据中是否既包含中文又包含英文,并且删除其中的英文部分,保留中文部分,认为经过删除或者未经删除而只包含中文的终端品牌数据为具有深层次合规性的数据,并将该数据传输至只读系统部(005);IP地址深度处理部(0423),其用于检验IP地址数据是否为合法IP地址数据,所述合法IP地址数据是指全部由数字和点组成且点不在开头和结尾、两个点不相连的IP地址数据;检验结果为“是”的IP地址数据为具有深层次合规性的数据,并将该数据传输至只...

【专利技术属性】
技术研发人员:张守义
申请(专利权)人:北京宸信征信有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1