一种基于数据湖的铁路数据安全存取方法、设备及介质技术

技术编号:37135670 阅读:14 留言:0更新日期:2023-04-06 21:34
本发明专利技术公开了一种基于数据湖的铁路数据安全存取方法、设备及介质,该方法包括:获取源数据,判断源数据的风险等级,根据风险等级对源数据进行加密处理;将加密处理后的源数据通过推荐模型选择适合源数据存储的最优数据库类型;根据最优数据库类型调用数据湖存储模块,将源数据按照最优数据库类型存储到数据湖存储模块中;接收数据提取方请求源数据的指令,根据指令判断数据提取方是否拥有提取所需源数据的相应权限;若确定数据提取方拥有权限,则从数据湖存储模块中调取所需源数据并获取对应所需源数据的解密密钥;将所需源数据及其解密密钥一同发送到数据提取方。解决了铁路数据湖存储方面的存储空间利用效率较低和数据存取的安全性较低的问题。据存取的安全性较低的问题。据存取的安全性较低的问题。

【技术实现步骤摘要】
一种基于数据湖的铁路数据安全存取方法、设备及介质


[0001]本专利技术涉及数据处理
,尤其涉及一种基于数据湖的铁路数据安全存取方法、设备及介质。

技术介绍

[0002]目前,铁路的主要存储模式为数据仓库,其在实现结构化数据存储的同时,能够进行针对性的数据处理和分析。然而随着铁路信息化建设的不断发展,产生了大量不同类型的数据,数据仓库已不能够满足非结构化数据的存储与分析需求。为解决上述问题,铁路展开了以数据湖为核心的存储模式的研究。数据湖是数据仓库后的新一代存储模式,旨在尽可能地保证源数据的完整性,能够任意类型的数据。相比于数据仓库,数据湖将数据的处理与分析步骤调整至数据使用阶段,即只有在数据被取出时才进行处理与分析,提高了数据管理效率,能够更快的实现铁路行业数字化转型。
[0003]目前,铁路数据湖存取方面的主要问题可归纳为两点,分别是存储空间及数据安全。
[0004]在存储空间方面,数据湖常用的存储方法有两种。第一种是采用对象、文档型数据库对源数据进行存储及分析,该类方法采用单一数据库进行存取,能够充分利用所有的存储空间,同时由于将源数据作为整体进行存取,因此能够保证完整性。然而,针对对象及文档类型数据进行分析的研究处于起步阶段,研究方向主要集中在数据库引擎方面,对现有NoSQL类型数据库的依赖较大,相关功能的开发还不够完善;同时,对象、文件类型数据的分析技术还不够完善,分析结果的参考意义不大,不能满足场景需求。
[0005]第二种是采用与源数据存储类型相同的数据库进行复制存储,该类方法能够在保证数据完整性的同时,实现数据的处理与分析。然而,由于铁路业内数据库搭建的相关标准文件仍处于初步阶段,源数据的存储数据库类型各不相同,若严格按照相同存储方式的原则进行存储,不仅会造成存储空间的浪费,而且会产生极大的成本支出。
[0006]现有的数据湖研究并未提出一套标准的数据库构建方案,在保证低成本、高效率的前提下,缺乏一套满足铁路业务场景需求的数据库构建方案;现有数据湖研究旨在针对源数据本身进行进一步处理,而在铁路业务场景中,大多需要经过标准化或分析后的数据,若采用现有的数据湖架构会导致数据标准化工作的重复进行,产生极大的时间与人力成本。
[0007]在数据安全方面,现有的数据湖架构通常采用基于角色的权限控制模型来实现较为灵活的权限管理。然而,在数据湖中的数据来自于不同的数据权属方,若采用角色模型进行控制则需要产生多个对应的角色,增加了数据湖的管理成本;在数据湖中,不同数据的重要程度各不相同,目前针对大型的数据存储一般采用对称加密的方式进行密文的存储与传输,然而对称加密的方式对密钥的安全性要求较高,即若密钥泄露,则数据将存在被窃取的风险。

技术实现思路

[0008]本专利技术提供了一种基于数据湖的铁路数据安全存取方法、设备及介质,解决了铁路数据湖存储方面的存储空间利用效率较低和数据存取的安全性较低的技术问题。
[0009]一种基于数据湖的铁路数据安全存取方法,包括:
[0010]获取源数据,判断所述源数据的风险等级,根据所述风险等级对所述源数据进行加密处理;
[0011]将加密处理后的源数据通过推荐模型选择适合所述源数据存储的最优数据库类型;
[0012]根据所述最优数据库类型调用数据湖存储模块,将所述源数据按照所述最优数据库类型存储到所述数据湖存储模块中;
[0013]接收数据提取方请求源数据的指令,根据所述指令判断所述数据提取方是否拥有提取所需源数据的相应权限;
[0014]若确定所述数据提取方拥有权限,则从所述数据湖存储模块中调取所述所需源数据并获取对应所述所需源数据的解密密钥;
[0015]将所述所需源数据及其解密密钥一同发送到所述数据提取方。
[0016]在本专利技术的一种实施例中,所述判断所述源数据的风险等级,根据所述风险等级对所述源数据进行加密处理,具体包括:判断所述源数据的风险等级为低风险,则不对所述源数据进行加密处理;判断所述源数据的风险等级为中风险,则对所述源数据进行高级加密标准AES加密;判断所述源数据的风险等级为高风险,则对所述源数据进行AES加密后再通过密文策略属性基加密CP

ABE进行二次加密。
[0017]在本专利技术的一种实施例中,所述对所述源数据进行高级加密标准AES加密,具体包括:获取通过高级加密标准AES构造密钥;根据所述密钥对所述源数据进行加密,得到第一密文。
[0018]在本专利技术的一种实施例中,所述对所述源数据进行AES加密后再通过密文策略属性基加密CP

ABE进行二次加密,具体包括:获取通过高级加密标准AES构造密钥;根据所述密钥对所述源数据进行加密,得到第一密文;获取访问结构集合、公共参数和主密钥,根据所述访问结构集合、所述公共参数和所述主密钥对所述第一密文进行加密得到第二密文。
[0019]在本专利技术的一种实施例中,所述将加密处理后的源数据通过推荐模型选择适合所述源数据存储的最优数据库类型,具体包括:将加密处理后的源数据输入推荐模型,通过统计选择较多的判断结果作为最终的最优数据库类型进行推荐;所述推荐模型根据人工标记过的数据集进行训练获得,训练过程包括:S1:从人工标记过的数据集中选择部分数据集作为第一训练集,选择所述第一训练集中数据的结构类型及运用场景作为特征构建对应的第一决策树;S2:将所述第一训练集放回所述数据集中,重新选择部分数据集作为第二训练集,采用与选择的所述第一训练集中相同的特征构建对应的第二决策树;重复S2,直至决策树的数量达到预设的森林大小,由此完成模型训练。
[0020]在本专利技术的一种实施例中,所述将所述所需源数据及其解密密钥一同发送到所述数据提取方,具体包括:若数据提取方所需源数据为中风险数据,则将所述所需源数据、第一密文和密钥一同发送到所述数据提取方。
[0021]在本专利技术的一种实施例中,所述将所述所需源数据及其解密密钥一同发送到所述
数据提取方,具体包括:若数据提取方所需源数据为高风险数据,则根据数据提取方的申请,构造所述数据提取方的属性集合;根据所述属性集合、所述公共参数和所述主密钥生成所述数据提取方的私钥;将所述私钥、所述第二密文、所述公共参数和所述主密钥一同发送至所述数据提取方。
[0022]在本专利技术的一种实施例中,将加密处理后的源数据通过推荐模型选择适合所述源数据存储的最优数据库类型之前,所述方法还包括:根据结构类型对所述源数据进行分类,所分类别包括结构化数据、半结构化数据和非结构化数据;根据应用场景对所述源数据进行分类,所分类别包括冷数据、温数据和热数据;其中,所述冷数据为使用频率比所述温数据和所述热数据低的数据,所述温数据为时效性要求比所述热数据低的数据;所述热数据为使用频率比所述冷数据高且时效性要求比所述温数据高的数据。
[0023]一种基于数据湖的铁路数据安全存取设备,包括:
[0024]至少一个处理器;以及,
[0025]与所述至少一个处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据湖的铁路数据安全存取方法,其特征在于,包括:获取源数据,判断所述源数据的风险等级,根据所述风险等级对所述源数据进行加密处理;将加密处理后的源数据通过推荐模型选择适合所述源数据存储的最优数据库类型;根据所述最优数据库类型调用数据湖存储模块,将所述源数据按照所述最优数据库类型存储到所述数据湖存储模块中;接收数据提取方请求源数据的指令,根据所述指令判断所述数据提取方是否拥有提取所需源数据的相应权限;若确定所述数据提取方拥有权限,则从所述数据湖存储模块中调取所述所需源数据并获取对应所述所需源数据的解密密钥;将所述所需源数据及其解密密钥一同发送到所述数据提取方。2.根据权利要求1所述的方法,其特征在于,所述判断所述源数据的风险等级,根据所述风险等级对所述源数据进行加密处理,具体包括:判断所述源数据的风险等级为低风险,则不对所述源数据进行加密处理;判断所述源数据的风险等级为中风险,则对所述源数据进行高级加密标准AES加密;判断所述源数据的风险等级为高风险,则对所述源数据进行AES加密后再通过密文策略属性基加密CP

ABE进行二次加密。3.根据权利要求2所述的方法,其特征在于,所述对所述源数据进行高级加密标准AES加密,具体包括:获取通过高级加密标准AES构造密钥;根据所述密钥对所述源数据进行加密,得到第一密文。4.根据权利要求2所述的方法,其特征在于,所述对所述源数据进行AES加密后再通过密文策略属性基加密CP

ABE进行二次加密,具体包括:获取通过高级加密标准AES构造密钥;根据所述密钥对所述源数据进行加密,得到第一密文;获取访问结构集合、公共参数和主密钥,根据所述访问结构集合、所述公共参数和所述主密钥对所述第一密文进行加密得到第二密文。5.根据权利要求1所述的方法,其特征在于,所述将加密处理后的源数据通过推荐模型选择适合所述源数据存储的最优数据库类型,具体包括:将加密处理后的源数据输入推荐模型,通过统计选择较多的判断结果作为最终的最优数据库类型进行推荐;所述推荐模型根据人工标记过的数据集进行训练获得,训练过程包括:S1:从人工标记过的数据集中选择部分数据集作为第一训练集,选择所述第一训练集中数据的结构类型及运用场景作为特征构建对应的第一决策树;S2:将所述第一训练集放回所述数据集中,重新选择部分数据集作为第二训练集,采用与选择的所述第一训练集中相同的特征构建对应的第二决策树;重复S2,直至决策树的数量达到预设的森林大小,由此完成模型训练。6.根据权利要求3所述的方法,其特征在于,所述将所述所需源数据及其解密密钥一同发送到所述数据提取方,具体包括:
若数据提...

【专利技术属性】
技术研发人员:吴江邹丹孙思齐王沛然刘彦军武威
申请(专利权)人:中国铁道科学研究院集团有限公司电子计算技术研究所北京经纬信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1