当前位置: 首页 > 专利查询>中国铁道科学研究院集团有限公司电子计算技术研究所北京经纬信息技术有限公司专利>正文

一种基于数据湖的铁路数据安全存取方法、设备及介质技术

技术编号：37135670 阅读：14 留言：0更新日期：2023-04-06 21:34

本发明专利技术公开了一种基于数据湖的铁路数据安全存取方法、设备及介质，该方法包括：获取源数据，判断源数据的风险等级，根据风险等级对源数据进行加密处理；将加密处理后的源数据通过推荐模型选择适合源数据存储的最优数据库类型；根据最优数据库类型调用数据湖存储模块，将源数据按照最优数据库类型存储到数据湖存储模块中；接收数据提取方请求源数据的指令，根据指令判断数据提取方是否拥有提取所需源数据的相应权限；若确定数据提取方拥有权限，则从数据湖存储模块中调取所需源数据并获取对应所需源数据的解密密钥；将所需源数据及其解密密钥一同发送到数据提取方。解决了铁路数据湖存储方面的存储空间利用效率较低和数据存取的安全性较低的问题。据存取的安全性较低的问题。据存取的安全性较低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据湖的铁路数据安全存取方法、设备及介质

[0001]本专利技术涉及数据处理
，尤其涉及一种基于数据湖的铁路数据安全存取方法、设备及介质。

技术介绍

[0002]目前，铁路的主要存储模式为数据仓库，其在实现结构化数据存储的同时，能够进行针对性的数据处理和分析。然而随着铁路信息化建设的不断发展，产生了大量不同类型的数据，数据仓库已不能够满足非结构化数据的存储与分析需求。为解决上述问题，铁路展开了以数据湖为核心的存储模式的研究。数据湖是数据仓库后的新一代存储模式，旨在尽可能地保证源数据的完整性，能够任意类型的数据。相比于数据仓库，数据湖将数据的处理与分析步骤调整至数据使用阶段，即只有在数据被取出时才进行处理与分析，提高了数据管理效率，能够更快的实现铁路行业数字化转型。
[0003]目前，铁路数据湖存取方面的主要问题可归纳为两点，分别是存储空间及数据安全。
[0004]在存储空间方面，数据湖常用的存储方法有两种。第一种是采用对象、文档型数据库对源数据进行存储及分析，该类方法采用单一数据库进行存取，能够充分利用所有的存储空间，同时由于将源数据作为整体进行存取，因此能够保证完整性。然而，针对对象及文档类型数据进行分析的研究处于起步阶段，研究方向主要集中在数据库引擎方面，对现有NoSQL类型数据库的依赖较大，相关功能的开发还不够完善；同时，对象、文件类型数据的分析技术还不够完善，分析结果的参考意义不大，不能满足场景需求。
[0005]第二种是采用与源数据存储类型相同的数据库进行复制存储，该类...

【技术保护点】

【技术特征摘要】
1.一种基于数据湖的铁路数据安全存取方法，其特征在于，包括：获取源数据，判断所述源数据的风险等级，根据所述风险等级对所述源数据进行加密处理；将加密处理后的源数据通过推荐模型选择适合所述源数据存储的最优数据库类型；根据所述最优数据库类型调用数据湖存储模块，将所述源数据按照所述最优数据库类型存储到所述数据湖存储模块中；接收数据提取方请求源数据的指令，根据所述指令判断所述数据提取方是否拥有提取所需源数据的相应权限；若确定所述数据提取方拥有权限，则从所述数据湖存储模块中调取所述所需源数据并获取对应所述所需源数据的解密密钥；将所述所需源数据及其解密密钥一同发送到所述数据提取方。2.根据权利要求1所述的方法，其特征在于，所述判断所述源数据的风险等级，根据所述风险等级对所述源数据进行加密处理，具体包括：判断所述源数据的风险等级为低风险，则不对所述源数据进行加密处理；判断所述源数据的风险等级为中风险，则对所述源数据进行高级加密标准AES加密；判断所述源数据的风险等级为高风险，则对所述源数据进行AES加密后再通过密文策略属性基加密CP
‑
ABE进行二次加密。3.根据权利要求2所述的方法，其特征在于，所述对所述源数据进行高级加密标准AES加密，具体包括：获取通过高级加密标准AES构造密钥；根据所述密钥对所述源数据进行加密，得到第一密文。4.根据权利要求2所述的方法，其特征在于，所述对所述源数据进行AES加密后再通过密文策略属性基加密CP
‑
ABE进行二次加密，具体包括：获取通过高级加密标准AES构造密钥；根据所述密钥对所述源数据进行加密，得到第一密文；获取访问结构集合、公共参数和主密钥，根据所述访问结构集合、所述公共参数和所述主密钥对所述第一密文进行加密得到第二密文。5.根据权利要求1所述的方法，其特征在于，所述将加密处理后的源数据通过推荐模型选择适合所述源数据存储的最优数据库类型，具体包括：将加密处理后的源数据输入推荐模型，通过统计选择较多的判断结果作为最终的最优数据库类型进行推荐；所述推荐模型根据人工标记过的数据集进行训练获得，训练过程包括：S1：从人工标记过的数据集中选择部分数据集作为第一训练集，选择所述第一训练集中数据的结构类型及运用场景作为特征构建对应的第一决策树；S2：将所述第一训练集放回所述数据集中，重新选择部分数据集作为第二训练集，采用与选择的所述第一训练集中相同的特征构建对应的第二决策树；重复S2，直至决策树的数量达到预设的森林大小，由此完成模型训练。6.根据权利要求3所述的方法，其特征在于，所述将所述所需源数据及其解密密钥一同发送到所述数据提取方，具体包括：
若数据提...

【专利技术属性】
技术研发人员：吴江，邹丹，孙思齐，王沛然，刘彦军，武威，
申请(专利权)人：中国铁道科学研究院集团有限公司电子计算技术研究所北京经纬信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人