一种对数据湖服务器中的数据进行管理和访问的方法技术

技术编号:24353359 阅读:25 留言:0更新日期:2020-06-03 02:03
一种对数据湖服务器中的数据进行管理和访问的方法,每台数据湖服务器看作一个数据湖服务器节点,所有的数据湖服务器节点之间相互连接,形成网状拓扑结构。数据拥有者登录任意一个数据湖服务器节点,进行数据接入操作、访问以及数据维护操作。本发明专利技术提供多样化的数据存储方式和多样化数据属性识别方式,简化用户导入数据的操作,提高数据导入的便利性和准确性,便于管理访问权限,便于数据的查询与共享,便于提取语义级信息,挖掘数据价值,提供数据使用方统一的管理界面,操作便利性与所见即所得,方便不同用户利用数据湖服务器实现不同的目标。

A method of data management and access in data Lake server

【技术实现步骤摘要】
一种对数据湖服务器中的数据进行管理和访问的方法
本专利技术涉及一种对数据湖服务器中的数据进行管理和访问的方法。
技术介绍
现有的数据库或数据湖管理平台的管理操作与数据分享操作大多都是以技术人员为主进行的,而且是以命令行方式为主进行操作,缺少针对一般非技术用户的图形化操作方式。并且在用户管理上,缺少除常规密码以外的验证机制。对数据的检索与分享也缺乏灵活性。
技术实现思路
本专利技术提供一种对数据湖服务器中的数据进行管理和访问的方法,提供多样化的数据存储方式和多样化识别方式,简化用户导入数据的操作,提高数据导入的便利性和准确性,便于管理访问权限,便于数据的查询与共享,方便未来数据共享,便于提取语义级信息,挖掘数据价值,提供数据使用方统一的管理界面,操作便利性与所见即所得,方便不同用户利用数据湖服务器实现不同的目标。为了达到上述目的,本专利技术提供一种对数据湖服务器中的数据进行管理和访问的方法,数据湖服务器包含多个数据湖服务器节点,所有的数据湖服务器节点之间形成网状拓扑结构,包含以下步骤:数据拥有者登录任意一个数据湖服务器节点,进行数据接入操作;数据使用者登录任意一个数据湖服务器节点,进行数据访问和维护操作。所述的数据湖服务器包含:关系型数据库、文档型数据库、分布式文件系统、图数据库;所述的数据湖服务器中存储多元异构数据,所述的多元异构数据的来源具有多样性,数据结构具有复杂性;数据湖服务器支持的数据类型包含:关系型数据、文档型数据、文件型数据、流数据以及其他互联网开放数据类型。所述的数据拥有者和数据使用者都通过账户方式登录数据湖服务器节点的图形化的操作界面,所述的账户中的账户信息与数据拥有者或数据使用者对应,所述的账户信息包含用户名和密码、指纹识别信息、面部识别信息、静脉图像识别信息、虹膜识别信息、声纹识别信息中的一种或多种信息。所述的数据拥有者进行数据接入操作包含:导入数据、清洗数据、抽取数据。所述的导入数据的方法包含:对于关系型数据库的数据或者文档型数据框的数据,数据拥有者在数据湖服务器中填写数据库配置参数,选择打算导入的字段或者直接导入全部字段至数据湖服务器;对于外部的文件型数据,通过手动批量上传的方式导入数据湖服务器;对于TCP/IP协议的流数据,直接导入数据湖服务器;对于采用其他协议的流数据,解析协议后再将数据导入数据湖服务器;对于其他的互联网开放数据,通过爬虫获取互联网开放数据,导入数据湖服务器。所述的清洗数据的方法包含:数据导入数据湖服务器之后,数据拥有者查看数据库各个字段的数据,数据拥有者勾选字段,或者数据拥有者将数据保存到本地数据湖服务器节点的关系型数据库,或者数据拥有者将数据保存到本地数据湖服务器节点的文档型数据库中。所述的抽取数据的方法包含:支持对各种多元异构数据的抽取,提供实时抽取、定时抽取、批量抽取、增量抽取、按类别抽取中的一种或任意几种组合的灵活抽取策略,支持多表联合抽取,并能够设置抽取过滤条件;数据经过采集、加工、转换、传输后,最终以装载入库或数据文件的形式,保存在本地数据湖服务器节点的关系型数据库、文档型数据库、分布式文件系统或者图数据库中。针对数据湖服务器中各类数据库中的数据,数据湖服务器应用图像识别的方法、语音识别的方法、文本过滤查询的方法,将数据文件中的文本信息提取出来,并转为RDF格式,保存在文档型数据库中。所述的数据拥有者进行数据维护操作包含:对数据进行增加、删除、修改和查询操作,设置数据的同步方式,建立数据目录,定义数据标签,维护共享数据。所述的设置数据的同步方式的方法包含:数据导入数据湖服务器时和数据导入数据湖服务器后,数据拥有者设定数据的同步方式,包含实时同步和定时同步,均采用数据增量同步方式实现。所述的建立数据目录的方法包含:数据导入数据湖服务器时和数据导入数据湖服务器后,数据拥有者对导入的数据设置数据所属目录,进行数据分类管理。所述的定义数据标签的方法包含:数据导入数据湖服务器时和数据导入数据湖服务器后,数据湖服务器结合本体知识,对数据特征进行分析,提取数据标签,或者数据拥有者对标签进行筛选,或者数据拥有者自定义新的标签。所述的维护共享数据的方法包含:为数据分享指定用户,设置数据的共享方式。所述的为数据分享指定用户的方法包含:数据拥有者将数据分享给本地数据湖服务器节点的用户或非本地数据湖服务器节点的用户;通过数据湖服务器提供的共享用户列表选择本地数据湖服务器节点的共享用户;非本地数据湖服务器节点的用户通过数据拥有者的令牌访问共享数据。所述的设置数据的共享方式的方法包含:数据拥有者通过设置数据访问控制表中的信息来设置数据的共享方式;数据的共享方式是指设置数据的访问权限,包含查询、预览、读取、下载、写入、修改、删除,每个数据拥有者对应一个数据访问控制表;所述的数据访问控制表包含:共享的数据名、访问权限类别、共享用户列表、数据使用申请列表、数据使用确认信息;所述的共享的数据名是指要共享的数据及其存储位置;所述的访问权限类别是指针对该共享数据,开放给数据使用者的访问权限,包含:查询、预览、读取、下载、写入、修改、删除;所述的共享用户列表中包含本地数据湖服务器节点的共享用户,数据拥有者将数据主动开放给这些共享用户;所述的数据使用申请列表是指要求访问该数据的用户列表;所述的数据使用确认信息是指数据拥有者对数据访问者的数据访问请求的确认情况,包含:已确认、未确认、拒绝。所述的数据使用者进行数据访问的方法包含:数据使用者在权限范围内查询、预览、读取、下载、写入、修改、删除本地数据湖服务器节点中的共享数据,且数据使用者通过数据拥有者提供的令牌,在权限范围内查询、预览、读取、下载、写入、修改、删除数据湖服务器节点中的共享数据。所述的查询数据的方法包含:数据使用者通过多种检索方式输入关键词,查询数据湖服务器中的共享数据。数据使用者需要访问不具备权限的数据时,向数据拥有者发出数据访问请求,数据拥有者审核数据使用者发出的数据访问请求,然后确认并设置数据的访问权限。本专利技术提供多样化的数据存储方式和多样化识别方式,简化用户导入数据的操作,提高数据导入的便利性和准确性,便于管理访问权限,便于数据的查询与共享,方便未来数据共享,便于提取语义级信息,挖掘数据价值,提供数据使用方统一的管理界面,操作便利性与所见即所得,方便不同用户利用数据湖服务器实现不同的目标。附图说明图1是本专利技术提供的一种对数据湖服务器中的数据进行管理和访问的方法的示意图。具体实施方式以下根据图1,具体说明本专利技术的较佳实施例。如图1所示,本专利技术提供一种对数据湖服务器中的数据进行管理和访问的方法,这里的数据湖服务器是一种数据存储和管理服务平台,该平台包含:关系型数据库(MariaDB、MySQL等),文档型数据库(Mon本文档来自技高网...

【技术保护点】
1.一种对数据湖服务器中的数据进行管理和访问的方法,每台数据湖服务器作为一个数据湖服务器节点,所有的数据湖服务器节点之间相互连接,形成网状拓扑结构,其特征在于,包含以下步骤:/n数据拥有者登录任意一个数据湖服务器节点,进行数据接入操作;/n数据使用者登录任意一个数据湖服务器节点,进行数据访问和维护操作。/n

【技术特征摘要】
1.一种对数据湖服务器中的数据进行管理和访问的方法,每台数据湖服务器作为一个数据湖服务器节点,所有的数据湖服务器节点之间相互连接,形成网状拓扑结构,其特征在于,包含以下步骤:
数据拥有者登录任意一个数据湖服务器节点,进行数据接入操作;
数据使用者登录任意一个数据湖服务器节点,进行数据访问和维护操作。


2.如权利要求1所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的数据湖服务器包含:关系型数据库、文档型数据库、分布式文件系统、图数据库;
所述的数据湖服务器中存储多元异构数据,所述的多元异构数据的来源具有多样性,数据结构具有复杂性;
数据湖服务器支持的数据类型包含:关系型数据、文档型数据、文件型数据、流数据以及其他互联网开放数据类型。


3.如权利要求1所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的数据拥有者和数据使用者都通过账户方式登录数据湖服务器节点的图形化操作界面,所述账户中的账户信息与数据拥有者或数据使用者对应,所述账户信息包含用户名和密码、指纹识别信息、面部识别信息、静脉图像识别信息、虹膜识别信息、声纹识别信息中的一种或多种信息。


4.如权利要求1所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的数据拥有者进行数据接入操作包含:导入数据、清洗数据、抽取数据。


5.如权利要求4所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的导入数据的方法包含:
对于关系型数据库的数据或者文档型数据框的数据,数据拥有者在数据湖服务器中填写数据库配置参数,选择打算导入的字段或者直接导入全部字段至数据湖服务器;
对于外部的文件型数据,通过手动批量上传的方式导入数据湖服务器;
对于TCP/IP协议的流数据,直接导入数据湖服务器;对于采用其他协议的流数据,解析协议后再将数据导入数据湖服务器;
对于其他的互联网开放数据,通过爬虫获取互联网开放数据,导入数据湖服务器。


6.如权利要求4所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的清洗数据的方法包含:
数据导入数据湖服务器之后,数据拥有者查看数据库各个字段的数据,数据拥有者勾选字段,或者数据拥有者将数据保存到本地数据湖服务器节点的关系型数据库,或者数据拥有者将数据保存到本地数据湖服务器节点的文档型数据库中。


7.如权利要求4所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的抽取数据的方法包含:
支持对各种多元异构数据的抽取,提供实时抽取、定时抽取、批量抽取、增量抽取、按类别抽取中的一种或任意几种组合的灵活抽取策略,支持多表联合抽取,并能够设置抽取过滤条件;
数据经过采集、加工、转换、传输后,最终以装载入库或数据文件的形式,保存在本地数据湖服务器节点的关系型数据库、文档型数据库、分布式文件系统或者图数据库中。


8.如权利要求7所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,针对数据湖服务器中各类数据库中的数据,数据湖服务器应用图像识别的方法、语音识别的方法、文本过滤查询的方法,将数据文件中的文本信息提取出来,并转为RDF格式,保存在文档型数据库中。


9.如权利要求1所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的数据拥有者进行数据维护操作包含:对数据进行增加、删除、修改和查询操作,设置数据的同步方式,建立数据目录,定义数据标签,维...

【专利技术属性】
技术研发人员:陈刚
申请(专利权)人:中云开源数据技术上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1