一种数据中心非结构化数据接入方法技术

技术编号:33765995 阅读:22 留言:0更新日期:2022-06-12 14:16
本发明专利技术公开了一种数据中心非结构化数据接入方法,包括以下步骤,通过控制模块向数据采集模块发出采集指令,数据采集模块采集的数据通过数据分析模块进行分析处理,通过数据质量检查校验模块对数据进行校验,本发明专利技术的有益效果是:本发明专利技术通过数据采集模块对数据进行采集处理,然后通过数据质量检查校验模块对数据进行校验处理,提高对数据的处理效率,通过设置数据转化模块和数据压缩模块进一步对数据进行处理,提高作业流程的稳定性,通过设置数据推送模块将实时接收到的数据,经处理后将数据直接推送至客户端,实现对数据实时更新,满足客户端对数据实时性的需求以及提高用户体验度、友好性。友好性。友好性。

【技术实现步骤摘要】
一种数据中心非结构化数据接入方法


[0001]本专利技术属于非结构化数据处理领域,具体为一种数据中心非结构化数据接入方法。

技术介绍

[0002]现有生活中,非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等,计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术,比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等,非结构化数据在任何地方都可以得到。这些数据可以在你公司内部的邮件信息、聊天记录以及搜集到的调查结果中得到,也可以是你对个人网站上的评论、对客户关系管理系统中的评论或者是从你使用的个人应用程序中得到的文本字段,传统的非结构化数据接入方法无法同时实现对数据的分析转化与推送,难以满足现代生活生产的需求。

技术实现思路

[0003]本专利技术的目的就在于为了解决上述问题而提供一种数据中心非结构化数据接入方法,解决了
技术介绍
中提到的问题。
[0004]为了解决上述问题,本专利技术提供了一种技术方案:一种数据中心非结构化数据接入方法,包括以下步骤:S1、通过控制模块向数据采集模块发出采集指令,数据采集模块采集的数据通过数据分析模块进行分析处理;S2、通过数据质量检查校验模块对数据进行校验,当数据质量检查校验模块校验合格时,通过数据转化模块对数据类型进行转化处理,当数据质量检查校验模块校验不合格时,通过数据清理模块对不合格的数据进行清理处理。
[0005]S3、通过数据压缩模块对经过数据转化模块处理过的数据进行压缩处理,然后通过数据存储模块对数据进行集中存储,通过数据备份模块对数据进行备份处理;S4、通过数据安全管理模块对数据进行安装保护与管理,接着通过数据推送模块将数据直接推送至客户端,实现对数据实时更新。
[0006]作为优选,所述数据采集模块从多源端文件服务器中,确定与所述采集任务对应的目标文件服务器,从变化后的结构化数据中,获取所述目标文件服务器的访问路径信息,基于所述访问路径信息,访问所述目标文件服务器,以采集所述目标文件服务器存储的非结构化数据,并将这些数据采集到可视化分析系统中,提供统一视角,将数据组织成最终的业务主题呈现在展示画面上。
[0007]作为优选,所述数据转化模块以半结构化数据作为过渡,采取非结构化数据到半
结构化数据,再到结构化数据逐步转换的方式,最终完成工艺数据的格式转换,在非结构化数据到半结构化数据的过程中,以WORD文档为数据源,针对不同的卡片类型和格式,构建不同的数据抽取策略,在数据输出时,选择不同的XML模板,将数据以指定的XML文档格式进行输出;在半结构化数据到结构化数据的过程中,通过解析XML文档,并在XML文档与数据信息间建立映射关系,以此将非结构化数据转换为结构化数据。
[0008]作为优选,所述数据压缩模块进行数据压缩处理时,以采样到的第一帧数据为基础样本,第二帧数据通过压缩比较模块,与第一帧数据进行比较,得出两帧数据上变化的变量,及相应变量的变化值,同理,在处理第N帧采样数据与第N

1帧采样数据时,比较两帧数据,得到变化值变量通过Hash算法,映射到固定内存空间中,将与变量对应的变化差值存储到相应的内存空间中。
[0009]作为优选,所述数据存储模块对非结构化数据进行识别并生成主标签,基于主标签对非结构化数据进行分块存储,基于挖掘特征生成副标签,在每块存储区基于副标签进行检索并生成映射,将映射关系存储到第二存储区。
[0010]作为优选,所述数据备份模块包括依据各生产服务器的性能指标计算确定对应各生产服务器的性能权重,当其中一个生产服务器接收到将共享存储中数据备份至后端服务器的备份任务时,针对此备份任务创建一个备份进程生成相应的备份策略,将备份策略分解成若干个子进程执行,并依据各生产服务器的性能权重将所有子进程分配至各生产服务器,各生产服务器中所有子进程依据各自的备份策略执行,分别将共享存储中数据备份至后端服务器中。
[0011]作为优选,所述数据安全管理模块封装了用户终端与消息服务模块文件传输模块的通信协议,提高信息的存储安全性。
[0012]作为优选,所述数据推送模块将实时接收到的数据,经处理后将数据直接推送至客户端,实现对数据实时更新,满足客户端对数据实时性的需求以及提高用户体验度、友好性。
[0013]作为优选,所述数据分析模块、数据采集模块、数据质量检查校验模块、数据转化模块、数据压缩模块、数据存储模块、数据备份模块、数据安全管理模块、数据推送模块和数据清理模块均与控制模块电性连接本专利技术的有益效果是:本专利技术通过数据采集模块对数据进行采集处理,然后通过数据质量检查校验模块对数据进行校验处理,提高对数据的处理效率,通过设置数据转化模块和数据压缩模块进一步对数据进行处理,提高作业流程的稳定性,通过设置数据推送模块将实时接收到的数据,经处理后将数据直接推送至客户端,实现对数据实时更新,满足客户端对数据实时性的需求以及提高用户体验度、友好性。
附图说明
[0014]为了易于说明,本专利技术由下述的具体实施及附图作以详细描述。
[0015]图1是本专利技术流程图;图2是本专利技术模块分布图。
具体实施方式
[0016]如图1

2所示,本专利技术具体实施方式采用以下技术方案:实施例:一种数据中心非结构化数据接入方法,包括以下步骤:S1、通过控制模块向数据采集模块发出采集指令,数据采集模块采集的数据通过数据分析模块进行分析处理;S2、通过数据质量检查校验模块对数据进行校验,当数据质量检查校验模块校验合格时,通过数据转化模块对数据类型进行转化处理,当数据质量检查校验模块校验不合格时,通过数据清理模块对不合格的数据进行清理处理。
[0017]S3、通过数据压缩模块对经过数据转化模块处理过的数据进行压缩处理,然后通过数据存储模块对数据进行集中存储,通过数据备份模块对数据进行备份处理;S4、通过数据安全管理模块对数据进行安装保护与管理,接着通过数据推送模块将数据直接推送至客户端,实现对数据实时更新。
[0018]其中,数据采集模块从多源端文件服务器中,确定与采集任务对应的目标文件服务器,从变化后的结构化数据中,获取目标文件服务器的访问路径信息,基于访问路径信息,访问目标文件服务器,以采集目标文件服务器存储的非结构化数据,并将这些数据采集到可视化分析系统中,提供统一视角,将数据组织成最终的业务主题呈现在展示画面上。
[0019]其中,数据转化模块以半结构化数据作为过渡,采取非结构化数据到半结构化数据,再到结构化数据逐步转换的方式,最终完成工艺数据的格式转换,在非结构化数据到半结构化数据的过程中,以WORD文档为数据源,针对不同的卡片类型和格式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据中心非结构化数据接入方法,其特征在于,包括以下步骤:S1、通过控制模块向数据采集模块发出采集指令,数据采集模块采集的数据通过数据分析模块进行分析处理;S2、通过数据质量检查校验模块对数据进行校验,当数据质量检查校验模块校验合格时,通过数据转化模块对数据类型进行转化处理,当数据质量检查校验模块校验不合格时,通过数据清理模块对不合格的数据进行清理处理;S3、通过数据压缩模块对经过数据转化模块处理过的数据进行压缩处理,然后通过数据存储模块对数据进行集中存储,通过数据备份模块对数据进行备份处理;S4、通过数据安全管理模块对数据进行安装保护与管理,接着通过数据推送模块将数据直接推送至客户端,实现对数据实时更新。2.根据权利要求1所述的一种数据中心非结构化数据接入方法,其特征在于,所述数据采集模块从多源端文件服务器中,确定与所述采集任务对应的目标文件服务器,从变化后的结构化数据中,获取所述目标文件服务器的访问路径信息,基于所述访问路径信息,访问所述目标文件服务器,以采集所述目标文件服务器存储的非结构化数据,并将这些数据采集到可视化分析系统中,提供统一视角,将数据组织成最终的业务主题呈现在展示画面上。3. 根据权利要求1所述的一种数据中心非结构化数据接入方法,其特征在于,所述数据转化模块以半结构化数据作为过渡,采取非结构化数据到半结 构化数据,再到结构化数据逐步转换的方式,最终完成工艺数据的格式转换,在非结构化数据到半结构化数据的过程中,以WORD文档为数据源,针对不同的卡片类型和格式,构建不同的数据抽取策略,在数据输出时,选择不同的XML模板,将数据以指定的XML文档格式进行输出;在半结构化数据到结构化数据的过程中,通过解析XML文档,并在XML文档与数据信息间建立映射关系,以此将非结构化数据转换为结构化数据。4.根据权利要求1所述的一种数据中心非结构化数据接入方法,其特征在于,所述数据压缩模块进行数据压缩处理时,以采样到的第一帧数据...

【专利技术属性】
技术研发人员:马海鑫张伟谢虎谢型浪余杰文宋学清韩吉安
申请(专利权)人:南方电网数字电网研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1