一种面向多源异构数据归一化的方法及装置制造方法及图纸

技术编号：36394914 阅读：24 留言：0更新日期：2023-01-18 10:00

一种面向多源异构数据归一化的方法及装置涉及信息技术领域。本发明专利技术由服务数据采集模块、特征向量提取模块、特征向量矩阵构建模块和特征聚类计算模块组成；通用的多源异构数据归一化方法和系统，通过相似度和聚类算法，对多源异构数据进行自动化解析和聚类，实现异构数据形式、内容和规格的归一化，有效解决海量多源异构数据分析处理过程中，数据类型多、结构不一且灵活多变的问题，极大提升分析效率。极大提升分析效率。极大提升分析效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向多源异构数据归一化的方法及装置

[0001]本专利技术涉及信息

技术介绍

[0002]当前，各垂直行业，尤其是工业领域，如生产制造、能源化工、采矿冶金等行业中，生产单位和企事业主体，在运行中持续不断地产生大量的多源异构数据，这些数据分布在不同区域，不同的设备和系统中，并无交集也未被利用。
[0003]随着工业化和信息化的不断融合，对多源异构数据进行统一汇聚、统一分析、统一处理和统一使用的需求越来越迫切，实现多源异构数据的四个统一，将极大推进工业化和信息化两化融合，在提升企业生产、运营效率以及安全防护水平，降低成本等方面，具有重大意义。尤其能够将来自不同服务的多元异构数据进行聚类整合后，反馈给前端服务使前端服务形成关联性，从而整合成为服务链具有及其重要的意义。
[0004]在企业的生产制造、安全监测、营销管理等各领域和各环节中，产生海量的多源异构数据，随着工业化和信息化两化融合的推进和扩大，如何将这些海量的数据进行采集、规整和分析，消除数据孤岛，帮助企业加速和畅通数据流转，提升生产效率，掌握整体态势，都有重大意义。
[0005]但是，多源异构数据采集分析的难点是数据格式和内容参差不齐，没有统一的规范，即使将数据强行汇聚起来，也只能原样保存，并不能进行有效的关联分析。目前市场上也不乏多源异构数据的采集和分析方案，但现有方案普遍采用针对特定的场景和指定的数据，通过人工分析规则和手动导入实现。这种实现方式，一方面需要专业的分析人员长时间投入分析运营规则以及人工配置，效率很低；另一方面...

【技术保护点】

【技术特征摘要】
1.一种面向多源异构数据归一化的装置由服务数据采集模块、特征向量提取模块、特征向量矩阵构建模块和特征聚类计算模块组成；服务数据采集模块负责接收来自不同应用的数据，来自不同应用的数据称为服务数据；服务数据采集模块为服务数据赋予数字化的服务标识，从而将来自不同应用的数据通过服务标识区别存储为带服务标识的服务数据；带服务标识的服务数据具有多源异构的特征，服务数据采集模块将带服务标识的服务数据发送给特征向量提取模块；特征向量提取模块对带服务标识的服务数据提取特征向量，根据数据的通用特性，特征向量的元素包括字段名和字段值，采用键值对的形式记录为(字段名，字段值)；同一个服务标识的带服务标识的服务数据具有多个特征向量，特征向量提取模块为同一个服务标识的带服务标识的服务数据的多个特征向量赋予数字化的向量标识；特征向量提取模块为所有带服务标识的服务数据都添加完向量标识后存储为带服务标识和向量标识的服务数据；特征向量提取模块将带服务标识和向量标识的服务数据发送给特征向量矩阵构建模块；字段名记为k，字段值记为v，服务标识记为m，特征向量维度为i，则带服务标识和向量标识的服务数据表示为：特征向量矩阵构建模块遍历带服务标识和向量标识的服务数据找到特征向量数量最多的服务标识，以特征向量最多的服务标识的特征向量数量为标准，将其他服务标识对应的带服务标识和向量标识的服务数据的特征向量以填充空位补足到特征向量最多的服务标识的特征向量数量；记特征向量最多的服务标识的特征向量数量为n，服务标识的种类为m，特征向量矩阵构建模块将所有带服务标识和向量标识的服务数据形成m乘以n的矩阵，称为特征矩阵，矩阵的任意元素记为a，，j...

【专利技术属性】
技术研发人员：林飞，刘波，程红，易永波，古元，毛华阳，华仲峰，
申请(专利权)人：北京亚鸿世纪科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人