一种面向多源异构数据归一化的方法及装置制造方法及图纸

技术编号:36394914 阅读:24 留言:0更新日期:2023-01-18 10:00
一种面向多源异构数据归一化的方法及装置涉及信息技术领域。本发明专利技术由服务数据采集模块、特征向量提取模块、特征向量矩阵构建模块和特征聚类计算模块组成;通用的多源异构数据归一化方法和系统,通过相似度和聚类算法,对多源异构数据进行自动化解析和聚类,实现异构数据形式、内容和规格的归一化,有效解决海量多源异构数据分析处理过程中,数据类型多、结构不一且灵活多变的问题,极大提升分析效率。极大提升分析效率。极大提升分析效率。

【技术实现步骤摘要】
一种面向多源异构数据归一化的方法及装置


[0001]本专利技术涉及信息


技术介绍

[0002]当前,各垂直行业,尤其是工业领域,如生产制造、能源化工、采矿冶金等行业中,生产单位和企事业主体,在运行中持续不断地产生大量的多源异构数据,这些数据分布在不同区域,不同的设备和系统中,并无交集也未被利用。
[0003]随着工业化和信息化的不断融合,对多源异构数据进行统一汇聚、统一分析、统一处理和统一使用的需求越来越迫切,实现多源异构数据的四个统一,将极大推进工业化和信息化两化融合,在提升企业生产、运营效率以及安全防护水平,降低成本等方面,具有重大意义。尤其能够将来自不同服务的多元异构数据进行聚类整合后,反馈给前端服务使前端服务形成关联性,从而整合成为服务链具有及其重要的意义。
[0004]在企业的生产制造、安全监测、营销管理等各领域和各环节中,产生海量的多源异构数据,随着工业化和信息化两化融合的推进和扩大,如何将这些海量的数据进行采集、规整和分析,消除数据孤岛,帮助企业加速和畅通数据流转,提升生产效率,掌握整体态势,都有重大意义。
[0005]但是,多源异构数据采集分析的难点是数据格式和内容参差不齐,没有统一的规范,即使将数据强行汇聚起来,也只能原样保存,并不能进行有效的关联分析。目前市场上也不乏多源异构数据的采集和分析方案,但现有方案普遍采用针对特定的场景和指定的数据,通过人工分析规则和手动导入实现。这种实现方式,一方面需要专业的分析人员长时间投入分析运营规则以及人工配置,效率很低;另一方面,当多源异构数据变更时,现有的方案无论在数据的接入还是分析处理环节,均无法有效应对变化,缺乏灵活性和可扩展性。
[0006]通过多元异构数据的聚类进行服务链编排的方法及装置针对上述问题,提出一种通用的多源异构数据归一化方法和系统,通过相似度和聚类算法,对多源异构数据进行自动化解析和聚类,实现异构数据形式、内容和规格的归一化,有效解决海量多源异构数据分析处理过程中,数据类型多、结构不一且灵活多变的问题,极大提升分析效率,通过对多元异构数据的聚类后,反馈给服务端即可将前端服务有效的整合为一个服务链。
[0007]用到的现有技术说明特征的聚类,本质上是针对键值的相似度计算。以下是共有技术中几种相似度计算方法的简单介绍:1. 欧几里得距离欧几里得度量也称欧氏距离是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度。在二维和三维空间中的欧氏距离就是两点之间的实际距离。
[0008]2. 皮尔逊相关系数皮尔逊相关系数是用协方差除以两个变量的标准差得到的,虽然协方差能反映两
个随机变量的相关程度,但其数值上受量纲的影响很大,不能简单地从协方差的数值大小给出变量相关程度的判断。为了消除这种量纲的影响,于是就有了相关系数的概念。
[0009]3. 余弦相似度余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。
[0010]4. Tanimoto系数即广义Jaccard相似系数 定义:广义Jaccard相似度,元素的取值可以是实数。又叫作谷本系数。关系:如果我们的x,y都是二值向量,那么Tanimoto系数就等同Jaccard距离。
[0011]不同的相似度计算方法试用的场景有所区别,余弦相似度用来计算变化趋势的一致性比较准确,欧几里得距离用来区分价值和数值水平比较准确。
[0012]应用指一个组织形式基于电子化的业务系统和管理系统,应用以电子化的服务作为其表现形式。
[0013]GoogleMoses Charikar发表的一篇论文《detecting near

duplicates for web crawling》中提出了simhash算法,专门用来解决亿万级别的网页的去重任务。simhash算法分为5个步骤:分词、hash、加权、合并、降维,具体过程如下所述:分词给定一段语句,进行分词,得到有效的特征向量,然后为每一个特征向量设置1

5等5个级别的权重,数字越大代表越重要。
[0014]hash通过hash函数计算各个特征向量的hash值,字符串就变成了一系列数字;加权在hash值的基础上,给所有特征向量进行加权,遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘;合并将上述各个特征向量的加权结果累加,变成只有一个序列串;降维对于n

bit签名的累加结果,如果大于0则置1,否则置0,从而得到该语句的simhash值。

技术实现思路

[0015]鉴于现有技术的不足,本专利技术提供的一种面向多源异构数据归一化的方法及装置由服务数据采集模块、特征向量提取模块、特征向量矩阵构建模块和特征聚类计算模块组成;服务数据采集模块负责接收来自不同应用的数据,来自不同应用的数据称为服务数据;服务数据采集模块为服务数据赋予数字化的服务标识,从而将来自不同应用的数据通过服务标识区别存储为带服务标识的服务数据;带服务标识的服务数据具有多源异构的特征,服务数据采集模块将带服务标识的服务数据发送给特征向量提取模块;特征向量提取模块对带服务标识的服务数据提取特征向量,根据数据的通用特
性,特征向量的元素包括字段名和字段值,采用键值对的形式记录为(字段名,字段值);同一个服务标识的带服务标识的服务数据具有多个特征向量,特征向量提取模块为同一个服务标识的带服务标识的服务数据的多个特征向量赋予数字化的向量标识;特征向量提取模块为所有带服务标识的服务数据都添加完向量标识后存储为带服务标识和向量标识的服务数据;特征向量提取模块将带服务标识和向量标识的服务数据发送给特征向量矩阵构建模块;字段名记为k,字段值记为v,服务标识记为m,特征向量维度为i,则带服务标识和向量标识的服务数据表示为:特征向量矩阵构建模块遍历带服务标识和向量标识的服务数据找到特征向量数量最多的服务标识,以特征向量最多的服务标识的特征向量数量为标准,将其他服务标识对应的带服务标识和向量标识的服务数据的特征向量以填充空位补足到特征向量最多的服务标识的特征向量数量;记特征向量最多的服务标识的特征向量数量为n,服务标识的种类为m,特征向量矩阵构建模块将所有带服务标识和向量标识的服务数据形成m乘以n的矩阵,称为特征矩阵,矩阵的任意元素记为a,,j为服务标识维度,i为向量标识维度;特征矩阵A表示为:;由特征聚类计算模块对特征矩阵中的每个非0元素进行字段名的聚类计算,即针对中的k进行相似度计算,对特征矩阵A的所有非0元素计算键值k的simhash,可得到m
×
n的矩阵B,相似度矩阵B表示为:;其中某个元素为:, simhash()为相似度hash的计算函数;以矩阵B的每一行为计算粒度,对该行的每个元素,与后续行的元素进行海明距离计算,以下列条件在每一行选择满足条件的元素生成矩阵C,要满足的条件包括:条本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向多源异构数据归一化的装置由服务数据采集模块、特征向量提取模块、特征向量矩阵构建模块和特征聚类计算模块组成;服务数据采集模块负责接收来自不同应用的数据,来自不同应用的数据称为服务数据;服务数据采集模块为服务数据赋予数字化的服务标识,从而将来自不同应用的数据通过服务标识区别存储为带服务标识的服务数据;带服务标识的服务数据具有多源异构的特征,服务数据采集模块将带服务标识的服务数据发送给特征向量提取模块;特征向量提取模块对带服务标识的服务数据提取特征向量,根据数据的通用特性,特征向量的元素包括字段名和字段值,采用键值对的形式记录为(字段名,字段值);同一个服务标识的带服务标识的服务数据具有多个特征向量,特征向量提取模块为同一个服务标识的带服务标识的服务数据的多个特征向量赋予数字化的向量标识;特征向量提取模块为所有带服务标识的服务数据都添加完向量标识后存储为带服务标识和向量标识的服务数据;特征向量提取模块将带服务标识和向量标识的服务数据发送给特征向量矩阵构建模块;字段名记为k,字段值记为v,服务标识记为m,特征向量维度为i,则带服务标识和向量标识的服务数据表示为:特征向量矩阵构建模块遍历带服务标识和向量标识的服务数据找到特征向量数量最多的服务标识,以特征向量最多的服务标识的特征向量数量为标准,将其他服务标识对应的带服务标识和向量标识的服务数据的特征向量以填充空位补足到特征向量最多的服务标识的特征向量数量;记特征向量最多的服务标识的特征向量数量为n,服务标识的种类为m,特征向量矩阵构建模块将所有带服务标识和向量标识的服务数据形成m乘以n的矩阵,称为特征矩阵,矩阵的任意元素记为a,,j...

【专利技术属性】
技术研发人员:林飞刘波程红易永波古元毛华阳华仲峰
申请(专利权)人:北京亚鸿世纪科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1