当前位置: 首页 > 专利查询>万海峰专利>正文

异构数据的聚类整合方法、装置、设备及存储介质制造方法及图纸

技术编号:38608170 阅读:11 留言:0更新日期:2023-08-26 23:38
本发明专利技术涉及异构重组领域,公开了一种异构数据的聚类整合方法、装置、设备及存储介质。该方法包括:接收N个异构数据,对N个异构数据进行标准化处理,得到N个标准化异构数据,其中,N为正整数;对N个标准化异构数据进行术语频率分布计算处理,得到术语频率矩阵;基于数据结构和术语频率矩阵,对N个标准化异构数据进行结构聚类处理,得到第一聚类结果;基于数据语义和术语频率矩阵,对N个标准化异构数据进行语义聚类处理,得到第二聚类结果;根据预置聚类参数,对第一聚类结果和第二聚类结果进行选择处理,得到选择聚类结果;基于选择聚类结果,对N个标准化异构数据进行聚类相似合并处理,得到整合数据表。得到整合数据表。得到整合数据表。

【技术实现步骤摘要】
异构数据的聚类整合方法、装置、设备及存储介质


[0001]本专利技术涉及异构重组领域,尤其涉及一种异构数据的聚类整合方法、装置、设备及存储介质。

技术介绍

[0002]报表是一种数据统计方法,利用图形表格来更直观的显示各类数据。随着现代企业管理技术的发展与应用,企业需要更加高效的报表来处理大量的数据和展示数据处理结果。传统的报表工具通常作为信息管理系统的子功能,针对企业某部门的特定项目需求进行定制开发。这种定制化的报表一旦需要的数据或者格式发生改变,则需要进行重新开发,该方式很大程度上降低了企业工作效率。而且需要投入专门的人力和财力来维护开发好的报表系统,增大了企业的运营成本。而自定义报表技术对于报表格式的更改无需修改程序或重新编译,可以根据用户的需求快捷灵活的绘制报表,实现报表的高效管理。
[0003]目前,各行业、企业各部门的应用系统经过多年的使用,积累了丰富的数据,这些数据在企业的经营与决策都是必不可少的重要依据。然而这些丰富的数据资源由于建设时期不同、开发部门不同、使用设备不同、技术发展阶段不同和能力水平的不同等,数据存储管理极为分散,造成了过量的数据冗余和数据不一致性,使得数据资源难于查询访问,企业管理层无法获得有效的决策数据支持。因此为了提高信息资源的利用程度,需要将不同数据信息库中的数据集成到一个平台上集中管理和使用,同时利用自定义报表系统快速生成各类相关的数据报表供企业决策。
[0004]在这个过程中,需要解决的问题是不同数据信息库中的异构数据整合问题。这类数据异构问题通常是由于数据的多源性导致的,由于这些数据保存于不同的信息系统,其标注标准及标注人员的水平均存在差异。因此,针对当前异构数据导致数据无法通用管理的问题,需要一种新的技术。

技术实现思路

[0005]本专利技术的主要目的在于解决当前异构数据导致数据无法通用管理的技术问题。
[0006]本专利技术第一方面提供了一种异构数据的聚类整合方法,所述异构数据的聚类整合方法包括:
[0007]接收N个异构数据,对N个所述异构数据进行标准化处理,得到N个标准化异构数据,其中,N为正整数;
[0008]对N个所述标准化异构数据进行术语频率分布计算处理,得到术语频率矩阵;
[0009]基于数据结构和所述术语频率矩阵,对N个所述标准化异构数据进行结构聚类处理,得到第一聚类结果;
[0010]基于数据语义和所述术语频率矩阵,对N个所述标准化异构数据进行语义聚类处理,得到第二聚类结果;
[0011]根据预置聚类参数,对所述第一聚类结果和所述第二聚类结果进行选择处理,得
到选择聚类结果;
[0012]基于所述选择聚类结果,对N个所述标准化异构数据进行聚类相似合并处理,得到整合数据表。
[0013]可选的,在本专利技术第一方面的第一种实现方式中,,所述基于数据语义和所述术语频率矩阵,对N个所述标准化异构数据进行语义聚类处理,得到第二聚类结果包括:
[0014]基于N个所述标准化异构数据与所述术语频率矩阵的映射关系,将所述术语频率矩阵拆分为N个术语频率向量,得到N个所述标准化异构数据对应的N个术语频率向量;
[0015]基于预置映射网络,将所述N个术语频率向量进行节点映射处理,得到M个输出节点,其中,M为正整数;
[0016]基于预置距离公式,计算出节点距离d
ij
,其中,所述距离公式包括:
[0017][0018]为第i个术语频率向量在t时刻的值,w
ij
为第i个术语频率向量至第j个输出节点的权重向量,d
ij
为第i个术语频率向量至的第j个输出节点的节点距离;
[0019]根据预置竞赛学习算法,对所述节点距离d
ij
进行自适应权重修改处理,得到第二聚类结果。
[0020]可选的,在本专利技术第一方面的第二种实现方式中,所述基于数据结构和所述术语频率矩阵,对N个所述标准化异构数据进行结构聚类处理,得到第一聚类结果包括:
[0021]根据预置莱文斯坦距离算法,对所述术语频率矩阵计算处理,得到所述术语频率矩阵对应的莱文斯坦距离矩阵;
[0022]基于预置k

means算法,对所述莱文斯坦距离矩阵进行聚类迭代处理,得到第一聚类结果。
[0023]可选的,在本专利技术第一方面的第三种实现方式中,所述根据预置聚类参数,对所述第一聚类结果和所述第二聚类结果进行选择处理,得到选择聚类结果包括:
[0024]基于预置衡量公式,计算出聚类参数,其中,所述衡量公式包括:
[0025]Q=a*MAX1(n)+(1

a)MAX2(n)
[0026]其中,a为预设权重系数,MAX1(n)为第一聚类结果的最大值,MAX2(n)为第二聚类结果的最大值,Q为聚类参数;
[0027]根据预置选择规则和所述聚类参数,对所述第一聚类结果和所述第二聚类结果进行选择处理,得到选择聚类结果。
[0028]可选的,在本专利技术第一方面的第四种实现方式中,所述基于所述选择聚类结果,对所述标准化异构数据进行聚类相似合并处理,得到整合数据表包括:
[0029]基于所述选择聚类结果,对N个所述标准化异构数据进行相似度筛选处理,得到2个相似的标准化异构数据和N

2个剩余的标准化异构数据;
[0030]将2个相似的标准化异构数据进行组合处理,得到初步整合异构数据;
[0031]对初步整合异构数据进行空值删除处理,得到去空整合异构数据;
[0032]基于所述选择聚类结果,对所述去空整合异构数据进行相似度行列合并处理,得到合并的标准化异构数据;
[0033]将所述合并的标准化异构数据确定为整合数据表。
[0034]可选的,在本专利技术第一方面的第五种实现方式中,所述将所述合并的标准化异构数据确定为整合数据表包括:
[0035]将所有剩余的标准化异构数据存在与合并的标准化异构数据进行相似度筛选处理,得到筛选结果;
[0036]判断所述筛选结果是否为空;
[0037]若不为空,则将2个相似的标准化异构数据进行组合处理,得到初步整合异构数据,进行循环处理;
[0038]若为空,则将合并的标准化异构数据确定为整合数据表。
[0039]可选的,在本专利技术第一方面的第六种实现方式中,所述接收N个异构数据,对N个所述异构数据进行标准化处理,得到N个标准化异构数据包括:
[0040]接收N个异构数据;
[0041]删除N个所述异构数据中空值大于删除阈值的列,得到N个第一清除异构数据;
[0042]基于预置字符表,删除N个所述第一清除异构数据中的特定字符,得到N个第二清除异构数据;
[0043]根据预置词根映射表,对N个所述第二清除异构数据进行词根映射处理,生成N个标准化异构数据。
[0044]本专利技术第二方面提供了一种异构数据的聚类整合装置,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异构数据的聚类整合方法,其特征在于,包括步骤:接收N个异构数据,对N个所述异构数据进行标准化处理,得到N个标准化异构数据,其中,N为正整数;对N个所述标准化异构数据进行术语频率分布计算处理,得到术语频率矩阵;基于数据结构和所述术语频率矩阵,对N个所述标准化异构数据进行结构聚类处理,得到第一聚类结果;基于数据语义和所述术语频率矩阵,对N个所述标准化异构数据进行语义聚类处理,得到第二聚类结果;根据预置聚类参数,对所述第一聚类结果和所述第二聚类结果进行选择处理,得到选择聚类结果;基于所述选择聚类结果,对N个所述标准化异构数据进行聚类相似合并处理,得到整合数据表。2.根据权利要求1所述异构数据的聚类整合方法,其特征在于,所述基于数据语义和所述术语频率矩阵,对N个所述标准化异构数据进行语义聚类处理,得到第二聚类结果包括:基于N个所述标准化异构数据与所述术语频率矩阵的映射关系,将所述术语频率矩阵拆分为N个术语频率向量,得到N个所述标准化异构数据对应的N个术语频率向量;基于预置映射网络,将所述N个术语频率向量进行节点映射处理,得到M个输出节点,其中,M为正整数;基于预置距离公式,计算出节点距离d
ij
,其中,所述距离公式包括:x
i
(t)为第i个术语频率向量在t时刻的值,w
ij
为第i个术语频率向量至第j个输出节点的权重向量,d
ij
为第i个术语频率向量至的第j个输出节点的节点距离;根据预置竞赛学习算法,对所述节点距离d
ij
进行自适应权重修改处理,得到第二聚类结果。3.根据权利要求1所述的异构数据的聚类整合方法,其特征在于,所述基于数据结构和所述术语频率矩阵,对N个所述标准化异构数据进行结构聚类处理,得到第一聚类结果包括:根据预置莱文斯坦距离算法,对所述术语频率矩阵计算处理,得到所述术语频率矩阵对应的莱文斯坦距离矩阵;基于预置k

means算法,对所述莱文斯坦距离矩阵进行聚类迭代处理,得到第一聚类结果。4.根据权利要求1所述的异构数据的聚类整合方法,其特征在于,所述根据预置聚类参数,对所述第一聚类结果和所述第二聚类结果进行选择处理,得到选择聚类结果包括:基于预置衡量公式,计算出聚类参数,其中,所述衡量公式包括:Q=a*MAX1(n)+(1

a)MAX2(n)其中,a为预设权重系数,MAX1(n)为第一聚类结果的最大值,MAX2(n)为第二聚类结果的最大值,Q为聚类参数;根据预置选择规则和所述聚类参数,对所述第一聚类结果和所述第二聚类结果进行选
择处理,得到选择聚类结果。5.根据权利要求1所述的异构数据的聚类整合方法,其特征在于,所述基于所述选择聚类结果,对所述标准化异构数据进行聚类相似合并处理,得到整合数...

【专利技术属性】
技术研发人员:万海峰叶筱一徐雅琪谢鑫蔡思源
申请(专利权)人:万海峰
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1