异构数据的聚类整合方法、装置、设备及存储介质制造方法及图纸

技术编号：38608170 阅读：11 留言：0更新日期：2023-08-26 23:38

本发明专利技术涉及异构重组领域，公开了一种异构数据的聚类整合方法、装置、设备及存储介质。该方法包括：接收N个异构数据，对N个异构数据进行标准化处理，得到N个标准化异构数据，其中，N为正整数；对N个标准化异构数据进行术语频率分布计算处理，得到术语频率矩阵；基于数据结构和术语频率矩阵，对N个标准化异构数据进行结构聚类处理，得到第一聚类结果；基于数据语义和术语频率矩阵，对N个标准化异构数据进行语义聚类处理，得到第二聚类结果；根据预置聚类参数，对第一聚类结果和第二聚类结果进行选择处理，得到选择聚类结果；基于选择聚类结果，对N个标准化异构数据进行聚类相似合并处理，得到整合数据表。得到整合数据表。得到整合数据表。

全部详细技术资料下载

【技术实现步骤摘要】
异构数据的聚类整合方法、装置、设备及存储介质

[0001]本专利技术涉及异构重组领域，尤其涉及一种异构数据的聚类整合方法、装置、设备及存储介质。

技术介绍

[0002]报表是一种数据统计方法，利用图形表格来更直观的显示各类数据。随着现代企业管理技术的发展与应用，企业需要更加高效的报表来处理大量的数据和展示数据处理结果。传统的报表工具通常作为信息管理系统的子功能，针对企业某部门的特定项目需求进行定制开发。这种定制化的报表一旦需要的数据或者格式发生改变，则需要进行重新开发，该方式很大程度上降低了企业工作效率。而且需要投入专门的人力和财力来维护开发好的报表系统，增大了企业的运营成本。而自定义报表技术对于报表格式的更改无需修改程序或重新编译，可以根据用户的需求快捷灵活的绘制报表，实现报表的高效管理。
[0003]目前，各行业、企业各部门的应用系统经过多年的使用，积累了丰富的数据，这些数据在企业的经营与决策都是必不可少的重要依据。然而这些丰富的数据资源由于建设时期不同、开发部门不同、使用设备不同、技术发展阶段不同和能力水平的不同等，数据存储管理极为分散，造成了过量的数据冗余和数据不一致性，使得数据资源难于查询访问，企业管理层无法获得有效的决策数据支持。因此为了提高信息资源的利用程度，需要将不同数据信息库中的数据集成到一个平台上集中管理和使用，同时利用自定义报表系统快速生成各类相关的数据报表供企业决策。
[0004]在这个过程中，需要解决的问题是不同数据信息库中的异构数据整合问题。这类数据异构问题通常是由于数据的...

【技术保护点】

【技术特征摘要】
1.一种异构数据的聚类整合方法，其特征在于，包括步骤：接收N个异构数据，对N个所述异构数据进行标准化处理，得到N个标准化异构数据，其中，N为正整数；对N个所述标准化异构数据进行术语频率分布计算处理，得到术语频率矩阵；基于数据结构和所述术语频率矩阵，对N个所述标准化异构数据进行结构聚类处理，得到第一聚类结果；基于数据语义和所述术语频率矩阵，对N个所述标准化异构数据进行语义聚类处理，得到第二聚类结果；根据预置聚类参数，对所述第一聚类结果和所述第二聚类结果进行选择处理，得到选择聚类结果；基于所述选择聚类结果，对N个所述标准化异构数据进行聚类相似合并处理，得到整合数据表。2.根据权利要求1所述异构数据的聚类整合方法，其特征在于，所述基于数据语义和所述术语频率矩阵，对N个所述标准化异构数据进行语义聚类处理，得到第二聚类结果包括：基于N个所述标准化异构数据与所述术语频率矩阵的映射关系，将所述术语频率矩阵拆分为N个术语频率向量，得到N个所述标准化异构数据对应的N个术语频率向量；基于预置映射网络，将所述N个术语频率向量进行节点映射处理，得到M个输出节点，其中，M为正整数；基于预置距离公式，计算出节点距离d
ij
，其中，所述距离公式包括：x
i
(t)为第i个术语频率向量在t时刻的值，w
ij
为第i个术语频率向量至第j个输出节点的权重向量，d
ij
为第i个术语频率向量至的第j个输出节点的节点距离；根据预置竞赛学习算法，对所述节点距离d
ij
进行自适应权重修改处理，得到第二聚类结果。3.根据权利要求1所述的异构数据的聚类整合方法，其特征在于，所述基于数据结构和所述术语频率矩阵，对N个所述标准化异构数据进行结构聚类处理，得到第一聚类结果包括：根据预置莱文斯坦距离算法，对所述术语频率矩阵计算处理，得到所述术语频率矩阵对应的莱文斯坦距离矩阵；基于预置k
‑
means算法，对所述莱文斯坦距离矩阵进行聚类迭代处理，得到第一聚类结果。4.根据权利要求1所述的异构数据的聚类整合方法，其特征在于，所述根据预置聚类参数，对所述第一聚类结果和所述第二聚类结果进行选择处理，得到选择聚类结果包括：基于预置衡量公式，计算出聚类参数，其中，所述衡量公式包括：Q＝a*MAX1(n)+(1
‑
a)MAX2(n)其中，a为预设权重系数，MAX1(n)为第一聚类结果的最大值，MAX2(n)为第二聚类结果的最大值，Q为聚类参数；根据预置选择规则和所述聚类参数，对所述第一聚类结果和所述第二聚类结果进行选
择处理，得到选择聚类结果。5.根据权利要求1所述的异构数据的聚类整合方法，其特征在于，所述基于所述选择聚类结果，对所述标准化异构数据进行聚类相似合并处理，得到整合数...

【专利技术属性】
技术研发人员：万海峰，叶筱一，徐雅琪，谢鑫，蔡思源，
申请(专利权)人：万海峰，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人