【技术实现步骤摘要】
基于多视图聚类的患者群落识别方法、系统、设备及介质
[0001]本专利技术涉及医疗数据处理
,特别是涉及一种基于多视图聚类的患者群落识别方法、系统、设备及介质。
技术介绍
[0002]近年来,数据的采集技术、传输技术、存储技术都得到了迅猛的发展。这些技术的快速发展改变了人们的生活,为人们带来了全新的体验,如互联网搜索、网上购物、医疗信息系统等。与此同时,随着医院信息化水平的提高,电子病历的规模正在变的越来越大,电子病历的质量正在变的越来越高。大规模高质量的电子病历为医院管理、临床评估、医学发现提供了新的视野和宝贵的数据资源。
[0003]面对海量的数据资源,如何从中获取知识,是大数据时代最为重要的研究课题。无监督学习的目标是通过对无标记训练样本的学习,发掘和揭示数据集本身潜在的结构与规律。聚类分析就是数据挖掘、机器学习领域中一种经典且基础的无监督学习方法,近年来在客户关系管理、社区发现、临床路径分析、企业绩效评估等众多实际场景中得到广泛应用。聚类试图将数据集的样本划分为若干个互不相交的类簇,使得每个簇对应一个潜 ...
【技术保护点】
【技术特征摘要】
1.一种基于多视图聚类的患者群落识别方法,其特征在于,包括:获取设定数量个电子病历的多视图数据;所述多视图数据中每个视图为设定数量个电子病历的特征数据的集合,每个电子病历对应一个患者;为每个视图构建二部图矩阵;基于每个视图的二部图矩阵,为每个视图初始化嵌入矩阵、联合谱嵌入矩阵、聚类指示矩阵和视图权重;根据所述多视图数据,以及每个视图的嵌入矩阵、联合谱嵌入矩阵、聚类指示矩阵和视图权重构建多视图聚类目标函数;通过迭代更新的方式,最小化所述多视图聚类目标函数,直到满足迭代停止条件,输出最终的聚类指示矩阵;根据所述聚类指示矩阵对设定数量个患者进行群落识别。2.根据权利要求1所述的基于多视图聚类的患者群落识别方法,其特征在于,所述多视图数据表示为{X1,X2,...,X
m
};其中,v=1,2,...,m,X
v
表示第v个视图的特征数据的集合,m表示视图的数量,n表示电子病历的数量,d
v
是第v个视图的特征维度。3.根据权利要求1所述的基于多视图聚类的患者群落识别方法,其特征在于,为每个视图构建二部图矩阵,具体包括:采用K
‑
Means聚类算法对每个视图的特征数据进行聚类,得到锚点矩阵;根据所述锚点矩阵,采用k近邻方法确定二部图矩阵。4.根据权利要求1所述的基于多视图聚类的患者群落识别方法,其特征在于,基于每个视图的二部图矩阵,为每个视图初始化嵌入矩阵、联合谱嵌入矩阵、聚类指示矩阵和视图权重,具体包括:根据每个视图的二部图矩阵,确定每个视图的相似度矩阵;获得每个相似度矩阵的拉普拉斯矩阵;将每个拉普拉斯矩阵的前c个特征值对应的特征向量初始化为对应视图的嵌入矩阵;随机初始化正交矩阵作为联合谱嵌入矩阵;根据联合谱嵌入矩阵初始化聚类指示矩阵;初始化每个视图的视图权重为1/m,m表示视图的数量。5.根据权利要求3所述的基于多视图聚类的患者群落识别方法,其特征在于,所述多视图聚类目标函数表示为:图聚类目标函数表示为:图聚类目标函数表示为:G∈{0,1}其中,Z
v
表示第v个视图的二部图矩阵,F
v
表示第v个视图的嵌入矩阵,F
*
表示联合谱嵌
入矩阵,G表示聚类指示矩阵,m表示视图的数量,X
v
表示第v个视图的特征数据的集合,A
v
表示第v个视图的锚点矩阵,S
v
表示第v个视...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。