一种多模态数据聚类方法技术

技术编号：39408814 阅读：6 留言：0更新日期：2023-11-19 16:00

本发明专利技术公开了一种多模态数据聚类方法，属于数据处理技术领域，包括获取样本数据集；提取图像数据的边缘特征；提取转录组数据的差异性特征，差异性特征包括mRNA特征和miRNA特征；计算各个样本数据的相关系数矩阵；采用软阈值，对相关系数矩阵进行非线性映射；计算各个样本与其余样本的连通度；计算离散化的连通度以及相应的概率，得到样本间距离矩阵；通过K

全部详细技术资料下载

【技术实现步骤摘要】
一种多模态数据聚类方法

[0001]本专利技术属于数据处理
，具体涉及一种多模态数据聚类方法。

技术介绍

[0002]临床诊断中，同一肿瘤的不同患者对临床治疗的反应差异性往往是由肿瘤异质性引起的，目前已经有多项研究证明了肿瘤异质性的存在，这种异质性可能归因于肿瘤细胞增殖和分化过程中的突变。肿瘤异质性最终会转化为表型的不同，这一表型不仅指同一肿瘤不同患者对同一药物治疗实验的反应存在差异，还反映在患者肿瘤微环境中各种生物标志物的差异。
[0003]一方面，转录组数据是不同肿瘤亚型的一个十分关键的生物标记物。2015年Rikke Karlin Jepsen等人通过结直肠癌样本的microRNA表达数据，发现microRNA
‑
92a，microRNA
‑
375，microRNA
‑
424在不同结直肠癌肿瘤亚型中表达具有差异性。转录组数据反映了细胞内基因的表达情况，能够提供大量的基因表达信息，包含了基因在不同条件下的表达水平，可以揭示细胞功能、代谢途径、信号通路等方面的差异。转录组数据通常具有高维度的特征向量，这使得在聚类分析中可以考虑更多的基因表达变化，有助于发现微小的差异。然而，由于转录组数据的高维特性，聚类算法在处理大规模数据时可能会造成计算复杂度增加。
[0004]另一方面，组织病理学图像对于癌症的早期识别和诊断起着重要作用，采用分析病理学图像手段参与癌症诊断的工作已经应用并且发展了许多年；Kowal等人比较和测试了用于细胞核分割的不同算法，...

【技术保护点】

【技术特征摘要】
1.一种多模态数据聚类方法，其特征在于，包括：S101：获取样本数据集，所述样本数据集包括多个样本数据，每个所述样本数据包括图像数据与转录组数据；S102：通过双边滤波器，对所述图像数据进行滤波处理；S103：引入Sobel算子，计算滤波处理后的图像数据中像素点的梯度信息，所述梯度信息包括梯度强度和梯度方向；S104：当滤波处理后的图像数据中存在多个梯度信息时，保留极大值像素点，抑制非极大值像素点；S105：对非极大值抑制后的样本数据进行去噪处理，得到所述图像数据的边缘特征；S106：提取所述转录组数据的差异性特征，所述差异性特征包括mRNA特征和miRNA特征；S107：根据所述样本数据的边缘特征、mRNA特征和miRNA特征，计算各个样本数据的相关系数矩阵；S108：采用软阈值，对所述相关系数矩阵进行非线性映射；S109：计算各个样本与其余样本的连通度；S110：通过Histogram算法，将所述连通度离散化，计算离散化的连通度以及相应的概率，得到样本间距离矩阵；S111：通过K
‑
means++聚类算法对样本数据在mRNA数据视图、microRNA数据视图以及Image数据视图下进行预聚类，得到预聚类信息；S112：在mRNA数据视图、microRNA数据视图以及Image数据视图下将所述样本间距离矩阵转化为样本间相似度矩阵；S113：根据所述预聚类信息，构建mRNA数据视图、microRNA数据视图以及Image数据视图下的核矩阵；S114：根据所述核矩阵，对在mRNA数据视图、microRNA数据视图以及Image数据视图下的样本间相似度矩阵进行迭代；S115：综合在mRNA数据视图、microRNA数据视图以及Image数据视图下的样本间相似度矩阵，得到样本间相似度融合矩阵；S116：通过谱聚类算法，根据所述样本间相似度融合矩阵，对样本进行聚类。2.根据权利要求1所述的多模态数据聚类方法，其特征在于，所述S102具体包括：S1021：将所述样本数据转换为像素矩阵；S1022：将当前像素点与周围半径为1个像素点位的邻域范围内的像素点进行非线性融合：其中，g(i,j)表示在当前像素点(i,j)处非线性融合后的像素值，S(i,j)表示在当前像素点(i,j)周围半径为1个像素点位的邻域范围内的像素点集合，(k,l)表示在当前像素点(i,j)周围的像素点坐标，f(k,l)表示在像素点(k,l)处的灰度值，w(i,j,k,l)表示当前像
素点(i,j)与像素点(k,l)之间的权重参数；其中，当前像素点(i,j)与像素点(k,l)之间的权重参数w(i,j,k,l)的计算方式为：w(i,j,k,l)＝d(i,j,k,l)
·
r(i,j,k,l)r(i,j,k,l)其中，d(i,j,k,l)表示当前像素点(i,j)与像素点(k,l)之间的空间域权重，r(i,j,k,l)表示当前像素点(i,j)与像素点(k,l)之间的像素域权重，σ
d
表示空间域标准差，σ
r
表示像素域标准差。3.根据权利要求1所述的多模态数据聚类方法，其特征在于，所述S103具体包括：S1031：引入Sobel算子，计算滤波处理后的样本数据的水平特征矩阵S
x
和竖直特征矩阵S
y
：：S1032：根据所述水平特征矩阵S
x
和所述竖直特征矩阵S
y
，计算水平方向梯度G
x
和竖直方向梯度G
y
：G
x
＝S
x
IG
y
＝S
y
I其中，I表示滤波处理后的样本数据的灰度值矩...

【专利技术属性】
技术研发人员：艾冬梅，陈露露，王艺舒，
申请(专利权)人：北京科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人