一种多模态数据聚类方法技术

技术编号:39408814 阅读:6 留言:0更新日期:2023-11-19 16:00
本发明专利技术公开了一种多模态数据聚类方法,属于数据处理技术领域,包括获取样本数据集;提取图像数据的边缘特征;提取转录组数据的差异性特征,差异性特征包括mRNA特征和miRNA特征;计算各个样本数据的相关系数矩阵;采用软阈值,对相关系数矩阵进行非线性映射;计算各个样本与其余样本的连通度;计算离散化的连通度以及相应的概率,得到样本间距离矩阵;通过K

【技术实现步骤摘要】
一种多模态数据聚类方法


[0001]本专利技术属于数据处理
,具体涉及一种多模态数据聚类方法。

技术介绍

[0002]临床诊断中,同一肿瘤的不同患者对临床治疗的反应差异性往往是由肿瘤异质性引起的,目前已经有多项研究证明了肿瘤异质性的存在,这种异质性可能归因于肿瘤细胞增殖和分化过程中的突变。肿瘤异质性最终会转化为表型的不同,这一表型不仅指同一肿瘤不同患者对同一药物治疗实验的反应存在差异,还反映在患者肿瘤微环境中各种生物标志物的差异。
[0003]一方面,转录组数据是不同肿瘤亚型的一个十分关键的生物标记物。2015年Rikke Karlin Jepsen等人通过结直肠癌样本的microRNA表达数据,发现microRNA

92a,microRNA

375,microRNA

424在不同结直肠癌肿瘤亚型中表达具有差异性。转录组数据反映了细胞内基因的表达情况,能够提供大量的基因表达信息,包含了基因在不同条件下的表达水平,可以揭示细胞功能、代谢途径、信号通路等方面的差异。转录组数据通常具有高维度的特征向量,这使得在聚类分析中可以考虑更多的基因表达变化,有助于发现微小的差异。然而,由于转录组数据的高维特性,聚类算法在处理大规模数据时可能会造成计算复杂度增加。
[0004]另一方面,组织病理学图像对于癌症的早期识别和诊断起着重要作用,采用分析病理学图像手段参与癌症诊断的工作已经应用并且发展了许多年;Kowal等人比较和测试了用于细胞核分割的不同算法,通过分析病例的癌症图像的数据集用以判别病例患者的肿瘤是否为良性,准确率达到了96%以上。组织病理学图像直观地展示了组织细胞的形态学和结构,可以帮助医生或病理学家快速观察样本的特征,发现潜在的异常或病理变化。然而,组织病理学图像的解释和聚类通常需要专业的病理学家进行主观判断,可能会受到个体差异和主观经验的影响。并且,获取高质量的组织病理学图像需要进行组织切片、染色等处理,成本较高且时间耗费较多。
[0005]综上所述,转录组数据与组织病理学图像在对癌症样本进行聚类的过程中各有优缺点。

技术实现思路

[0006]为了解决现有技术中的转录组数据的数据维度高,聚类算法计算复杂度高,组织病理学图像易受到主观因素的影响,聚类准确性差的技术问题,本专利技术提供一种多模态数据聚类方法。
[0007]第一方面
[0008]本专利技术提供了一种多模态数据聚类方法,包括:
[0009]S101:获取样本数据集,样本数据集包括多个样本数据,每个样本数据包括图像数据与转录组数据;
[0010]S102:通过双边滤波器,对图像数据进行滤波处理;
[0011]S103:引入Sobel算子,计算滤波处理后的图像数据中像素点的梯度信息,梯度信息包括梯度强度和梯度方向;
[0012]S104:当滤波处理后的图像数据中存在多个梯度信息时,保留极大值像素点,抑制非极大值像素点;
[0013]S105:对非极大值抑制后的样本数据进行去噪处理,得到图像数据的边缘特征;
[0014]S106:提取转录组数据的差异性特征,差异性特征包括mRNA特征和miRNA特征;
[0015]S107:根据样本数据的边缘特征、mRNA特征和miRNA特征,计算各个样本数据的相关系数矩阵;
[0016]S108:采用软阈值,对相关系数矩阵进行非线性映射;
[0017]S109:计算各个样本与其余样本的连通度;
[0018]S110:通过Histogram算法,将连通度离散化,计算离散化的连通度以及相应的概率,得到样本间距离矩阵;
[0019]S111:通过K

means++聚类算法对样本数据在mRNA数据视图、microRNA数据视图以及Image数据视图下进行预聚类,得到预聚类信息;
[0020]S112:在mRNA数据视图、microRNA数据视图以及Image数据视图下将样本间距离矩阵转化为样本间相似度矩阵;
[0021]S113:根据预聚类信息,构建mRNA数据视图、microRNA数据视图以及Image数据视图下的核矩阵;
[0022]S114:根据核矩阵,对在mRNA数据视图、microRNA数据视图以及Image数据视图下的样本间相似度矩阵进行迭代;
[0023]S115:综合在mRNA数据视图、microRNA数据视图以及Image数据视图下的样本间相似度矩阵,得到样本间相似度融合矩阵;
[0024]S116:通过谱聚类算法,根据样本间相似度融合矩阵,对样本进行聚类。
[0025]与现有技术相比,本专利技术至少具有以下有益技术效果:
[0026]在本专利技术中,综合转录组数据以及组织病理学图像,提取组织病理学图像的边缘特征以及转录组数据的mRNA特征和miRNA特征,并对组织病理学图像的边缘特征以及转录组数据的mRNA特征和miRNA特征进行多模态融合得到样本间相似度融合矩阵,进而根据样本间相似度融合矩阵进行自动化聚类。对于转录组数据,仅需关注其中的mRNA特征和miRNA特征,降低了数据维度,减小聚类算法的复杂度,并且减少疾病评估过程中的主观因素的影响,通过多模态分析提升聚类评估的准确性。
附图说明
[0027]下面将以明确易懂的方式,结合附图说明优选实施方式,对本专利技术的上述特性、技术特征、优点及其实现方式予以进一步说明。
[0028]图1是本专利技术提供的一种多模态数据聚类方法的流程示意图。
具体实施方式
[0029]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对照附图说明
本专利技术的具体实施方式。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
[0030]为使图面简洁,各图中只示意性地表示出了与专利技术相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
[0031]还应当进一步理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0032]在本文中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接。可以是机械连接,也可以是电连接。可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。
[0033]另外,在本专利技术的描述中,术语“第一”、“第二”等仅用于区分描本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态数据聚类方法,其特征在于,包括:S101:获取样本数据集,所述样本数据集包括多个样本数据,每个所述样本数据包括图像数据与转录组数据;S102:通过双边滤波器,对所述图像数据进行滤波处理;S103:引入Sobel算子,计算滤波处理后的图像数据中像素点的梯度信息,所述梯度信息包括梯度强度和梯度方向;S104:当滤波处理后的图像数据中存在多个梯度信息时,保留极大值像素点,抑制非极大值像素点;S105:对非极大值抑制后的样本数据进行去噪处理,得到所述图像数据的边缘特征;S106:提取所述转录组数据的差异性特征,所述差异性特征包括mRNA特征和miRNA特征;S107:根据所述样本数据的边缘特征、mRNA特征和miRNA特征,计算各个样本数据的相关系数矩阵;S108:采用软阈值,对所述相关系数矩阵进行非线性映射;S109:计算各个样本与其余样本的连通度;S110:通过Histogram算法,将所述连通度离散化,计算离散化的连通度以及相应的概率,得到样本间距离矩阵;S111:通过K

means++聚类算法对样本数据在mRNA数据视图、microRNA数据视图以及Image数据视图下进行预聚类,得到预聚类信息;S112:在mRNA数据视图、microRNA数据视图以及Image数据视图下将所述样本间距离矩阵转化为样本间相似度矩阵;S113:根据所述预聚类信息,构建mRNA数据视图、microRNA数据视图以及Image数据视图下的核矩阵;S114:根据所述核矩阵,对在mRNA数据视图、microRNA数据视图以及Image数据视图下的样本间相似度矩阵进行迭代;S115:综合在mRNA数据视图、microRNA数据视图以及Image数据视图下的样本间相似度矩阵,得到样本间相似度融合矩阵;S116:通过谱聚类算法,根据所述样本间相似度融合矩阵,对样本进行聚类。2.根据权利要求1所述的多模态数据聚类方法,其特征在于,所述S102具体包括:S1021:将所述样本数据转换为像素矩阵;S1022:将当前像素点与周围半径为1个像素点位的邻域范围内的像素点进行非线性融合:其中,g(i,j)表示在当前像素点(i,j)处非线性融合后的像素值,S(i,j)表示在当前像素点(i,j)周围半径为1个像素点位的邻域范围内的像素点集合,(k,l)表示在当前像素点(i,j)周围的像素点坐标,f(k,l)表示在像素点(k,l)处的灰度值,w(i,j,k,l)表示当前像
素点(i,j)与像素点(k,l)之间的权重参数;其中,当前像素点(i,j)与像素点(k,l)之间的权重参数w(i,j,k,l)的计算方式为:w(i,j,k,l)=d(i,j,k,l)
·
r(i,j,k,l)r(i,j,k,l)其中,d(i,j,k,l)表示当前像素点(i,j)与像素点(k,l)之间的空间域权重,r(i,j,k,l)表示当前像素点(i,j)与像素点(k,l)之间的像素域权重,σ
d
表示空间域标准差,σ
r
表示像素域标准差。3.根据权利要求1所述的多模态数据聚类方法,其特征在于,所述S103具体包括:S1031:引入Sobel算子,计算滤波处理后的样本数据的水平特征矩阵S
x
和竖直特征矩阵S
y
::S1032:根据所述水平特征矩阵S
x
和所述竖直特征矩阵S
y
,计算水平方向梯度G
x
和竖直方向梯度G
y
:G
x
=S
x
IG
y
=S
y
I其中,I表示滤波处理后的样本数据的灰度值矩...

【专利技术属性】
技术研发人员:艾冬梅陈露露王艺舒
申请(专利权)人:北京科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1