一种基于ceRNA网络的癌症基因挖掘分析方法技术

技术编号:36432108 阅读:25 留言:0更新日期:2023-01-20 22:44
本发明专利技术公开了一种基于ceRNA网络的癌症基因挖掘分析方法,步骤:获取患有目标癌症的患者以及未患病的患者的基因表达数据以及病理图像;对相关病理图像进行处理,提取病理图像切割的细胞核的核级特征,作为WSI特征;根据基因表达数据构建反映不同RNA之间连接关系的ceRNA网络;建立不同RNA的配对的稀疏矩阵,将WSI特征与mRNA数据进行皮尔逊相关系数求解;利用JSNMCNMF算法整合WSI、mRNA、miRNA和lncRNA四部分数据,得到mRNA与WSI之间的关系;利用KJMCNMF算法获取ceRNA网络中的隐含连接关系。本发明专利技术的方法,首次构建了基因与病理图像之间的关系,为癌症研究提供新的方向。为癌症研究提供新的方向。为癌症研究提供新的方向。

【技术实现步骤摘要】
一种基于ceRNA网络的癌症基因挖掘分析方法


[0001]本专利技术涉及生物信息学
,涉及一种基于ceRNA网络的癌症基因挖掘分析方法。

技术介绍

[0002]癌症是全球死亡人数中致病的主要原因之一,其中最为常见的有肺癌、胃癌、肝癌和乳癌等,其可发生在身体的任何一个部位,又称之为恶性肿瘤。其原因是由于体细胞失去正常调控,造成的异常细胞过度增殖,并常常带有侵犯性,经体内循环和淋巴系统转移到身体其他部位上去,对身体造成严重的损伤。从分子层面上去看,癌症导致某一个细胞基因组发生突变,包括有点突变、插入突变、缺失突变和染色体易位等。从外表上看,可导致细胞或组织生长异常,在患者皮肤或组织深处留下症状。近年来随着现代医疗科技水平的不断提高,除了使用手术、生物治疗、化疗、放疗等方式外,靶向治疗、个性化治疗成为新兴的治疗方式。其根据基因层面,找出与正常细胞不同的突变点位,利用药物与癌症点位相结合,从而导致肿瘤细胞失效。然而一般基因测序的费用非常昂贵,如何有效、低成本的找出突变基因是近几年生物信息学的一大热点。
[0003]ceRNA网络是一种竞争内源性假说,它有利于生物学家理解RNA之间的相互作用与运作机理。在ceRNA网络中存在一种叫MREs(microRNA responseelements)的miRNA应答元件,据发现这种元件不仅存在于mRNA上,在lncRNA等其他类型的RNA上也存在,因此miRNA可以通过MREs与不同的RNA进行结合。当其中两种RNA竞争一个相同的miRNA分子时,其中一种基因因癌症导致表达量的变化可导致另外一种基因表达的上调或下调,从而反映了其内部之间的关系。其中lncRNA被认为与人类许多疾病与癌症相关,通过对ceRNA网络的分析,可以找出在癌症中有显著相关的突变点位以及其在发病过程中的发展。然而如何选择、找出相互作用的基因对以及新关系的预测等方面还存在若干关键问题需要进一步系统解决。
[0004]另外医生根据组织病理学图像(WSI)来对肿瘤进行定性和临床上的分析,然而面对上千张患者的病理图像进行分析的过程非常繁琐,对一些年轻的、经验不足的医生来说也十分不友好。因此若能够通过WSI图像得到其内在基因的变化与其运作机理,对于患者的治疗与预后、疾病的研究都有着重大的意义。
[0005]因此,开发一种能够根据WSI图像分析癌症基因的方法极具现实意义。

技术实现思路

[0006]由于现有技术存在上述缺陷,本专利技术提供了一种能够根据WSI图像分析癌症基因的方法,克服了现有技术无法实现基于WSI分析癌症基因这一过程的缺陷,具体地,通过多层多阈值的组织学图像细胞核分割方法获得每一个患者的细胞核信息,通过特征提取获得核级特征和图像特征;然后根据数据库构建ceRNA网络,最后使用JSNMCNMF的方法整合WSI图像与三种RNA数据,得到其连接关系;使用KJMCNMF获得高维ceRNA网络中的隐含连接关系。
[0007]为了实现上述目的,本专利技术提供以下技术方案:
[0008]一种基于ceRNA网络的癌症基因挖掘分析方法,包括以下步骤:
[0009](1)获取目标癌症对应的基因表达数据以及病理图像,所述目标癌症对应的基因表达数据以及病理图像包括患有目标癌症的患者以及未患病的患者的基因表达数据以及病理图像,所述基因表达数据包括miRNA、mRNA、lncRNA的基因表达数据;
[0010](2)对相关病理图像进行处理,提取病理图像切割的细胞核的核级特征,作为WSI特征;
[0011](3)根据基因表达数据构建反映不同RNA之间连接关系的ceRNA网络;
[0012](4)建立不同RNA的配对的稀疏矩阵,将WSI特征与mRNA数据进行皮尔逊相关系数求解;
[0013](5)利用JSNMCNMF算法整合WSI、mRNA、miRNA和lncRNA四部分数据,得到mRNA与WSI之间的关系;利用KJMCNMF算法获取ceRNA网络中的隐含连接关系。
[0014]本专利技术旨在利用癌症患者的基因表达数据,通过ceRNA网络与病理图像的结合,充分提取WSI图像的特征,采用联合稀疏网络正则化的多约束非负矩阵算法(Joint Sparse Network

Regularization Multi

ConstrainedNMF,JSNMCNMF)来获得WSI与基因之间的关系,通过核联合多约束非负矩阵分解算法(Kernel Joint Multi

ConstrainedNon

negative Matrix Factorization,KJMCNMF)在更高维度上面,分析并预测ceRNA网络中各种RNA的调控关系,从而得到与癌症相关的基因和一些潜在的生物标志物,供研究人员进一步检测而无需浪费资源进行全面的基因测序。
[0015]作为优选的技术方案:
[0016]如上所述的一种基于ceRNA网络的癌症基因挖掘分析方法,所述步骤(2)具体如下:
[0017](2.1)对相关病理图像进行切割,定义每一小块的边长为pst,将每一个小块的左上角坐标存入矩阵xy中,对于每一小块,要求其中像素值大于210的像素点之和要大于小块边长的平方除以2,像素值大于210意味着此像素点位于染色组织区域,即要求此小块里存在细胞组织而非周围的空白区域,剔除超出图像边长的小块;
[0018](2.2)将获得的每一小块进行颜色去卷积和颜色归一化操作;
[0019]颜色去卷积和颜色归一化操作有利于利用图像中的不同染色信息来增强细胞核分割效果,具体地,我们将图像向量化定义为J,J=[i1,i2,i3,

,in],其中i表示为像素,包含三个数据i[r,g,b],代表三种颜色通道,通过以下公式计算:
[0020][0021]其中M为Ruifork和Johnston提出的默认颜色去卷积矩阵,最后重构为图像形式矩阵DCH,我们选取R通道,将其进行归一化为0到1的数据范围;
[0022][0023](2.3)将处理得到的图片进行保护性腐蚀操作,以半径为3的圆盘为模板,腐蚀除细胞核外的像素;
[0024](2.4)采用多级阈值操作,设置级数为10,利用multithresh函数将图像根据所要分割的级数得到每一级的像素阈值,选取每一级最小的阈值进行降序排列;对于每一级数,根据阈值进行二值化操作,其白色区域代表细胞核;对细胞核进行填充,去除其中的黑点;之后进行开操作,将边界连接的细胞核分离;去除面积过小的细胞核;最后将得到的图像与上一级数得到的图像进行对比,因为是降序顺序,因此上一级图片细胞核面积与数量比大于本级图片,将上一级图片中细胞核连通域大于2的区域替换为本区域显示,提高分割准确度;
[0025](2.5)进行边界处理,如果膨胀后的细胞核批次相连数量不超过2,则膨胀,最后进行平滑;
[0026](2.6)对处理过后的小块图像,统计其中每一细胞核的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于ceRNA网络的癌症基因挖掘分析方法,其特征在于:包括以下步骤:(1)获取目标癌症对应的基因表达数据以及病理图像,所述目标癌症对应的基因表达数据以及病理图像包括患有目标癌症的患者以及未患病的患者的基因表达数据以及病理图像,所述基因表达数据包括miRNA、mRNA、lncRNA的基因表达数据;(2)对相关病理图像进行处理,提取病理图像切割的细胞核的核级特征,作为WSI特征;(3)根据基因表达数据构建反映不同RNA之间连接关系的ceRNA网络;(4)建立不同RNA的配对的稀疏矩阵,将WSI特征与mRNA数据进行皮尔逊相关系数求解;(5)利用JSNMCNMF算法整合WSI、mRNA、miRNA和lncRNA四部分数据,得到mRNA与WSI之间的关系;利用KJMCNMF算法获取ceRNA网络中的隐含连接关系。2.根据权利要求1所述的一种基于ceRNA网络的癌症基因挖掘分析方法,其特征在于,所述步骤(2)具体如下:(2.1)对相关病理图像进行切割,定义每一小块的边长为pst,将每一个小块的左上角坐标存入矩阵xy中,对于每一小块,要求其中像素值大于210的像素点之和要大于小块边长的平方除以2,像素值大于210意味着此像素点位于染色组织区域,剔除超出图像边长的小块;(2.2)将获得的每一小块进行颜色去卷积和颜色归一化操作;(2.3)将处理得到的图片进行保护性腐蚀操作,以半径为3的圆盘为模板,腐蚀除细胞核外的像素;(2.4)采用多级阈值操作,利用multithresh函数将图像根据所要分割的级数得到每一级的像素阈值,选取每一级最小的阈值进行降序排列;对于每一级数,根据阈值进行二值化操作,其白色区域代表细胞核;对细胞核进行填充,去除其中的黑点;之后进行开操作,将边界连接的细胞核分离;去除面积过小的细胞核;最后将得到的图像与上一级数得到的图像进行对比,将上一级图片中细胞核连通域大于2的区域替换为本区域显示;(2.5)进行边界处理,如果膨胀后的细胞核批次相连数量不超过2,则膨胀,最后进行平滑;(2.6)对处理过后的小块图像,统计其中每一细胞核的面积、细胞核长轴长度、细胞核短轴长度、细胞核长短轴之比、细胞核与相邻细胞核的最远距离、最近距离和平均距离、细胞核三通道颜色的平均值;(2.7)以上得到的数据为核级特征,对核级特征数据进行聚类,利用K

means算法规定为10个质心,分配每一细胞核特征将它归到距离其最近的质心中,最后除以总数得到频率,生成10个直方图,另外,对每一核级特征进行5个统计分布,分别为平均值μ、标准差σ、偏斜度s、峰度k和熵Ent。3.根据权利要求1所述的一种基于ceR...

【专利技术属性】
技术研发人员:石玉虎金志斌
申请(专利权)人:上海海事大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1