System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于卷积神经网络的转录组学数据分析方法技术_技高网

一种基于卷积神经网络的转录组学数据分析方法技术

技术编号:40451193 阅读:8 留言:0更新日期:2024-02-22 23:10
一种基于卷积神经网络的转录组学数据分析方法,根据转录组数据变量多、噪音大、变量间相互作用的特点,通过将结构化数据转换成图像数据,利用卷积神经网络,对数据进行分类。同时,为了提高图像的质量,本发明专利技术加入了知识库信息,利用背景信息矩阵优化生成的图像,将实验数据和知识库信息有机结合。基于多个转录组学公共数据集实验结果表明,所提出的图像化的结构数据分析方法,分析结果有效,分类性能更加优越,故本发明专利技术为转录组学数据的分析提供了切实有效的方法,具有较强的应用价值。

【技术实现步骤摘要】

本专利技术属于转录组学数据分析,专利技术结合当前高通量技术下转录组学数据变量多、噪音多、样本量小等实际特点,将结构化的转录组学数据转化成图像数据,借助图像的特点、以及图像的数据增强技术,研究有效的转录组学数据分析算法。同时,此专利技术可拓展到其他领域,解决具有相似特点的小样本结构化数据的分析问题。


技术介绍

1、随着现如今科技的蓬勃发展,生物技术也在不断进步,生物组学数据的维度越来越大。组学数据通常包括:蛋白质组学数据、基因组学数据、代谢组学数据、转录组学数据等。这些组学数据为我们理解生命活动、研究癌症等严重疾病的产生机理从而实现精准医疗提供了重要的依据和支撑。

2、癌症的检测对于提高患者的生存率和生活质量起着至关重要的作用。检测癌症的方法主要有临床症状分析、影像诊断、生化检查和分子诊断等。例如,血小板的基因表达谱数据可以用来检测癌症。

3、然而,组学数据的特点是样本量小、特征维度高、噪声多。随着深度学习的不断发展,越来越多的学者开始将深度学习应用到组学数据的研究中。一方面,卷积神经网络被应用到越来越多的领域中,并且在各种问题上都展现出了较好的性能;另一方面,由于转录组学数据样本量小的特点,对样本进行数据增强成为数据分析的重要一环,在图像处理领域数据增强方法较为成熟,因此本专利考虑从图像数据增强角度解决该问题,那么将表格数据转化为图像就成为了本专利的第一步。结构化数据转换成图像数据的主要思想就是将一维的数据转化成二维图像表示,图像中的每一个像素点代表一个特征。特征在图像上的位置关系由特征之间相关性决定,而该像素点的像素值则由特征的表达值来决定。

4、根据转录组学数据的样本量较小的特点,需要应用一种合适的数据增强方法,在最大限度模拟真实数据的基础上进行样本量的大幅度增强。gans数据增强方式本就需要大量的真实数据来训练模型,不适用于转录组学数据的实际情况。因而,本专利技术引入图像处理领域的数据扩增方法,基于生成的图像数据采用图像翻转、旋转、增亮、添加随机噪音、添加高斯噪音、图像剪裁、图像缩放等一系列增强手段进行增强。

5、本专利技术提出了一种转录组学数据的分析方法。本专利技术将结构化的转录组学数据转换成图像数据,并对图像数据进行数据增强,以达到更好的训练分类模型的效果。本专利技术中采用卷积神经网络对数据进行分类。


技术实现思路

1、本专利技术的目的是提供一种分析转录组学数据的方法。本专利技术根据组学数据变量多、噪音大、样本少、变量间存在相互作用的特点,将结构化的转录组学数据转换成图像数据,利用卷积神经网络进行分类。首先,卷积神经网络在各个领域得到广泛应用,并且取得极好的性能。其次,传统的机器学习技术抛弃了邻域信息,并假设样本中的每个特征都是独立的,而卷积神经网络以图像作为输入,图像由区域中的若干像素点组成,也就是说,彼此靠近的像素(特征)共享相似的信息,这一特点与特征之间的相关性相应。另外,在图像处理领域,数据增强技术发展更为成熟,能够很好的解决转录组学数据样本量比较小的问题。因此,本专利将结构化数据转换成图像,对图像数据进行数据增强,然后使用卷积神经网络进行分类。卷积神经网络利用了邻居之间的空间相关性,通过卷积运算和参数共享,与全连接网络相比,减少了模型参数的数量。生成图像的质量对分析结果影响较大,在将组学数据图像化的处理中,应使相似的特征在图像中的像素位置更接近。本专利技术在图像生成过程中不仅使用到了特征之间互信息,还加入了已有的先验知识,从实际问题和背景信息两个角度优化生成的初始图像,充分挖掘特征之间的关联关系,使得生成的图像更有价值。

2、为了实现上述目标,本专利技术提出了mika算法,采用的技术方案如下:

3、一种基于卷积神经网络的转录组学数据分类方法,步骤如下:

4、使用微阵列数据集,将特征看作变量,将特征的表达值看作变量的值;

5、将样本集合划分为训练集和测试集两部分,训练集用于训练微阵列数据向图像数据的转换方式以及样本分类模型的构建,测试集用于验证方法的性能。令f={f1,f2,...,fm}代表变量集合,m是变量数;x={x1,x2,...,xn}代表训练样本集,n是训练集样本数;c={cj:j=1,2}代表类标集合;y=(y1,y2,...,yn)是n个样本的类标向量,其中yi∈c是第i个样本的类标,1≤i≤n;

6、步骤一、计算特征间的相关性:

7、(1.1)计算特征fi与特征fj之间的互信息,1≤i≠j≤m;公式(1)如下:

8、mi(fi;fj)=h(fi)-h(fi|fj)     (1)

9、其中,h(fi)和h(fj)表示变量fi和fj的信息熵,h(fi,fj)表示变量fi和fj的联合熵,h(fi|fj)表示变量fi和fj的条件熵;mi(fi,fj)反映了变量fi和fj的相关性水平;从公式(1)可以看出,互信息mi的范围是[0,+∞),若变量fi和fj相互独立,则mi(fi;fj)=0;互信息mi值是无上界的,倾向于更多的取值,本专利对计算得到的变量间互信息进行归一化处理;

10、(1.2)基于知识库信息计算特征间的关联关系;本专利技术基于mirtarbase数据库抽取人类mirna靶向相互作用,计算mirna(特征)间的协同作用,建立mirna协同作用网络(wmsn)(该网络建立方法基于我们已发表论文li et al.computers in biology andmedicine,2023,152,106382.);wmsn网络中节点为mirna,边表示mirna协同作用,边的权重表示协同作用的强度;wmsn网络中边的权值w(fi,fj)的定义公式(2)如下:

11、

12、其中,scorencoset(fi,fj)表示mirnafi和mirnafj的非共同靶向集中mrna的功能相似性得分,scorecoset(fi,fj)表示mirnafi和mirnafj共同靶向得分,tar(fi)表示mirnafi靶向的mrna集合,tar(fj)表示mirnafj靶向的mrna集合;

13、(1.3)根据互信息矩阵与背景信息矩阵计算综合信息矩阵,公式(3)如下:

14、

15、其中,nmi(fi,fj)表示特征之间的标准化互信息,w(fi,fj)表示基于知识库计算的特征之间的协同作用;

16、(1.4)根据综合信息计算特征fi与特征fj之间的距离d(fi,fj),1≤i≠j≤m,公式(4)如下:

17、d(fi,fj)=1-z(fi,fj)      (4)

18、其中,d(fi,fj)表示由综合信息矩阵计算得到的特征fi与特征fj之间的距离;

19、步骤二、初始化图像

20、(2.1)对xt进行降维,将其降至二维得到每个特征的坐标,公式(5)如下:

21、fi(x,y)=embedding(xt)       (5)

22、其中,xt是本文档来自技高网...

【技术保护点】

1.一种基于卷积神经网络的转录组学数据分析方法,其特征在于步骤如下:

【技术特征摘要】

1.一种基于卷积神经网络的转录组学...

【专利技术属性】
技术研发人员:盛美针林晓惠李超
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1