一种基于基因表达的图神经网络数据集构建方法技术

技术编号:33132700 阅读:21 留言:0更新日期:2022-04-17 00:52
本发明专利技术属于基因表达数据分析领域,特别涉及一种基于基因表达的图神经网络数据集构建方法;包括获取疾病的基因表达谱数据并提取RNA数据,对RNA数据进行处理生成RNA表达矩阵;对生成的RNA表达矩阵进行标准化处理和差异分析,得到差异表达矩阵;采用WGCNA分析差异表达矩阵并构建重叠拓扑矩阵;将重叠拓扑矩阵中的边信息与节点信息全部导出,对导出的信息进行编码;对编码后的信息进行筛选,采用筛选后的信息构建图神经网络数据集,根据图神经网络数据集识别生物标志物;本发明专利技术采取差异表达基因进行WGCNA分析,关注基因与基因之间的关系,并通过对节点和边信息的筛选,构建图神经网络数据集,有利于发现肿瘤的生物标志物。有利于发现肿瘤的生物标志物。有利于发现肿瘤的生物标志物。

【技术实现步骤摘要】
一种基于基因表达的图神经网络数据集构建方法


[0001]本专利技术属于基因表达数据分析领域,特别涉及一种基于基因表达的图神经网络数据集构建方法。

技术介绍

[0002]肿瘤疾病是全球主要公共健康问题之一,在肿瘤疾病治疗中生物标志物是一种最直接、快速有效的诊断手段,生物标志物的筛选与获得在疾病诊断、治疗以及疗效监测等多个方面发挥着重要作用,其同时也是药物开发的重要靶标。现今,发展创新性生物标志物的发现和鉴定方法,从而寻找和发现有价值的生物标志物,已经成为生物医学领域的重要研究热点之一。
[0003]随着高通量测序技术的快速发展,从基因组到表型各个层次的多分子水平数据越来越丰富,特别是基因表达谱数据。这为使用计算机方法发现肿瘤等复杂疾病的生物标志物提供了条件,但如何采用合适的算法处理大量的数据集是当前生物信息学与计算生物学研究面临的一个巨大挑战。近年来机器学习领域不断发展,深度学习是机器学习算法中的一个新兴技术,许多学者使用深度学习方法对生物标志物的发现方法进行了大量的研究,但在实际分析中还存在一些问题:
[0004](1)大多是采本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于基因表达的图神经网络数据集构建方法,其特征在于,包括以下步骤:S1.获取疾病的基因表达谱数据;S2.从基因表达谱数据中提取RNA数据,对RNA数据进行处理生成RNA表达矩阵;S3.根据生成的RNA表达矩阵计算得到差异表达矩阵;S4.通过差异表达矩阵,采用WGCNA构建重叠拓扑矩阵;S5.将重叠拓扑矩阵中的边信息与节点信息全部导出,对导出的信息进行编码;S6.对编码后的信息进行筛选,采用筛选后的信息构建图神经网络数据集,根据图神经网络数据集识别生物标志物。2.根据权利要求1所述的一种基于基因表达的图神经网络数据集构建方法,其特征在于,步骤S1获取基因表达谱数据的过程为:从公共数据库下载疾病样本数据;获取人类参考基因组注释文件;根据人类参考基因组注释文件整理疾病样本数据,得到基因表达谱数据。3.根据权利要求1所述的一种基于基因表达的图神经网络数据集构建方法,其特征在于,对RNA数据进行处理的过程包括:对RNA数据进行ID转换,将RNA数据的ensemble ID转换为symbol ID;设定低表达量阈值,将小于低表达量阈值的转换为symbol ID后的RNA数据过滤掉。4.根据权利要求1所述的一种基于基因表达的图神经网络数据集构建方法,其特征在于,采用WGCNA构建重叠拓扑矩阵的过程,包括:S11.根据皮尔森相关系数计算差异表达矩阵中基因之间的线性关系程度,根据线性关系生成关系矩阵;S12.通过加权网络,将关系矩阵转换为邻接矩阵;S13.根据转换生成的邻接矩阵构建重叠拓扑矩阵。5.根据根据权利要求4所述的一...

【专利技术属性】
技术研发人员:杨洁舒坤贤
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1