一种基于NMF的肿瘤基因点突变的特征图谱提取算法制造技术

技术编号:29020363 阅读:25 留言:0更新日期:2021-06-26 05:21
本发明专利技术提供一种基于NMF的肿瘤基因点突变的特征图谱提取算法,涉及肿瘤基因特征提取技术领域。该基于NMF的肿瘤基因点突变的特征图谱提取算法,包括以下步骤:S1、突变数据集MAF文件获取:采用具有处理器的计算机,可进行并行运算操作。该基于NMF的肿瘤基因点突变的特征图谱提取算法,实现突变集合的过滤,并结合了Oncotator注释软件,输出注释结果,方便使用,实现信息矩阵的快速获取,节约前期数据处理时间,提高效率,实现基于NMF算法的最优化算法模型与算法实现,以及完成代码软件装置设计,实现点突变,插入缺失特征图谱可视化实现装置,实现频谱特征分析软件装置,包括signature组成的贝叶斯网络装置,肿瘤预后分类器装置,非编码显著突变区域与signature的关联装置。关联装置。关联装置。

【技术实现步骤摘要】
一种基于NMF的肿瘤基因点突变的特征图谱提取算法


[0001]本专利技术涉及肿瘤基因特征提取
,具体为一种基于NMF的肿瘤基因点突变的特征图谱提取算法。

技术介绍

[0002]癌症是基因疾病,是由生物体细胞突变引起的。随着基因检测技术例如下一代测序(NGS)的发展,人们发现这些突变是由特定突变特征的组合引起的,这些突变特征通常具有已知的基础过程,它可以更好地提供癌症机制信息,也有助于癌症的预防和治疗。人类的基因组只有一个,大约有5

10万个基因,约30亿个碱基对(包含A、T、C、G四种碱基),共组成24个染色体,分别是22个体染色体、X染色体与Y染色体,每个染色体由四种不同的核苷酸组成——A/C/G/T。四个核苷酸实际上形成两对A

T、C

G,当A位于一个链上时,T位于另一个链上,当G位于一个链上时,C必须在同一位置组成。当癌症基因组发生突变时,其中一个核苷酸被另一个核苷酸交换,例如,T被A取代。除了替换(如插入和删除)之外,还有其他突变。突变可能是有缺陷的DNA修复或不同的突变本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,包括以下步骤:S1、突变数据集MAF文件获取:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个perl脚本程序接口,对MuTect软件产生的Somatic SNV/InDel进行过滤操作,过滤数据库包含TCGA数据库、ICGC数据库、千人基因组snp信息和DBsnp数据库;S2、数据信息矩阵获取:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个R脚本程序接口,基于MAF文件自动生成信息矩阵;S3、突变特征频谱获取:包含两个方面,其一是基于NMF的最优化特征提取算法方法,其二是频谱特征分析软件装置。2.根据权利要求1所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,根据S1中的操作步骤,过滤结果使用Oncotator软件进行注释,得到MAF格式结果文件,注释的文件头包含至少五列信息:样本名、染色体编号、变异的位点坐标值、参考基因组的碱基和变异后的碱基。3.根据权利要求1所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,根据S2中的操作步骤,所述信息矩阵包含三部分,分别为突变信息矩阵、样本列表文件和行属性名称列表。4.根据权利要求1所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,根据S3中的操作步骤,所述特征提取算法方法,包括以下步骤:S301、确立分析模型:X
m
×
n
=P
m
×
k
S
k
×
n
+E
m
×
n
约束:P≥0,S≥0其中n为样本数目,m为特征类型,S302、基于NMF算法的构建方法;S303、运行结果可视化展示方式:对基础矩阵进行归一化后,按照百分比把每个特征属性的柱状图刻画出来,采用不同的颜色进行区分;S304、频谱特征分析软件装置构建。5.根据权利要求4所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,根据S302中的操作步骤,所述基于NMF算法的构建方法,包括以下步骤:S3021、按照列处理X,采用狄利克雷分布,对每一列进行抽取该分布下的数据分布,计算每个分量当前的概率值,概率与向量分量和的乘积向上取整即为该向量分量数值,并生成新的列向量;S3022、定义好目标函数模型,...

【专利技术属性】
技术研发人员:李振彰罗文陆海威钟祺楠翁剑波黄亮雄
申请(专利权)人:广东技术师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1