【技术实现步骤摘要】
一种基于NMF的肿瘤基因点突变的特征图谱提取算法
[0001]本专利技术涉及肿瘤基因特征提取
,具体为一种基于NMF的肿瘤基因点突变的特征图谱提取算法。
技术介绍
[0002]癌症是基因疾病,是由生物体细胞突变引起的。随着基因检测技术例如下一代测序(NGS)的发展,人们发现这些突变是由特定突变特征的组合引起的,这些突变特征通常具有已知的基础过程,它可以更好地提供癌症机制信息,也有助于癌症的预防和治疗。人类的基因组只有一个,大约有5
‑
10万个基因,约30亿个碱基对(包含A、T、C、G四种碱基),共组成24个染色体,分别是22个体染色体、X染色体与Y染色体,每个染色体由四种不同的核苷酸组成——A/C/G/T。四个核苷酸实际上形成两对A
‑
T、C
‑
G,当A位于一个链上时,T位于另一个链上,当G位于一个链上时,C必须在同一位置组成。当癌症基因组发生突变时,其中一个核苷酸被另一个核苷酸交换,例如,T被A取代。除了替换(如插入和删除)之外,还有其他突变。突变可能是有缺陷的D ...
【技术保护点】
【技术特征摘要】
1.一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,包括以下步骤:S1、突变数据集MAF文件获取:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个perl脚本程序接口,对MuTect软件产生的Somatic SNV/InDel进行过滤操作,过滤数据库包含TCGA数据库、ICGC数据库、千人基因组snp信息和DBsnp数据库;S2、数据信息矩阵获取:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个R脚本程序接口,基于MAF文件自动生成信息矩阵;S3、突变特征频谱获取:包含两个方面,其一是基于NMF的最优化特征提取算法方法,其二是频谱特征分析软件装置。2.根据权利要求1所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,根据S1中的操作步骤,过滤结果使用Oncotator软件进行注释,得到MAF格式结果文件,注释的文件头包含至少五列信息:样本名、染色体编号、变异的位点坐标值、参考基因组的碱基和变异后的碱基。3.根据权利要求1所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,根据S2中的操作步骤,所述信息矩阵包含三部分,分别为突变信息矩阵、样本列表文件和行属性名称列表。4.根据权利要求1所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,根据S3中的操作步骤,所述特征提取算法方法,包括以下步骤:S301、确立分析模型:X
m
×
n
=P
m
×
k
S
k
×
n
+E
m
×
n
约束:P≥0,S≥0其中n为样本数目,m为特征类型,S302、基于NMF算法的构建方法;S303、运行结果可视化展示方式:对基础矩阵进行归一化后,按照百分比把每个特征属性的柱状图刻画出来,采用不同的颜色进行区分;S304、频谱特征分析软件装置构建。5.根据权利要求4所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,根据S302中的操作步骤,所述基于NMF算法的构建方法,包括以下步骤:S3021、按照列处理X,采用狄利克雷分布,对每一列进行抽取该分布下的数据分布,计算每个分量当前的概率值,概率与向量分量和的乘积向上取整即为该向量分量数值,并生成新的列向量;S3022、定义好目标函数模型,...
【专利技术属性】
技术研发人员:李振彰,罗文,陆海威,钟祺楠,翁剑波,黄亮雄,
申请(专利权)人:广东技术师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。