【技术实现步骤摘要】
一种标志基因识别的系统和方法
[0001]本专利技术涉及基因数据处理
,尤其是一种基于聚类网络模型解释的标志基因识别的系统与方法。
技术介绍
[0002]随着科技与医疗的不断发展与结合,大量的数据被医疗仪器所采集,RNA
‑
seq通常能够测得几万个基因的表达量。在研究生物学问题上,常常希望把更多的特征纳入模型,这些基因的表达往往存在相关性,然而庞大的基因表达矩阵增大了问题的复杂性。在很多实际问题的分析中,例如疾病类型诊断,大部分基因表达与疾病的关联并不紧密,反而带来了冗余信息。因此,在众多的特征表达中提取出少数几个具有代表性的特征表达,能够用于更好的识别和区分不同疾病的基因特征,给临床应用提供很大的帮助。
[0003]聚类分析是基因表达数据分析中常用的手段之一,通过多个样本的全基因表达谱对比,来找到它们之间的相似性和相近关系。然而现有技术中,聚类的过程通常接近一个黑盒模型,无法解释基因表达数据中特征对聚类分析结果的影响,也无法获得关键的基因。
技术实现思路
[0004]针对现有 ...
【技术保护点】
【技术特征摘要】
1.一种标志基因识别的系统,其特征在于,包括:数据提取和预处理单元,配置用于数据提取和预处理,获取基因表达矩阵原数据其中Z为原数据,包括n个样本,每个样本包括个基因的表达水平,即个特征,表示数据样本;聚类网络模型单元,配置用于通过聚类网络模型获得所述基因表达矩阵的低维表达向量并聚类成簇(其中Z'为低维数据,d为低维数据的维度);模型解释单元,配置用于通过模型解释算法解释所述聚类网络模型,获得特征贡献度,所述特征贡献度为基因表达数据特征对所述聚类网络模型的聚类结果的影响程度;标志基因识别单元,配置用于根据所述特征贡献度,识别标志基因。2.根据权利要求1所述的一种标志基因识别的系统,其特征在于,所述聚类网络模型单元具体包括:降维单元,通过非监督神经网络模型,获得所述基因表达矩阵的低维表达其中Z'为低维数据,为低维数据样本,f(*)表示降维函数;聚类单元,通过聚类算法,将所述低维表达聚类成簇。3.根据权利要求2所述的一种标志基因识别的系统,其特征在于,所述降维单元中的非监督神经网络模型为训练后的AutoEncoder模型,所述AutoEncoder模型包括编码器(Encoder)和解码器(Decoder),所述编码器将高维原数据输入编码为低维隐变量,所述解码器将所述低维隐变量恢复至高维。4.根据权利要求2所述的一种标志基因识别的系统,其特征在于,所述聚类单元中的聚类算法包括神经化K
‑
Means算法。5.根据权利要求1所述的一种标志基因识别的系统,其特征在于,所述模型解释单元基于模型解释单元SH...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。