【技术实现步骤摘要】
一种性状相关基因的筛选方法及其系统
[0001]本专利技术涉及基因测序
,更具体地,涉及一种性状相关基因的筛选方法及其系统。
技术介绍
[0002]利用单细胞RNA测序(scRNA
‑
seq)技术识别与复杂疾病或特征相关的关键细胞亚群,对于理解复杂疾病机制至关重要。但scRNA
‑
seq数据因其高成本和低通量的特性不允许对其进行大规模测序,且目前大多数基于单细胞的研究样本不超过20个,导致统计效能有限,无法准确揭示细胞亚群中与疾病或特征相关的风险子集。此外,scRNA
‑
seq数据在基因水平上具有高稀疏性、技术噪声和方差不稳定性的特点。
[0003]全基因组关联研究(GWAS)广泛应用于研究不同的复杂疾病或性状,将scRNA
‑
seq数据与来自大规模样本的GWAS的表型相关遗传信息相关联,被认为是一种实用而有效的方法,可以在单细胞分辨率下揭示复杂疾病或性状的遗传机制。
[0004]将GWAS与scRNA
‑
seq数 ...
【技术保护点】
【技术特征摘要】
1.一种性状相关基因的筛选方法,包括:获取单细胞测序数据;采用机器学习的方法对所述单细胞测序数据及通路数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS;获取遗传关联数据,并基于通路数据,将所述遗传关联数据中的SNPs注释到通路数据中,得到单条通路数据中所有SNPs的遗传效应值;利用所述遗传关联数据的多基因回归模型,基于所述PAS和通路数据中每个SNP的遗传效应值,对所述遗传效应值的分布进行参数估计,得到估计系数;对所述估计系数和所述PAS进行处理得到细胞的遗传相关通路活性评分gPAS;对所述遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序,筛选出N个性状相关基因。2.根据权利要求1所述的性状相关基因的筛选方法,其特征在于,所述遗传效应值的获取公式为:其中,β表示m个SNPs的理论效应大小向量,ε表示随机环境误差,R代表LD矩阵,X
T
表示遗传关联数据样本中SNPs的标准基因型;可选的,所述估计系数的获取方式包括:其中,τ
i,j
表示细胞j中通路i的估计系数,τ0表示截距项,σ2表示通路中SNP效应大小的方差,表示加权PAS。3.根据权利要求1所述的性状相关基因的筛选方法,其特征在于,所述对所述估计系数和所述PAS进行处理得到细胞的遗传相关通路活性评分gPAS的步骤包括:将所述估计系数乘以所述PAS再求和得到细胞的遗传相关通路活性评分gPAS;可选的,所述遗传相关通路活性评分gPAS的获取方式为:其中,所述gP
j
为遗传相关通路活性评分gPAS,所述为优化后的估计系数。4.根据权利要求1所述的性状相关基因的筛选方法,其特征在于,所述采用机器学习的方法对所述单细胞测序数据及通路数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS的获取步骤包括:获取单细胞测序数据和通路数据;对所述单细胞测序数据中的基因
‑
细胞矩阵进行标准化处理,得到经标准化处理后的基因
‑
细胞矩阵;基于所述通路数据,利用机器学习的方法将所述经标准化处理后的基因
‑
细胞矩阵转换为通路
‑
细胞矩阵,利用通路
‑
细胞矩阵得到细胞通路的PAS评分矩阵,PAS评分矩阵包括单条通路中单个细胞的通路活性评分PAS;可选的,对所述通路活性评分PAS进行优化处理,得到所述加权PAS;所述加权PAS的获取方式包括:其中,表示加权PAS,表示优化后的细胞i中基因g的标准化表达,s
i,j
表示细胞j通
路i的通路活性评分PAS;可选的,所述的获取方式包括:其中,所述表示细胞i中基因g的标准化表达,MAX(e
g,j
)表示通路i中基因表达最大值,MIN(e
g,j
)表示通路i中基因表达最小值;可选的,所述机器学习的方法包括奇异值分解SVD的方法。5....
【专利技术属性】
技术研发人员:苏建忠,马云龙,邓春玉,瞿佳,
申请(专利权)人:温州医科大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。