一种性状相关基因的筛选方法及其系统技术方案

技术编号:36295121 阅读:53 留言:0更新日期:2023-01-13 10:09
本发明专利技术公开了一种性状相关基因的筛选方法、系统、设备和计算机可读存储介质,方法其包括:获取单细胞测序数据;采用机器学习的方法对所述单细胞测序数据及通路数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS;获取遗传关联数据,并基于通路数据,将所述遗传关联数据中的SNPs注释到通路数据中,得到单条通路数据中所有SNPs的遗传效应值;利用所述遗传关联数据的多基因回归模型,基于所述PAS和通路数据中每个SNP的遗传效应值,对所述遗传效应值的分布进行参数估计,得到估计系数;对估计系数和PAS进行处理得到细胞的遗传相关通路活性评分gPAS;对所述遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序,筛选出N个性状相关基因。筛选出N个性状相关基因。筛选出N个性状相关基因。

【技术实现步骤摘要】
一种性状相关基因的筛选方法及其系统


[0001]本专利技术涉及基因测序
,更具体地,涉及一种性状相关基因的筛选方法及其系统。

技术介绍

[0002]利用单细胞RNA测序(scRNA

seq)技术识别与复杂疾病或特征相关的关键细胞亚群,对于理解复杂疾病机制至关重要。但scRNA

seq数据因其高成本和低通量的特性不允许对其进行大规模测序,且目前大多数基于单细胞的研究样本不超过20个,导致统计效能有限,无法准确揭示细胞亚群中与疾病或特征相关的风险子集。此外,scRNA

seq数据在基因水平上具有高稀疏性、技术噪声和方差不稳定性的特点。
[0003]全基因组关联研究(GWAS)广泛应用于研究不同的复杂疾病或性状,将scRNA

seq数据与来自大规模样本的GWAS的表型相关遗传信息相关联,被认为是一种实用而有效的方法,可以在单细胞分辨率下揭示复杂疾病或性状的遗传机制。
[0004]将GWAS与scRNA

seq数据相结合用来识别与复杂疾病相关的细胞类型的方法,包括诸如LDSC

SEG,MAGMA,RolyPoly,但是上述方法需要大量调整参数,以便用已知标记基因注释细胞类型,且在很大程度上忽略了每种细胞类型的内部异质性。此外,现有技术可以识别高表达水平的基因,但是其潜在缺陷是,过度关注高表达基因会低估表达水平相对较低但对揭示细胞命运很重要的基因的功能作用。

技术实现思路

>[0005]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提供一种性状相关基因的筛选方法及其系统;本专利技术方法通过专利技术基于单细胞通路的评分方法,结合scRNA

seq数据和遗传关联数据推断性状相关的基因、细胞等,从深层次挖掘隐含在单细胞数据背后的生命规律,解决相关的生命科学问题。
[0006]本申请公开一种性状相关基因的筛选方法,包括:
[0007]获取单细胞测序数据;
[0008]采用机器学习的方法对所述单细胞测序数据及通路数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS;
[0009]获取遗传关联数据,并基于通路数据,将所述遗传关联数据中的SNPs注释到通路数据中,得到单条通路数据中所有SNPs的遗传效应值;
[0010]利用所述遗传关联数据的多基因回归模型,基于所述PAS和通路数据中每个SNP的遗传效应值,对所述遗传效应值的分布进行参数估计,得到估计系数;
[0011]对所述估计系数和所述PAS进行处理得到细胞的遗传相关通路活性评分gPAS;
[0012]对所述遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序,筛选出N个性状相关基因。
[0013]所述遗传效应值的获取公式为:其中,β表示m个SNPs的理论效应大
小向量,ε表示随机环境误差,R代表LD矩阵,X
T
表示遗传关联数据样本中SNPs的标准基因型;
[0014]可选的,所述估计系数的获取方式包括:
[0015]其中,τ
i,j
表示细胞j中的通路i的估计系数,τ0表示截距项,σ2表示通路中SNP效应大小的方差,表示加权PAS;
[0016]所述对所述估计系数和所述PAS进行处理得到细胞的遗传相关通路活性评分gPAS的步骤包括:将所述估计系数乘以所述PAS再求和得到细胞的遗传相关通路活性评分gPAS;
[0017]所述遗传相关通路活性评分gPAS(gPj)的获取方式为:
[0018]其中,gP
j
为遗传相关通路活性评分gPAS,所述为优化后的估计系数;
[0019]所述采用机器学习的方法对所述单细胞测序数据及通路数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS的获取步骤包括:
[0020]获取单细胞测序数据和通路数据;
[0021]对所述单细胞测序数据中的基因

细胞矩阵进行标准化处理,得到经标准化处理后的基因

细胞矩阵;
[0022]基于所述通路数据,利用机器学习的方法将所述经标准化处理后的基因

细胞矩阵转换为通路

细胞矩阵,利用通路

细胞矩阵得到细胞通路的PAS评分矩阵,PAS评分矩阵包括单条通路中单个细胞的通路活性评分PAS;
[0023]可选的,对所述通路活性评分PAS进行优化处理,得到所述加权PAS;
[0024]所述加权PAS的获取方式包括:
[0025]其中,表示加权PAS,表示优化后的细胞i中基因g的标准化表达,s
i,j
表示细胞j通路i的通路活性评分PAS;
[0026]可选的,所述的获取方式包括:
[0027][0028]可选的,所述机器学习的方法包括奇异值分解SVD的方法。
[0029]将所述遗传关联数据中的SNP注释到通路数据中的步骤包括:
[0030]从所述遗传关联数据中进行筛选得到单个基因的SNPs,基于所述通路数据,将所述单个基因的SNPs映射到对应通路中,得到带有SNPs注释的通路;
[0031]可选的,所述单个基因的SNPs的获取步骤包括:获取所述遗传关联数据中基因的SNPs后,分别对SNPs基因对进行分配,得到分配结果;
[0032]将分配结果中数个单个SNPs对应多个基因的重复基因分别作为独立的SNP基因关联处理;保留分配结果中的次要等位基因频率(MAF)大于0.1的SNPs;删除性染色体上的SNPs;得到所述单个基因的SNPs;
[0033]将所述单个基因的SNPs汇总后即为所有基因的SNPs。
[0034]所述方法还包括:根据所述N个性状相关基因计算每个细胞的性状相关分数TRS;
可选的,利用细胞评分方法计算所述N个性状相关基因的性状相关分数TRS。
[0035]可选的,对所述遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序的方法包括:通过皮尔逊相关系数(PCC)确定单个基因的表达与所述gPAS之间的相关性,根据相关性对基因进行排序,得到所述N个性状相关基因;
[0036]可选的,所述N个性状相关基因为按照相关性降序或者升序规则进行排序后的前1000或后1000个性状相关基因。
[0037]一种应用,所述应用包括以下任一项:
[0038]基于每个细胞的性状相关分数TRS和每个细胞的水平P值,得到性状相关细胞;可选的,基于区块拔靴法block bootstrap method得到性状相关细胞类型或亚群;可选的,对所述遗传相关通路活性评分gPAS进行排序,根据排序结果和细胞类型水平上通路的P值,得到性状相关通路;
[0039]一种性状相关基因的筛选设备,所述设备包括:存储器和处理器;
[0040本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种性状相关基因的筛选方法,包括:获取单细胞测序数据;采用机器学习的方法对所述单细胞测序数据及通路数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS;获取遗传关联数据,并基于通路数据,将所述遗传关联数据中的SNPs注释到通路数据中,得到单条通路数据中所有SNPs的遗传效应值;利用所述遗传关联数据的多基因回归模型,基于所述PAS和通路数据中每个SNP的遗传效应值,对所述遗传效应值的分布进行参数估计,得到估计系数;对所述估计系数和所述PAS进行处理得到细胞的遗传相关通路活性评分gPAS;对所述遗传相关通路活性评分gPAS与每个细胞的基因表达量进行相关性分析并排序,筛选出N个性状相关基因。2.根据权利要求1所述的性状相关基因的筛选方法,其特征在于,所述遗传效应值的获取公式为:其中,β表示m个SNPs的理论效应大小向量,ε表示随机环境误差,R代表LD矩阵,X
T
表示遗传关联数据样本中SNPs的标准基因型;可选的,所述估计系数的获取方式包括:其中,τ
i,j
表示细胞j中通路i的估计系数,τ0表示截距项,σ2表示通路中SNP效应大小的方差,表示加权PAS。3.根据权利要求1所述的性状相关基因的筛选方法,其特征在于,所述对所述估计系数和所述PAS进行处理得到细胞的遗传相关通路活性评分gPAS的步骤包括:将所述估计系数乘以所述PAS再求和得到细胞的遗传相关通路活性评分gPAS;可选的,所述遗传相关通路活性评分gPAS的获取方式为:其中,所述gP
j
为遗传相关通路活性评分gPAS,所述为优化后的估计系数。4.根据权利要求1所述的性状相关基因的筛选方法,其特征在于,所述采用机器学习的方法对所述单细胞测序数据及通路数据进行处理,得到细胞通路的PAS评分矩阵和细胞通路的PAS的获取步骤包括:获取单细胞测序数据和通路数据;对所述单细胞测序数据中的基因

细胞矩阵进行标准化处理,得到经标准化处理后的基因

细胞矩阵;基于所述通路数据,利用机器学习的方法将所述经标准化处理后的基因

细胞矩阵转换为通路

细胞矩阵,利用通路

细胞矩阵得到细胞通路的PAS评分矩阵,PAS评分矩阵包括单条通路中单个细胞的通路活性评分PAS;可选的,对所述通路活性评分PAS进行优化处理,得到所述加权PAS;所述加权PAS的获取方式包括:其中,表示加权PAS,表示优化后的细胞i中基因g的标准化表达,s
i,j
表示细胞j通
路i的通路活性评分PAS;可选的,所述的获取方式包括:其中,所述表示细胞i中基因g的标准化表达,MAX(e
g,j
)表示通路i中基因表达最大值,MIN(e
g,j
)表示通路i中基因表达最小值;可选的,所述机器学习的方法包括奇异值分解SVD的方法。5....

【专利技术属性】
技术研发人员:苏建忠马云龙邓春玉瞿佳
申请(专利权)人:温州医科大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1