System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于生物遗传数据的身高预测方法及系统技术方案_技高网

一种基于生物遗传数据的身高预测方法及系统技术方案

技术编号:40356230 阅读:5 留言:0更新日期:2024-02-09 14:41
本发明专利技术公开了一种基于生物遗传数据的身高预测方法及系统,包括:S1、构建身高相关基因位点参考数据库;S2、进行质量控制得到样本数据;进行主成分分析得到主成分PC;随机划分为训练集、验证集和测试集;S3、计算每个基因位点对身高的遗传效应值,得到训练集的身高GWAS数据;收集外部公开的身高GWAS数据及其与非公开数据经荟萃分析得到的位点权重数据;S4、计算跨族群身高的多基因风险评分PRS权重,以及单一族群身高的多基因风险评分PRS权重;S5、计算验证集的多基因风险评分PRS值;采用线性回归模型,得到身高预测模型;S6、计算目标集的多基因风险评分PRS值;将目标集代入身高预测模型,得到身高预测值,从而提高了中国人群身高预测的精度。

【技术实现步骤摘要】

本专利技术涉及一种身高预测方法及系统,尤其涉及一种基于生物遗传数据的身高预测方法及系统,属于生物遗传数据分析与计算机相结合的应用领域。


技术介绍

1、研究表明,人类身高主要受到遗传信息和环境两大因素的影响。其中,遗传信息因素指人的基因信息,人类身高由大量遗传位点共同影响,并且身高的遗传度高达80%;环境因素指来自外界的对人类生长情况产生影响的因素,如营养条件、饮食习惯、运动方式等。

2、目前,对于成年人身高的预测方法大致有以下几种:(1)基于个人表型的预测方法,如根据人的年龄、性别、地域等表型进行身高的建模预测,这种方法只用于个人相对应的群体统计特征,无法反应个人生长特征;(2)基于父母身高信息对后代成年身高进行推测,这种方法在一定程度上考虑了遗传和营养环境的影响,但未将后代个体遗传信息差异纳入考量;(3)基于骨龄的身高预测方法(如中国专利公开号:cn115274098a),这种方法可以基于受试者的身高及发育状态预测成年身高,但需要未来时刻多次测试,成本较高,且同样没有考虑营养等环境因素影响;(4)基于遗传信息的推测方法,选取部分遗传位点,结合位点的身高遗传效应值得到身高预测结果,这种方法充分考虑了个体本身的遗传信息带来的身高差异,但现有研究(如中国专利公布号:cn114317706a)应用位点较少,且未将环境因素纳入考量。

3、综上,为提高中国人群的身高预测精度,使用遗传数据并结合相关表型因素,构建对成年人身高进行预测的模型及其应用系统是一个亟待研究的方向。


技术实现思路b>

1、针对上述现存的技术问题,本专利技术提供一种基于生物遗传数据的身高预测方法及系统,通过利用多族群的身高gwas数据,并结合基因组数据,得到遗传信息所决定的身高信息,再结合其他相关表型,得到身高预测数据,从而实现提高中国人群的身高预测精度的技术目的。

2、为实现上述目的,首先,本专利技术提供一种基于生物遗传数据的身高预测方法,包括如下步骤:

3、s1、采集中国汉族人群样本,获取基因组数据和数据批次,以及身高相关表型数据,包括身高、年龄、性别,并构建身高相关基因位点参考数据库;

4、s2、对基因组数据在位点层面进行质量控制,并对基因组数据和身高相关表型数据在个体层面进行质量控制,得到样本数据;然后对样本数据中的基因组数据进行主成分分析,得到主成分pc;再将样本数据随机划分为训练集、验证集和测试集;

5、s3、采用逻辑回归模型,以训练集的身高为因变量,以训练集的年龄、性别、数据批次、主成分pc为协变量,分别计算每个基因位点对身高的遗传效应值,得到训练集的身高gwas数据;并收集外部公开的身高gwas数据,以及其与非公开数据经荟萃分析得到的位点权重数据;

6、s4、基于训练集的身高gwas数据、外部公开的身高gwas数据和位点权重数据,分别计算跨族群身高的多基因风险评分prs权重,以及单一族群身高的多基因风险评分prs权重;

7、s5、将跨族群身高的多基因风险评分prs权重,以及单一族群身高的多基因风险评分prs权重应用到验证集,计算验证集的多基因风险评分prs值;然后采用线性回归模型,以验证集的身高为因变量,以验证集的多基因风险评分prs值、年龄、性别、数据批次、主成分pc为协变量,分别计算每个协变量的回归系数,并使用分步回归方法进行协变量的筛选,得到身高预测模型;

8、s6、将跨族群身高的多基因风险评分prs权重,以及单一族群身高的多基因风险评分prs权重应用到目标集,计算目标集的多基因风险评分prs值;然后将目标集的多基因风险评分prs值、年龄、性别、数据批次、主成分pc代入身高预测模型,得到身高预测值。

9、本专利技术方法进一步的,所述步骤s1,包括:

10、s1-1、从中国汉族人群中招募基因检测对象,采集招募对象的生物样本,并使用基因芯片技术和基因填充计算方法,获取招募对象的基因组数据和数据批次;

11、s1-2、通过问卷形式获取招募对象的身高相关表型数据,包括身高、年龄、性别;

12、s1-3、构建身高相关基因位点参考数据库。

13、本专利技术方法进一步的,所述对基因组数据在位点层面进行质量控制,包括:

14、s2-1-11、去除未检出率高于2%的位点;

15、s2-1-12、去除哈迪温伯格检测的p值小于的位点;

16、s2-1-13、去除较小的等位基因频率低于1%的位点;

17、s2-1-14、去除基因填充质量低于0.3的位点。

18、本专利技术方法进一步的,所述对基因组数据和身高相关表型数据在个体层面进行质量控制,包括:

19、s2-1-21、去除整体位点缺失率大于5%的样本;

20、s2-1-22、去除基因性别与表型性别不匹配的个体;

21、s2-1-23、去除身高不在150-210cm之间的样本;

22、s2-1-24、去除年龄不在18-80岁之间的样本。

23、本专利技术方法进一步的,所述外部公开的身高gwas数据为:世界范围内公开的样本数量最大的身高gwas数据,并且包括欧洲、东亚、非洲、南亚和西班牙裔族群。

24、本专利技术方法进一步的,所述跨族群身高的多基因风险评分 prs权重的计算包括:按照族群不同,将每个族群的身高gwas数据进行两两组合,每个组合包括一个亚洲族群的身高gwas数据和一个欧洲族群的身高gwas数据;然后对每个组合的身高gwas数据分别采用prs-csx方法和x-wing方法计算多基因风险评分prs权重。

25、本专利技术方法进一步的,所述单一族群身高的多基因风险评分prs 权重的计算包括:基于单一族群,将每个族群的身高gwas数据分别采用c+t方法和prs-cs方法计算多基因风险评分prs权重。

26、本专利技术方法进一步的,所述多基因风险评分prs值的计算公式如下:

27、

28、其中,为多基因风险评分prs权重;为每个位点的基因型数据。

29、本专利技术方法进一步的,所述身高预测模型的公式如下:

30、

31、其中,代表第j个协变量,代表第j个协变量在身高预测模型中的回归系数,代表第i组的多基因风险评分prs值,代表第i组的多基因风险评分prs值在身高预测模型中的回归系数。

32、并且,本专利技术还提供一种基于生物遗传数据的身高预测系统,包括数据录入储存模块、数据预处理模块、模型训练模块、身高预测模块;

33、所述数据录入储存模块,用于采集中国汉族人群样本,获取基因组数据和数据批次,以及身高相关表型数据,包括身高、年龄、性别,并构建身高相关基因位点参考数据库;

34、所述数据预处理模块,用于对基因组数据在位点层面进行质量控制,并对基因组数据和身高相关表型数据在个体层面进行质量控制,得到样本数据;然后对样本数据中的基因组数据进行主本文档来自技高网...

【技术保护点】

1.一种基于生物遗传数据的身高预测方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于生物遗传数据的身高预测方法,其特征在于,所述步骤S1,包括:

3.根据权利要求1所述的一种基于生物遗传数据的身高预测方法,其特征在于,所述对基因组数据在位点层面进行质量控制,包括:

4.根据权利要求1或3所述的一种基于生物遗传数据的身高预测方法,其特征在于,所述对基因组数据和身高相关表型数据在个体层面进行质量控制,包括:

5.根据权利要求1所述的一种基于生物遗传数据的身高预测方法,其特征在于,所述外部公开的身高GWAS数据为:世界范围内公开的样本数量最大的身高GWAS数据,并且包括欧洲、东亚、非洲、南亚和西班牙裔族群。

6.根据权利要求1所述的一种基于生物遗传数据的身高预测方法,其特征在于,所述跨族群身高的多基因风险评分 PRS权重的计算包括:按照族群不同,将每个族群的身高GWAS数据进行两两组合,每个组合包括一个亚洲族群的身高GWAS数据和一个欧洲族群的身高GWAS数据;然后对每个组合的身高GWAS数据分别采用PRS-CSx方法和X-Wing方法计算多基因风险评分PRS权重。

7.根据权利要求1或6所述的一种基于生物遗传数据的身高预测方法,其特征在于,所述单一族群身高的多基因风险评分PRS 权重的计算包括:基于单一族群,将每个族群的身高GWAS数据分别采用C+T方法和PRS-CS方法计算多基因风险评分PRS权重。

8.根据权利要求1所述的一种基于生物遗传数据的身高预测方法,其特征在于,所述多基因风险评分PRS值的计算公式如下:

9.根据权利要求1所述的一种基于生物遗传数据的身高预测方法,其特征在于,所述身高预测模型的公式如下:

10.一种基于生物遗传数据的身高预测系统,其特征在于,包括数据录入储存模块、数据预处理模块、模型训练模块、身高预测模块;

...

【技术特征摘要】

1.一种基于生物遗传数据的身高预测方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于生物遗传数据的身高预测方法,其特征在于,所述步骤s1,包括:

3.根据权利要求1所述的一种基于生物遗传数据的身高预测方法,其特征在于,所述对基因组数据在位点层面进行质量控制,包括:

4.根据权利要求1或3所述的一种基于生物遗传数据的身高预测方法,其特征在于,所述对基因组数据和身高相关表型数据在个体层面进行质量控制,包括:

5.根据权利要求1所述的一种基于生物遗传数据的身高预测方法,其特征在于,所述外部公开的身高gwas数据为:世界范围内公开的样本数量最大的身高gwas数据,并且包括欧洲、东亚、非洲、南亚和西班牙裔族群。

6.根据权利要求1所述的一种基于生物遗传数据的身高预测方法,其特征在于,所述跨族群身高的多基因风险评分 prs权重的计算包括:按照族群不同,将每个族群的身...

【专利技术属性】
技术研发人员:李腾宋洁唐森威李哲夫王理中陈钢
申请(专利权)人:深圳市早知道科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1