当前位置: 首页 > 专利查询>宋炜宸专利>正文

一种基于人体全基因组基因型预测个体表型的方法和设备技术

技术编号:36180499 阅读:18 留言:0更新日期:2022-12-31 20:37
本发明专利技术公开了一种基于人体全基因组基因型预测个体表型的方法和设备,方法包括:获取每一个体的全基因组所有区域内的单倍型,将单倍型转化为功能基因组参数,选取至多一个代表参数;利用回归模型定量分析各区域与个体表型的关联关系;结合变量筛选模型和第一梯度上升网络预测得到每一基因的表型预测值;将每一基因的表型预测值同时输入到第二梯度上升网络中进行整合,生成最终预测结果。本发明专利技术能够在单基因水平上整合来自各功能基因组改变的信息,避免了孤立分析每一基因位点的线性关联的局限性,最后通过梯度上升网络对整合所有基因的预测值,以充分反映基因间的非线性关系,从而提高预测的准确度,对于各种个体表型的预测具有重要意义。具有重要意义。具有重要意义。

【技术实现步骤摘要】
一种基于人体全基因组基因型预测个体表型的方法和设备


[0001]本专利技术属于表型预测
,具体涉及一种基于人体全基因组基因型预测个体表型的方法和设备。

技术介绍

[0002]人类的许多性状和疾病都受到大量遗传位点的控制,从理论上讲,利用一个个体全基因组的基因型数据可以较为准确地估计该个体某种遗传性状的表现或者某个遗传疾病的发病风险。目前,高通量测序与全基因组芯片的快速发展使得个体的全基因组数据的获取成本越来越低,相应的基因组数据处理软件和算法的发展也使得数据分析速度越来越快。然而,现有的算法仍无法很好地完成依据基因型预测表型或疾病风险这一任务,具体如下:
[0003]现有的算法直接以基因型作为输入,以形状或疾病作为输出,并建立基因变异与性状或疾病的关联,但这些关联结果仍然缺乏生物学机制上的解释,也难以预测疾病风险。造成这一现象的原因是现有的算法均采用线性模型进行关联分析,而基因间存在复杂的非线性相互作用。此外,基因位点间存在连锁不平衡,人群之间也存在显著的基因差异,从而导致在这一人群中获取的结果或预测模型难以在另一人群中得到应用。因此,虽然目前积累了大量的全基因组基因分型数据,但仍缺乏能够有效利用这些数据的方法。

技术实现思路

[0004]本专利技术的目的是提供一种基于人体全基因组基因型预测个体表型的方法和设备,用以解决现有技术中存在的缺乏能够有效利用全基因组基因分型数据的方法的技术问题。
[0005]为了实现上述目的,本专利技术采用以下技术方案:
[0006]第一方面,本专利技术提供一种基于人体全基因组基因型预测个体表型的方法,包括:
[0007]获取每一个体的全基因组所有区域内的单倍型,基于深度神经网络将单倍型转化为功能基因组参数,并从每一区域的功能基因组参数中选取至多一个代表参数;
[0008]根据区域的代表参数,利用回归模型定量分析各区域与个体表型的关联关系;
[0009]根据每一基因的风险评分以及该基因所在调控区域的代表参数,结合变量筛选模型和第一梯度上升网络预测得到每一基因的表型预测值;
[0010]将每一基因的表型预测值同时输入到第二梯度上升网络中进行整合,生成最终预测结果。
[0011]基于上述公开的内容,本专利技术不直接利用基因型数据,而通过深度神经网络将基因型(单倍型)转化为功能基因组参数,由于考虑到基因间存在复杂的相互作用关系,通过从功能基因组参数选取代表参数,并利用区域的代表参数分析各区域与个体表型的关联以及单基因的预测值,从而在单基因水平上整合来自各功能基因组改变的信息,避免了孤立分析每一基因位点的线性关联的局限性,最后通过梯度上升网络对整合所有基因的预测值,以充分反映基因间的非线性关系,从而提高预测的准确度,对于各种个体表型的预测具
有重要意义。
[0012]在一种可能的设计中,获取每一个体的全基因组所有区域内的单倍型,基于深度神经网络将单倍型转化为功能基因组参数,并从每一区域的功能基因组参数中选取至多一个代表参数,包括:
[0013]对每一个体的全基因组进行区域分割,获取每一区域内的单倍型以及对应的碱基序列;
[0014]基于深度神经网络将每条碱基序列转化为对应的多个功能基因组参数;
[0015]基于精细定位算法从每一区域的多个功能基因组参数中选取至多一个代表参数。
[0016]基于上述公开的内容,本专利技术通过对全基因组进行区域分割,以使得分割后得到的碱基序列满足神经网络数据输入长度的要求,通过将基因型数据转化为单倍型数据,能够节约计算资源,通过深度神经网络将每条碱基序列转化为多个功能基因组参数,以便将基因变异造成的功能基因组改变定量体现,通过选取代表参数,能够提高模型预测的准确度。
[0017]在一种可能的设计中,对每一个体的全基因组进行区域分割,获取每一区域内的单倍型以及对应的碱基序列,包括:
[0018]按照预设长度将每一个体的全基因组分割为多个区域,并保证每一区域尽可能完整覆盖全基因组的功能元件;
[0019]根据非等位基因频率对基因型进行筛选,将筛选后的基因型转化为单倍型,并获取每一单倍型对应的碱基序列。
[0020]在一种可能的设计中,基于精细定位算法从每一区域的多个功能基因组参数中选取至多一个代表参数之前,所述方法包括:
[0021]对多个功能基因组参数进行整合,得到每条碱基序列的多个类别分数,并对多个类别分数进行处理;
[0022]对处理后的每一类别分数按照加性遗传模型、隐形遗传模型和显性遗传模型进行转化,生成对应的中介参数,以便精细定位算法从每一区域的中介参数中选取至多一个代表参数。
[0023]基于上述公开的内容,本专利技术通过将功能基因组参数进行整合,得到多个类别分数,从而可以在降低数据量的同时提高数据信息量。
[0024]在一种可能的设计中,根据区域的代表参数,利用回归模型定量分析各区域与个体表型的关联关系,包括:
[0025]在每一代表参数的区域内,基于线性回归模型定量分析该区域与个体表型的关联关系;
[0026]利用精细定位算法从内部存在连锁不平衡的区域中选出起效区域;
[0027]获取每一区域的生物学意义注释,基于广义线性回归模型定量分析影响个体表型的起效区域是否更多地与某一生物学意义注释相关。
[0028]基于上述公开的内容,能够确定每一区域与个体表型的关联关系以及影响个体表型的起效区域是否更多地与某一生物学意义注释相关,从而能够重点关注关联关系大的区域或生物学意义注释,提高数据分析效率。
[0029]在一种可能的设计中,根据每一基因的风险评分以及该基因所在调控区域的代表
参数,结合变量筛选模型和第一梯度上升网络预测得到每一基因的表型预测值,包括:
[0030]对每一基因预处理后输入到变量筛选模型中进行计算,根据输出的基因位点权重,计算该基因在的外显子多基因风险评分;
[0031]将外显子多基因风险评分与该基因所在调控区域内的所有代表参数输入到第一梯度上升网络中,得到该基因的表型预测值。
[0032]在一种可能的设计中,对每一基因预处理后输入到变量筛选模型中进行计算,包括:
[0033]对每一基因进行预处理,将预处理后的多个基因位点输入到snpnet算法模型中,进行lasso批量筛选迭代回归分析;
[0034]在回归分析中加入协变量,且不对协变量的参数进行lasso缩放,以输出去除连锁不平衡的基因位点权重。
[0035]在一种可能的设计中,将外显子多基因风险评分与该基因所在调控区域内的所有代表参数输入到第一梯度上升网络中,得到该基因的表型预测值,包括:
[0036]根据功能基因组注释,预先设定每一基因的调控区域;
[0037]将外显子多基因风险评分与该基因在调控区域内的所有代表参数作为模型输入,并将待预测形状的回归模型的残差作为模型预测标签,利用第一梯度上升网络预测得到该基因的表型预测值。
[0038本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人体全基因组基因型预测个体表型的方法,其特征在于,包括:获取每一个体的全基因组所有区域内的单倍型,基于深度神经网络将单倍型转化为功能基因组参数,并从每一区域的功能基因组参数中选取至多一个代表参数;根据区域的代表参数,利用回归模型定量分析各区域与个体表型的关联关系;根据每一基因的风险评分以及该基因所在调控区域的代表参数,结合变量筛选模型和第一梯度上升网络预测得到每一基因的表型预测值;将每一基因的表型预测值同时输入到第二梯度上升网络中进行整合,生成最终预测结果。2.根据权利要求1所述的方法,其特征在于,获取每一个体的全基因组所有区域内的单倍型,基于深度神经网络将单倍型转化为功能基因组参数,并从每一区域的功能基因组参数中选取至多一个代表参数,包括:对每一个体的全基因组进行区域分割,获取每一区域内的单倍型以及对应的碱基序列;基于深度神经网络将每条碱基序列转化为对应的多个功能基因组参数;基于精细定位算法从每一区域的多个功能基因组参数中选取至多一个代表参数。3.根据权利要求2所述的方法,其特征在于,对每一个体的全基因组进行区域分割,获取每一区域内的单倍型以及对应的碱基序列,包括:按照预设长度将每一个体的全基因组分割为多个区域,并保证每一区域尽可能完整覆盖全基因组的功能元件;根据非等位基因频率对基因型进行筛选,将筛选后的基因型转化为单倍型,并获取每一单倍型对应的碱基序列。4.根据权利要求2所述的方法,其特征在于,基于精细定位算法从每一区域的多个功能基因组参数中选取至多一个代表参数之前,所述方法包括:对多个功能基因组参数进行整合,得到每条碱基序列的多个类别分数,并对多个类别分数进行处理;对处理后的每一类别分数按照加性遗传模型、隐性遗传模型和显性遗传模型进行转化,生成对应的中介参数,以便精细定位算法从每一区域的中介参数中选取至多一个代表参数。5.根据权利要求1所述的方法,其特征在于,根据区域的代表参数,利用回归模型定量分析各区域与个体表型的关联关系,包括:在每一代表参数的区域内,基于线性回归模型定量分析该区域与个体表型的关联关...

【专利技术属性】
技术研发人员:宋炜宸
申请(专利权)人:宋炜宸
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1