当前位置: 首页 > 专利查询>中山大学专利>正文

一种致病基因对的预测方法及系统技术方案

技术编号:31583713 阅读:21 留言:0更新日期:2021-12-25 11:28
本发明专利技术公开了一种致病基因对的预测方法及系统,该方法包括:基于双基因疾病数据库构建数据集并进行数据过滤和筛选,得到基准数据集;引入特征并基于基准数据集对构建基于随机森林模型的全基因组双基因互作效应潜能预测模型,得到预测模型;提基于预测模型对全基因组编码基因对之间的双基因互作效应潜能值进行预测,并以三元组形式存储,得到预测结果;基于成对数据压缩方法对预测结果进行压缩。该系统包括:数据集构建模块、训练模块、预测模块和压缩模块。通过使用本发明专利技术,能够帮助揭示潜在的具有交互作用的致病基因对。本发明专利技术作为一种致病基因对的预测方法及系统,可广泛应用于基因对预测领域。因对预测领域。因对预测领域。

【技术实现步骤摘要】
一种致病基因对的预测方法及系统


[0001]本专利技术涉及基因对预测领域,尤其涉及一种致病基因对的预测方法及系统。

技术介绍

[0002]人类遗传疾病主要可以分为三类,包括孟德尔疾病(单基因疾病)、寡基因疾病和多基因疾病,其中单基因是最简单的疾病遗传模式,理论上是指一个或少数几个致病位点/基因足以导致疾病表型的产生,如常见的囊胞性纤维症和地中海贫血,但是已知的单基因疾病的易感基因并不能完全解释相应的疾病表型。此外,由于环境因素的多变性和人类基因组的复杂性,导致很多疾病的表型错综复杂,使得疾病的诊断更加困难。随着全基因组测序技术的快速发展,在当前的大数据时代下,复杂疾病的易感基因正在不断地为挖掘,定位疾病易感基因面临着巨大的机遇与挑战。
[0003]传统的用于定位双基因互作效应的基因对的方法有杂交试验、基于家系的关联分析、全基因组关联分析或者多组学联合分析等,但是基于这些方法定位双基因互作效应需要一定的前提条件,同时这些方法的局限性较大,很难应用于全基因组范围内的筛查。

技术实现思路

[0004]为了解决上述技术问题,本专利技术的目的是提供一种致病基因对的预测方法及系统,此算法为监督学习方法,能够帮助揭示潜在的具有交互作用的致病基因对。
[0005]本专利技术所采用的第一技术方案是:一种致病基因对的预测方法,包括以下步骤:
[0006]S1、基于双基因疾病数据库构建数据集并进行数据过滤和筛选,得到基准数据集;
[0007]S2、引入特征并基于基准数据集对构建基于随机森林模型的全基因组双基因互作效应潜能预测模型,得到预测模型;
[0008]S3、基于预测模型对全基因组编码基因对之间的双基因互作效应潜能值进行预测,并以三元组形式存储,得到预测结果;
[0009]S4、基于成对数据压缩方法对预测结果进行压缩。
[0010]进一步,所述基于双基因疾病数据库构建数据集并进行数据过滤和筛选,得到基准数据集这一步骤,其具体包括:
[0011]S11、基于双基因疾病数据库中的双基因致病基因对作为阳性训练样本;
[0012]S12、将单基因疾病的致病基因之间两两组合得到的基因对作为第一阴性训练样本;
[0013]S13、将功能缺失的基因之间两两组合得到的基因对作为第二阴性训练样本;
[0014]S14、将单基因疾病的主要致病基因与功能缺失的基因两两组合得到的基因对作为第三阴性训练样本;
[0015]S15、将全基因组上随机选取两个蛋白编码基因组合得到的基因对作为第四阴性训练样本;
[0016]S16、将双基因疾病数据库的基因两两随机组合得到的基因对作为第五阴性训练
样本;
[0017]S17、基于正常样本和特征缺失率对阳性训练样本、第一阴性训练样本、第二阴性训练样本、第三阴性训练样本、第四阴性训练样本和第五阴性训练样本进行过滤和筛选,得到基准数据集。
[0018]进一步,所述引入特征并基于基准数据集对构建基于随机森林模型的全基因组双基因互作效应潜能预测模型,得到预测模型这一步骤,其具体包括:
[0019]S21、通过等比例采样从基准数据集中的各个阴性样本随机取出等量样本,组成与阳性训练样本数量相同的阴性样本子集,将所有阳性样本与欠采样得到的阴性样本合并成为一个子训练集;
[0020]S22、在各个阴性样本集中进行有放回的采样,循环步骤S21直至达到预设次数,得到多个子训练集;
[0021]S23、对于每一个子训练集,引入特征并基于随机森林方法训练得到子模型;
[0022]S24、计算子模型的袋外错误率并挑选出袋外错误率大于预设值的子模型,得到挑选后的子模型;
[0023]S25、以袋外错误率作为权重加权所有挑选后的子模型,得到全基因组双基因互作效应潜能预测模型。
[0024]进一步,所述对于每一个子训练集,引入特征并基于随机森林方法训练得到子模型这一步骤,其具体包括:
[0025]S231、对于每一个子训练集,以特征数值为0表示两个基因之间没有相似性,以缺失数值为

1表示特征数值缺失;
[0026]S232、计算每个子训练集中特征数值缺失的数量并作为新特征;
[0027]S233、通过10X交叉验证,以查准率与查全率的加权调和平均为评估标准,利用网格搜索的方法对随机森林中的参数进行调参,得到子模型;
[0028]所述参数包括树的数量、最大特征数、最大深度、节点划分所需最小样本数和叶子结点最小样本数。
[0029]进一步,所述特征包括突变水平信息、基因水平信息、蛋白互作水平信息、蛋白结构信息、表达水平信息和表型水平信息。
[0030]进一步,所述基于成对数据压缩方法对预测结果进行压缩这一步骤,其具体包括:
[0031]按照基因名顺序构造基因名字典文件;
[0032]根据预设规则将基因对的潜能值转为整数并保存为数据文件,得到压缩后的预测结果。
[0033]进一步,所述预设规则包括:
[0034]若保留2位小数,以L
d
=1byte表示每个潜能值,将该值转为整数v'=100v,并保存为v'&0xFF;
[0035]若保留4位小数,以L
d
=2byte表示每个潜能值,将该值转为整数v'=10000v,并保存为[v'&0xFF,(v'>>8)&0xFF];
[0036]若保留6位小数,以L
d
=3byte表示每个潜能值,将该值转为整数v'=1000000v,并保存为[v'&0xFF,(v'>>8)&0xFF,(v'>>16)&0xFF]。
[0037]进一步,还包括快速访问压缩后的预测结果步骤,其具体包括:
[0038]搜索基因对(G
i
,G
j
);
[0039]读取基因名字典文件中记录的基因名,并按照顺序构建索引;
[0040]获取基因G
i
和基因G
j
在字典中的索引i和j,并获取该基因对在数据文件中的起始地址I(i,j);
[0041]将文件指针移动到I(i,j),并读取L
d
个字节,得到字节数组;
[0042]将得到的字节数组按照编码时的方向进行逆向还原。
[0043]本专利技术所采用的第二技术方案是:一种致病基因对的预测系统,包括:
[0044]数据集构建模块,基于双基因疾病数据库构建数据集并进行数据过滤和筛选,得到基准数据集;
[0045]训练模块,用于引入特征并基于基准数据集对构建基于随机森林模型的全基因组双基因互作效应潜能预测模型,得到预测模型;
[0046]预测模块,基于预测模型对全基因组编码基因对之间的双基因互作效应潜能值进行预测,并以三元组形式存储,得到预测本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种致病基因对的预测方法,其特征在于,包括以下步骤:S1、基于双基因疾病数据库构建数据集并进行数据过滤和筛选,得到基准数据集;S2、引入特征并基于基准数据集对构建基于随机森林模型的全基因组双基因互作效应潜能预测模型,得到预测模型;S3、基于预测模型对全基因组编码基因对之间的双基因互作效应潜能值进行预测,并以三元组形式存储,得到预测结果;S4、基于成对数据压缩方法对预测结果进行压缩。2.根据权利要求1所述一种致病基因对的预测方法,其特征在于,所述基于双基因疾病数据库构建数据集并进行数据过滤和筛选,得到基准数据集这一步骤,其具体包括:S11、基于双基因疾病数据库中的双基因致病基因对作为阳性训练样本;S12、将单基因疾病的致病基因之间两两组合得到的基因对作为第一阴性训练样本;S13、将功能缺失的基因之间两两组合得到的基因对作为第二阴性训练样本;S14、将单基因疾病的主要致病基因与功能缺失的基因两两组合得到的基因对作为第三阴性训练样本;S15、将全基因组上随机选取两个蛋白编码基因组合得到的基因对作为第四阴性训练样本;S16、将双基因疾病数据库的基因两两随机组合得到的基因对作为第五阴性训练样本;S17、基于正常样本和特征缺失率对阳性训练样本、第一阴性训练样本、第二阴性训练样本、第三阴性训练样本、第四阴性训练样本和第五阴性训练样本进行过滤和筛选,得到基准数据集。3.根据权利要求2所述一种致病基因对的预测方法,其特征在于,所述引入特征并基于基准数据集对构建基于随机森林模型的全基因组双基因互作效应潜能预测模型,得到预测模型这一步骤,其具体包括:S21、通过等比例采样从基准数据集中的各个阴性样本随机取出等量样本,组成与阳性训练样本数量相同的阴性样本子集,将所有阳性样本与欠采样得到的阴性样本合并成为一个子训练集;S22、在各个阴性样本集中进行有放回的采样,循环步骤S21直至达到预设次数,得到多个子训练集;S23、对于每一个子训练集,引入特征并基于随机森林方法训练得到子模型;S24、计算子模型的袋外错误率并挑选出袋外错误率大于预设值的子模型,得到挑选后的子模型;S25、以袋外错误率作为权重加权所有挑选后的子模型,得到全基因组双基因互作效应潜能预测模型。4.根据权利要求3所述一种致病基因对的预测方法,其特征在于,所述对于每一个子训练集,引入特征并基于随机森林方法训练得到子模型这一步骤,其具体包括:S231、对于每一个子训练集,以特征数值为0表示两个基因之间没有相似性,以缺失数值为

1表示特征数值缺失;S232、计算每个子训练集中特征数值缺失的数量并作为新特征;S233、通过10X...

【专利技术属性】
技术研发人员:袁杨杨李淼新
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1