【技术实现步骤摘要】
一种基于生成式对抗网络的基因序列插补方法
[0001]本专利技术涉及生物学信息学和计算机应用交叉
,更具体地说,特别涉及一种基于生成式对抗网络的基因序列插补方法。
技术介绍
[0002]生命科学领域数据的快速积累,为生物学的发展提供了有力支撑。从1990年开始启动的人类基因组测序计划,到“后基因组学”时代的兴起,再发展到现在的深度测序技术,生物信息呈现出爆炸式增长的趋势,一系列基因数据库如INSD、EMBL、GenBank等,也随之建立起来,各种组学应运而生。科研人员通过研究基因数据图谱,揭示人体的进化原理与病理机制,据此针对性地研制抗病药物和治疗方案。然而,由于个体遗传变异和现代测序的技术限制,实验室提取出的基因序列经常存在缺失,很多位点信息都无法完整获得。这些缺失将严重阻碍下游分析,并在后续的推断中引入错误和偏见。
[0003]传统的基因数据插补方法包括奇异值分解,随机森林,稀疏去噪自动编码器等。不仅结果精度不高,而且效率低下,很难应用于大规模数据集。尽管当前已开发出一些基于深度学习的插补工具,但大多是针对 ...
【技术保护点】
【技术特征摘要】
1.一种基于生成式对抗网络的基因序列插补方法,其特征在于,包括以下步骤:S1、参数初始化,包括设置训练轮数epoch、参数学习率α、聚类簇数k、批量大小batch
‑
size、交替训练的轮数阈值step和数据损失比λ;S2、随机选择设定数量序列样本作为聚类的初始中心,对于每个序列样本,根据缺失片段的分布情况求其到序列样本中心的距离,并归类到距离较小的一簇,并迭代n次,每次迭代后以簇的质心作为新的聚类中心,得到X
a
,X
b
两簇数据;S3、根据两簇数据X
a
,X
b
中数据的缺失情况,分别构建相应的基因序列缺失分布模型Gm
a
,Gm
b
,其输出的张量的构成元素为整型标量m∈[0,1];S4、构建生成器Gx
a
和生成器Gx
b
插补原始数据,判断是否达到最大训练轮数epoch,若达到则停止训练;S5、根据步骤S3得到的基因序列缺失分布模型,掩盖已插补的数据的信息;S6、构建鉴别器Dx,输入步骤S5得到的序列,鉴别器Dx对每一条数据进行分析,根据先验概率判断其来自真实样本数据或由基因序列缺失分布模型生成的数据,给出评分score,其中score∈[0,1],代表数据来自真实基因序列的概率,判断本轮的训练对象,若为生成器Gx
a
,Gx
b
,则转至步骤S7,否则转至步骤S9;S7、将鉴别器Dx的评分结果score反馈给产生此条数据的生成器Gx
i
,i=a,b,生成器以为目标函数,沿梯度的负方向更新网络参数。其中,x为真实样本数据,为步骤S5得到的数据;S8、判断是否达到交替训练的轮数阈值step,若是则停止更新生成器Gx
a
,Gx
b
的网络参数,转至步骤S9,否则转至步骤S4;S9、鉴别器Dx根据评分结果score和数据的类别做出调整,以S9、鉴别器Dx根据评分结果score和数据的类别做出调整,以为目标函数,沿梯度的正方向更新网络参数;S10、判断是否达到交替训练的轮数阈值step,若是则停止更新生成器Dx的网络参数,转至步骤S7,否则转至步骤S4。2.根据权利要求1所述的基于生成式对抗网络的基因序列插补方法,其特征在于,所述步骤S4中:对于生成器Gx
a
,输入簇X
a
中的序列样本,保留固有片段,采用随机噪声z对缺失片段进行填充,得到数据对于生成器Gx
b
,输入簇X
b
中的序列样本,保留固有片段,采用随机噪声z对缺失片段进行填充...
【专利技术属性】
技术研发人员:彭绍亮,鲍雯萱,刘文娟,王小奇,刘明婷,王鹤恬,
申请(专利权)人:湖南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。