基于病毒传播网络的基因序列表示学习方法技术

技术编号:30410917 阅读:22 留言:0更新日期:2021-10-20 11:42
本发明专利技术公开了基于病毒传播网络的基因序列表示学习方法,包括:对病毒基因序列进行编码,并将序列编码输入特定长度的隐藏层以得到降维嵌入;抽取病毒传播网络中与每个节点关联度高的邻居节点集合,从病毒传播网络中获取节点的拓扑信息;采用正向LSTM和反向LSTM分别对节点的图上下文节点信息进行聚合;使用注意力机制对其邻居节点的序列信息聚合,得到目标节点基因序列新的表示;采用图上下文损失作为损失函数,对基因序列表示模型进行模型训练和目标优化。通过在模拟病毒传播网络、真实的澳大利亚新冠病毒传播网络和真实的艾滋病毒传播网络上进行的实验,验证了本发明专利技术的有效性和高效性。效性。效性。

【技术实现步骤摘要】
2017.4. Weinstein J N, Collisson E A, Mills G B, et al. The cancer genome atlas pan

cancer analysis project[J]. Nature Genetics, 2013, 45(10): 1113

1120.5. Yue T, Wang H. Deep learning for genomics: A concise overview[J]. arXiv preprint arXiv: 802. 0810, 2018.6. Beer M A, Tavazoie S. Predicting gene expression from sequence[J]. Cell, 2004, 117(2): 185

198.7. Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[J]. arXiv preprint arXiv:1310.4546, 2013.8. Inference of Transmission Tree from a Dated Phylogeny · TransPhylo, v1.0 [OL]. [2021

03

19] https://xavierdidelot.github.io/TransPhylo/index.html9. Gehring J, Auli M, Grangier D, et al. A convolutional encoder model for neural machine translation[J]. arXiv preprint arXiv:1611.02344, 2016.10. Tharwat A. Principal component analysis

a tutorial[J]. International Journal of Applied Pattern Recognition, 2016, 3(3): 197

240.11. Kipf T N, Welling M. Semi

supervised classification with graph convolutional networks[J]. arXiv preprint arXiv:1609.02907, 2016.12. Wang D, Cui P, Zhu W. Structural deep network embedding[C]//Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016: 1225

1234.13. Japkowicz N, Shah M. Evaluating learning algorithms: a classification perspective[M]//Cambridge University Press, 2011: 193

214。

技术实现思路

[0006]有鉴于此,本专利技术提出了一种基于病毒传播网络的基因序列表示学习方法,针对病毒传播网络构建了一种基于传播网络的基因序列表示模型(Gene Representation based on Transmission Network, GRTN),将病毒的基因序列信息与传播网络的结构信息相结合,进而得到新的基因序列表示。模型首先把输入序列编码至特定长度的隐藏层以得到降维嵌入,根据网络传播的特点使用正向LSTM和反向LSTM分别对节点的图上下文节点信息进行聚合,然后使用注意力机制对其邻居节点的序列信息进行聚合,进而得到目标节点基因序列的新的表示。依据病毒传播网络中邻居节点的基因序列相似性高于非邻居节点这一特点,对基因序列表示模型进行训练和优化。该模型学习到的基因序列表示可以作为基因特征或先验信息用于与基因序列相关的任务。
[0007]本专利技术公开的基于病毒传播网络的基因序列表示学习方法,包括以下步骤:对病毒基因序列进行编码,并将所述序列编码输入特定长度的隐藏层以得到降维
嵌入;抽取病毒传播网络中与每个节点关联度高的邻居节点集合,从病毒传播网络中获取节点的拓扑信息;采用正向LSTM和反向LSTM分别对节点的图上下文节点信息进行聚合;使用注意力机制对节点的邻居节点的序列信息进行聚合,得到目标节点基因序列的新的表示;采用图上下文损失作为损失函数,并依据病毒传播网络中邻居节点的基因序列相似性高于非邻居节点的特点,对基因序列表示模型进行模型训练和目标优化。
[0008]进一步的,所述病毒基因序列编码采用独热编码方式;若病毒传播网络中所有节点的某一位基因值相同,将该位基因从输入数据中舍弃,实现对输入数据的维度嵌入。
[0009]进一步的,所述抽取病毒传播网络中与每个节点关联度高的邻居节点集合的步骤包括:在抽取的子图中,目标节点v以外的节点划分为前向信息节点集合和后向信息节点集合:,,其中,F(v)表示节点v的父节点,S(v)表示节点v的子节点;所述前向信息节点是位于病毒传播链中目标节点的祖先节点,即目标节点的父节点及其祖父节点;所述后向信息节点是位于病毒传播链中目标节点的子孙节点,即目标节点的子节点和孙子节点;选取与目标节点距离小于3的节点,构成目标节点的邻居集合。
[0010]进一步的,所述采用正向LSTM和方向LSTM分别对节点的图上下文节点信息进行聚合的步骤表示包括:对每个节点v,采用LSTM将前向信息聚合,并用LSTM最后的隐藏层输出为前向表示向量;在每个分支上,用LSTM最后的隐藏层作为该分支的表示向量,并用所有分支向量的均值作为后向表示向量;通过多层全连接层将输入数据转换得到自身表示向量,其中BN表示批标准化操作,FC表示全连接层。
[0011]进一步的,所述使用注意力机制对节点的邻居节点的序列信息进行聚合的步骤包括:采用注意力机制学习节点的前向向量、自身向量和后向向量,的聚合权重,获得每个节点的信息聚合后的新基因向量E
,其中其中为注意力权重系数,所述注意力权重系数为:,其中为激活函数LeakyRelu,向量对节点自身向量的重要性,;通过共享的注意力向量来反映向量对节点自身向量的重要性e
mk
,d是所述向量E
k
的向量维度,e
mk
表示如下:,其中为拼接操作,a为可学习的注意力参数;独立重复次注意力机制,并将得到的个表示向量拼接作为最终的新基因表示向量E

:。
[0012]进一步的,所述图上下文损失函数为:,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于病毒传播网络的基因序列表示学习方法,其特征在于,包括以下步骤:对病毒基因序列进行编码,并将所述序列编码输入特定长度的隐藏层以得到降维嵌入;抽取病毒传播网络中与每个节点关联度高的邻居节点集合,从病毒传播网络中获取节点的拓扑信息;采用正向LSTM和反向LSTM分别对节点的图上下文节点信息进行聚合;使用注意力机制对节点的邻居节点的序列信息进行聚合,得到目标节点基因序列的新的表示;采用图上下文损失作为损失函数,并依据病毒传播网络中邻居节点的基因序列相似性高于非邻居节点的特点,对基因序列表示模型进行模型训练和目标优化。2.根据权利要求1所述的基于病毒传播网络的基因序列表示学习方法,其特征在于,所述病毒基因序列编码采用独热编码方式;若病毒传播网络中所有节点的某一位基因值相同,将该位基因从输入数据中舍弃,实现对输入数据的维度嵌入。3.根据权利要求1所述的基于病毒传播网络的基因序列表示学习方法,其特征在于,所述抽取病毒传播网络中与每个节点关联度高的邻居节点集合的步骤包括:在抽取的子图中,目标节点v以外的节点划分为前向信息节点集合和后向信息节点集合:,,其中,F(v)表示节点v的父节点,S(v)表示节点v的子节点;所述前向信息节点是位于病毒传播链中目标节点的祖先节点,即目标节点的父节点及其祖父节点;所述后向信息节点是位于病毒传播链中目标节点的子孙节点,即目标节点的子节点和孙子节点;选取与目标节点距离小于3的节点,构成目标节点的邻居集合。4.根据权利要求1所述的基于病毒传播网络的基因序列表示学习方法,其特征在于,所述采用正向LSTM和方向LSTM分别...

【专利技术属性】
技术研发人员:程光权马扬刘泽一阳方杰梁星星成清刘忠
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1