基因向量模型训练方法、分析基因数据的方法及各自装置制造方法及图纸

技术编号:26893075 阅读:41 留言:0更新日期:2020-12-29 16:14
本说明书实施例提供基因向量模型训练方法、分析基因数据的方法及各自装置,由于所述基因向量模型训练方法从基因序列数据样本中提取出基因片段数据,从所述基因片段数据中提取出若干个k‑mer,将所述基因片段数据作为所述k‑mer的上下文语境以及所述k‑mer作为词输入词向量空间模型进行训练,从而可以得到针对k‑mer输出向量的基因向量模型。

【技术实现步骤摘要】
基因向量模型训练方法、分析基因数据的方法及各自装置
本说明书实施例涉及基因分析
,特别涉及基因向量模型训练方法、分析基因数据的方法。本说明书实施例同时涉及基因向量模型训练装置、分析基因数据的装置,计算设备,以及计算机可读存储介质。
技术介绍
基因序列数据,例如可以是DNA的碱基对序列,可以是RNA的碱基序列,可以是蛋白质的序列。以RNA序列为例,RNA序列可以表达一串核酸序列(又叫碱基序列)。RNA序列一共存在四种核苷酸,用A,C,G和T来表示,分别代表腺嘌呤,胞嘧啶,鸟嘌呤,胸腺嘧啶。每个字母代表一种碱基,他们无间隔的排列在一起。每一个物种的RNA序列是不一样的且有规律的。通过对物种的基因序列数据进行分析,能够实现基因序列数据的匹配、检索、功能区域划分等目的。但是由于基因序列数据较为复杂,如何能够高效地分析基因序列数据成为困扰人们的难题。
技术实现思路
有鉴于此,本说明书施例提供了基因向量模型训练方法、分析基因数据的方法。本说明书实施例同时涉及基因向量模型训练装置、分析基因数据的装置,计算设备,以及计算机可读本文档来自技高网...

【技术保护点】
1.一种基因向量模型训练方法,包括:/n从基因序列数据样本中提取出基因片段数据;/n从所述基因片段数据中提取出若干个k-mer;/n将所述基因片段数据作为所述k-mer的上下文语境以及所述k-mer作为词输入词向量空间模型进行训练,得到针对k-mer输出向量的基因向量模型。/n

【技术特征摘要】
1.一种基因向量模型训练方法,包括:
从基因序列数据样本中提取出基因片段数据;
从所述基因片段数据中提取出若干个k-mer;
将所述基因片段数据作为所述k-mer的上下文语境以及所述k-mer作为词输入词向量空间模型进行训练,得到针对k-mer输出向量的基因向量模型。


2.根据权利要求1所述的方法,所述从基因序列数据样本中提取出基因片段数据包括:
以预设长度的窗口,且按预设步长移动所述窗口地从基因序列数据样本中提取出若干个基因片段数据,其中,所述预设步长的长度小于所述预设长度,以使提取的相邻基因片段数据具有部分重叠区域。


3.一种基因向量模型训练装置,包括:
样本片段提取模块,被配置为从基因序列数据样本中提取出基因片段数据;
样本碱基提取模块,被配置为从所述基因片段数据中提取出若干个k-mer;
训练模块,被配置为将所述基因片段数据作为所述k-mer的上下文语境以及所述k-mer作为词输入词向量空间模型进行训练,得到针对k-mer输出向量的基因向量模型。


4.一种分析基因数据的方法,包括:
从待分析基因序列数据中提取出基因片段数据;
从所述基因片段数据中提取出若干个k-mer;
通过将所述基因片段数据作为所述k-mer的上下文语境以及所述k-mer作为词输入如权利要求1或2所述的基因向量模型训练方法训练得到的基因向量模型,提取出所述若干个k-mer各自的向量。


5.根据权利要求4所述的方法,还包括:
将属于同一基因片段数据的k-mer的向量进行归一化处理,得到所述基因片段数据的向量。


6.根据权利要求4所述的方法,所述从待分析基因序列数据中提取出基因片段数据包括:
以预设长度的窗口,且按预设步长移动所述窗口地从待分析基因序列数据中提取出若干个基因片段数据,其中,所述预设步长的长度小于所述预设长度,以使提取的相邻基因片段数据具有部分重叠区域。


7.根据权利要求4所述的方法,还包括:
基于Doc2vec算法以及所述待分析基因序列数据的若干个k-mer各自的向量,计算出所述待分析基因序列数据的文档向量。


8.根据权利要...

【专利技术属性】
技术研发人员:蔡元哲
申请(专利权)人:阿里云计算有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1