System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,尤其涉及一种模型训练及基因表达优化方法、装置、设备及介质。
技术介绍
1、密码子是生物体中的一个三个碱基组成的序列,它与特定的氨基酸对应。密码子在蛋白质合成过程中被转录成mrna,然后由核糖体识别并翻译成相应的氨基酸,因此给定氨基酸序列后,可能出现不同的密码子组合,从而调控目标基因的表达。密码子具有简并性,一种氨基酸通常可以由多种密码子编码,编码同一种氨基酸的不同密码子称为同义密码子,不同物种对于相同的密码子使用频度也不尽相同。现有的密码子优化方法对于表达水平的偏向效果较差。
2、申请内容
3、本申请实施例的主要目的在于提出一种模型训练及基因表达优化方法、装置、设备及介质,能够辅助进行准确的基因表达优化。
4、为实现上述目的,本申请实施例的一方面提出了一种模型训练方法,方法包括:
5、获取基因序列;基因序列标记有表达水平;
6、将基因序列转换为氨基酸密码子对;并根据基因序列,通过映射转换得到数字序列;
7、通过预训练的词嵌入向量将数字序列转换为张量数据;
8、将张量数据作为模型输入,并将同一基因序列的氨基酸密码子对作为模型输出标注对预配置的标签模型进行训练,获得训练完成的标签模型;标签模型包括双向lstm和条件随机场。
9、在一些实施例中,基因序列包括三个碱基组成的有序序列;将基因序列转换为氨基酸密码子对,包括:
10、获取基因序列中包括的三个碱基;
11、根据三个碱基组合转换得到氨基酸密码
12、在一些实施例中,根据基因序列,通过映射转换得到数字序列,包括:
13、根据基因序列,通过映射关系转换得到氨基酸序列;
14、对氨基酸序列进行映射转换,得到数字序列。
15、在一些实施例中,对氨基酸序列进行映射转换,得到数字序列,包括:
16、基于预设的字母映射表,将氨基酸序列转换为数字序列。
17、在一些实施例中,将张量数据作为模型输入,并将同一基因序列的氨基酸密码子对作为模型输出标注对预配置的标签模型进行训练,获得训练完成的标签模型,包括:
18、将张量数据输入标签模型得到标注结果;
19、根据标注结果以及氨基酸密码子对得到损失值,根据损失值对标签模型的参数进行修正,得到训练完成的标签模型。
20、为实现上述目的,本申请实施例的另一方面提出了一种基因表达优化方法,方法包括:
21、获取待优化的基因序列以及期待表达水平结果;
22、通过预训练的词嵌入向量将基因序列转化为氨基酸嵌入向量;
23、将氨基酸嵌入向量以及期待表达水平结果输入标签模型,得到基因表达优化结果;其中,标签模型通过前面的模型训练方法训练得到。
24、为实现上述目的,本申请实施例的另一方面提出了一种模型训练装置,装置包括:
25、第一模块,用于获取基因序列;基因序列标记有表达水平;
26、第二模块,用于将基因序列转换为氨基酸密码子对;并根据基因序列,通过映射转换得到数字序列;
27、第三模块,用于通过预训练的词嵌入向量将数字序列转换为张量数据;
28、第四模块,用于将张量数据作为模型输入,并将同一基因序列的氨基酸密码子对作为模型输出标注对预配置的标签模型进行训练,获得训练完成的标签模型;标签模型包括双向lstm和条件随机场。
29、为实现上述目的,本申请实施例的另一方面提出了一种基因表达优化装置,装置包括:
30、第五模块,用于获取待优化的基因序列以及期待表达水平结果;
31、第六模块,用于通过预训练的词嵌入向量将基因序列转化为氨基酸嵌入向量;
32、第七模块,用于将氨基酸嵌入向量以及期待表达水平结果输入标签模型,得到基因表达优化结果;其中,标签模型通过前面的模型训练装置训练得到。
33、为实现上述目的,本申请实施例的另一方面提出了一种电子设备,电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述的模型训练方法或者基因表达优化方法。
34、为实现上述目的,本申请实施例的另一方面提出了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的模型训练方法或者基因表达优化方法。
35、本申请实施例至少包括以下有益效果:本申请提供一种模型训练及基因表达优化方法、装置、设备及介质,该方案获取基因序列;基因序列标记有表达水平;将基因序列转换为氨基酸密码子对;并根据基因序列,通过映射转换得到数字序列;通过预训练的词嵌入向量将数字序列转换为张量数据;将张量数据作为模型输入,并将同一基因序列的氨基酸密码子对作为模型输出标注对预配置的标签模型进行训练,获得训练完成的标签模型;标签模型包括双向lstm和条件随机场。本申请实施例基于序列标注的原理进行模型训练,以实现将氨基酸序列生成基因序列的过程对应为自然语言处理中对于语句的标注问题,本申请能够准确实现基因表达优化。
技术实现思路
本文档来自技高网...【技术保护点】
1.一种模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基因序列包括三个碱基组成的有序序列;所述将所述基因序列转换为氨基酸密码子对,包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述基因序列,通过映射转换得到数字序列,包括:
4.根据权利要求3所述的方法,其特征在于,所述对所述氨基酸序列进行映射转换,得到所述数字序列,包括:
5.根据权利要求1所述的方法,其特征在于,所述将所述张量数据作为模型输入,并将同一所述基因序列的所述氨基酸密码子对作为模型输出标注对预配置的标签模型进行训练,获得训练完成的标签模型,包括:
6.一种基因表达优化方法,其特征在于,包括:
7.一种模型训练装置,其特征在于,所述装置包括:
8.一种基因表达优化装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至5或权利要求6中任一项所述的方法。
...【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基因序列包括三个碱基组成的有序序列;所述将所述基因序列转换为氨基酸密码子对,包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述基因序列,通过映射转换得到数字序列,包括:
4.根据权利要求3所述的方法,其特征在于,所述对所述氨基酸序列进行映射转换,得到所述数字序列,包括:
5.根据权利要求1所述的方法,其特征在于,所述将所述张量数据作为模型输入,并将同一所述基因序列的所述氨基酸密码子对作为模型输出标注对预配置的标签模型进行...
【专利技术属性】
技术研发人员:张志乾,吴奕瑞,江翱,付骁羿,戈其珺,张豫,刘丽花,雷伟,陈西朋,杨敏,赵学梅,
申请(专利权)人:态创生物科技广州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。