【技术实现步骤摘要】
本申请属于计算机,具体而言,本申请涉及一种基因模型的训练方法、基因序列分类的方法、设备及产品。
技术介绍
1、随着近年来大语言模型的流行,有越来越多的生物语言模型,现有的基因语言大模型,主要是脱氧核糖核酸(deoxyribonucleic acid,dna)语言模型,这类模型使用人类参考基因或者多物种的参考基因组预训练纯序列语言模型,然后应用到多个dna序列相关的下游任务中,例如,应用到基因变异、疾病辅助诊断等相关的任务中。
2、这类模型由于只使用参考基因,模型在个体数据上泛化能力较弱,也很难应用到相关下游任务中。
技术实现思路
1、本申请实施例的目的旨在提供一种能够提升模型在个体数据的泛化能力,以及可以更好的应用到相关下游任务中的基因模型的训练方法、基因序列分类的方法、设备及产品。
2、为了实现上述目的,本申请实施例提供的技术方案如下:
3、第一方面,提供了一种基因模型的训练方法,所述方法包括:
4、获取训练集,所述训练集包括基因序列信息,
...【技术保护点】
1.一种基因模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述异常类型包括每一异常位置的异常基因的异常类型;所述基于所述训练集,对基因模型进行训练,得到训练后的基因模型,包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,对于每一异常位置,所述根据该异常位置的异常基因中异常碱基的目标数量和该异常位置的异常基因的异常类型,确定目标编码方式,包括:
5.根据权利要求4所述的方法,其特征在于,所述目标类型包括碱基插入类型或者碱基删
...
【技术特征摘要】
1.一种基因模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述异常类型包括每一异常位置的异常基因的异常类型;所述基于所述训练集,对基因模型进行训练,得到训练后的基因模型,包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,对于每一异常位置,所述根据该异常位置的异常基因中异常碱基的目标数量和该异常位置的异常基因的异常类型,确定目标编码方式,包括:
5.根据权利要求4所述的方法,其特征在于,所述目标类型包括碱基插入类型或者碱基删除类型;
6.根据权利要求1所述的方法,其特征在于,所述训练集中还包括:所述基因序列信息所对应的染色体位置信息以及碱基位置信息,所述染色体序列信息中每一位置信息表征基因序列中每一碱基所处的染色体的标识,碱基位置序列中每一位置信息表征基因序列中每一碱基在该染色体中所处的位置标识;
7.根据权利要求1所述的方法,其特征在于,所述基因序列信息包括多个异常基因序列信息和至少一个标准基因序列信息,其中,所述多个异常基因序列信息包括至少一个个体对象的异常基因序列信息、以及至少一个种群的异常基因序列信息,每个所述异常基因序列信息包括一个标准基因序列和该标准基因序列的异常基因序列,每个标准基因序列信息包括两个标准基因序列;
8.根据权利要求1或2所述的方...
【专利技术属性】
技术研发人员:秦陈陈,姚建华,蔡煜,刘旭东,赵宇,何冰,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。