【技术实现步骤摘要】
基于自监督和多模态的基因数据模型训练方法及装置
[0001]本专利技术涉及模型训练
,尤其涉及一种基于自监督和多模态的基因数据模型训练方法及装置。
技术介绍
[0002]挖掘基因序列数据中的信息对于很多实际的健康领域问题有重大意义,例如疾病风险预测等。目前的预测模型主要有Enformer模型和DNABERT模型,Enformer模型主要原理为使用加宽的卷积神经网络以及transformer的结构对于基因数据进行建模,DNABERT主要原理为将DNA看作核苷酸序列并且使用BERT来对于序列进行建模,两种模型都是针对同一种细胞进行建模。
[0003]因此,如何建立针对不同细胞类型的基因数据模型成为了本领域技术人员亟需解决的技术问题。
技术实现思路
[0004]本专利技术提供一种基于自监督和多模态的基因数据模型训练方法及装置,用以解决现有技术中无法针对不同细胞类型的缺陷,实现通过增加调控区域进行训练建立的基因数据模型,可以适用于不同的细胞类型。
[0005]本专利技术提供一种基于自监督和多模态 ...
【技术保护点】
【技术特征摘要】
1.一种基于自监督和多模态的基因数据模型训练方法,其特征在于,包括:获取样本DNA片段中基因序列的序列向量表示;获取所述样本DNA片段中调控区域的区域向量表示;基于所述序列向量表示和所述区域向量表示的匹配关系进行训练,得到基因数据模型。2.根据权利要求1所述的自监督和多模态的基因数据模型训练方法,其特征在于,所述基于所述序列向量表示和所述区域向量表示的匹配关系进行训练,得到基因数据模型,包括:确定所述序列向量表示和所述区域向量表示之间的余弦相似度;基于所述余弦相似度进行训练,得到表示整个基因序列与每个调控区域的匹配关系的基因数据模型。3.根据权利要求2所述的自监督和多模态的基因数据模型训练方法,其特征在于,所述基于所述余弦相似度进行训练之前,还包括:最大化正确的所述序列向量表示和所述区域向量表示之间的余弦相似度;最小化错误的所述序列向量表示和所述区域向量表示之间的余弦相似度。4.根据权利要求3所述的自监督和多模态的基因数据模型训练方法,其特征在于,所述最大化正确的所述序列向量表示和所述区域向量表示之间的余弦相似度;最小化错误的所述序列向量表示和所述区域向量表示之间的余弦相似度,包括:基于目标损失函数,最大化正确的所述序列向量表示和所述区域向量表示之间的余弦相似度;最小化错误的所述序列向量表示和所述区域向量表示之间的余弦相似度。5.根据权利要求1所述的自监督和多模态的基因数据模型训练方法,其特征在于,所述获取样本DNA片段中基因序列的序列向量表示,包括:通过BERT Transformer获取样本DNA片段中基因序列的序列向量表示,所述BERT包括掩码语言模型和/或下一句预测模型。6.根据权利要求5所述的自监督和多模态的基因数据模型训练方法,其特征在于,所述基...
【专利技术属性】
技术研发人员:兰艳艳,莫申童,傅熙,洪晨洋,陈以真,郑雨轩,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。