当前位置: 首页 > 专利查询>浙江大学专利>正文

一种融合知识图谱的基因序列预训练方法和装置制造方法及图纸

技术编号:36909546 阅读:23 留言:0更新日期:2023-03-18 09:28
本发明专利技术公开了一种融合知识图谱的基因序列预训练方法和装置,通过考虑基因之间调控关系构建基因调控图谱,并在基因调控图谱中增加motif和bin来构建基于基因调控网络的知识图谱,进而学习基因在知识图谱中的基因表示,并将知识图谱中的基因表示作为特殊token引入基因的基因序列中,提升了MLM模型对mask的预测准确性,并得到准确性的基因表示,将序列中学到的基因表示作为扩充基因调控图谱中基因的初始向量,再次经过可插拔表示模型提取基因表示,这样交替过程实现了知识图谱信息和基因序列信息的交互,利用交互训练的MLM模型提取基因表示,能够提升进而提升基因相关性质预测的准确性。准确性。准确性。

【技术实现步骤摘要】
一种融合知识图谱的基因序列预训练方法和装置


[0001]本专利技术属于生物与人工智能相结合的
,具体涉及一种融合知识图谱的基因序列预训练方法和装置。

技术介绍

[0002]基因是决定生物遗传特征,具有复杂结构的物质,目前有众多研究利用深度学习方法学习基因的嵌入表示,以快速了解相关基因的特性以及与基因相关的疾病,例如专利文献CN110400597A公开的一种基于深度学习的基因型预测方法,再例如专利文献CN113574605A公开的一种利用深度学习进行基因突变检测的方法。
[0003]现有深度学习方法中,仅仅基于序列的方法通过改进消息传递过程及网络框架,学习基因在低维空间的表示,并应用于下游的预测任务。但仅基于基因序列的方式准确率不高,未考虑到基因与基因之间的调控关系,学习到的基因在低维空间的表示较差,限制了其在实际场景种的应用。

技术实现思路

[0004]鉴于上述,本专利技术的目的是提供一种融合知识图谱的基因序列预训练方法和装置,通过提升基因表示的准确性,进而提高基因相关预测的准确性。
[0005]为实现上述专利技术目的,实施例提供了一种融合知识图谱的基因序列预训练方法,包括步骤:
[0006]步骤1,基于物种类别获取基因之间的调控关系,依据调控关系构建基因调控网络,并在基因调控网络中通过增加motif和bin来构建基于基因调控网络的知识图谱,其中,motif表示基因产生的转录因子与DNA序列特异性结合的位置,bin表示染色体序列的切块,并初始化知识图谱中节点的初始表示;<br/>[0007]步骤2,将每个基因对应的基因序列按照k

mer划分为多个token,并随机对token进行掩码,得到掩码后的基因序列;
[0008]步骤3,利用可插拔表示模型基于节点初始表示来提取知识图谱中每个基因表示;
[0009]步骤4,将可插拔表示模型提取的基因表示作为特殊token添加到掩码后的基因序列,并利用添加特殊token的基因序列对MLM模型进行掩码预测任务的训练,同时得到新基因表示;
[0010]步骤5,将新基因表示更新知识图谱中节点的初始表示;
[0011]步骤6,重复步骤3

步骤5至少1次,得到训练好的MLM模型。
[0012]优选地,基于物种类别获取基因之间的调控关系包括促进关系和抑制关系,依据调控关系构建基因调控图谱时,以基因作为节点,以促进关系或抑制关系作为节点之间的连边。
[0013]优选地,所述在基因调控图谱中通过增加motif和bin来扩充构建基于基因调控网络的知识图谱,包括:
[0014]通过包含关系将bin连接到bin包含的基因上,motif作为bin的一部分,以motif作为桥梁将bin通过结合关系连接到基因上。
[0015]优选地,所述随机对token进行掩码,包括:
[0016]按照随机掩码比例进行token的掩码,掩码过程中采用三种掩码方式,包括:按照第一比例随机将部分token替换为mask,按照第二比例随机将部分token随机赋值,按照第三比例随机将部分token保持原值,其中,第一比例、第二比例以及第三比例的加和为1。
[0017]优选地,所述可插拔表示模型包括GCN,GAT,RGCN。
[0018]优选地,在训练过程中,可插拔表示模型和MLM模型的网络参数交替更新。
[0019]优选地,所述方法还包括:利用训练好的MLM模型进行基因相关性质的预测,包括:
[0020]利用基因样本对训练好的MLM模型进行微调,微调后的MLM模型用于基因相关性质的预测,包括:
[0021]将待预测基因对应的基因序列按照k

mer划分为多个token,并随机对token进行掩码,得到掩码后的基因序列;
[0022]将掩码后的基因序列输入至微调后的MLM模型得到待预测基因的基因表示;
[0023]依据待预测基因的基因表示进行基因相关性质的预测。
[0024]为实现上述专利技术目的,实施例提供了一种融合知识图谱的基因序列预训练装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,所述处理器执行所述计算机程序时实现上述融合知识图谱的基因序列预训练方法。
[0025]与现有技术相比,本专利技术具有的有益效果至少包括:
[0026]通过考虑基因之间调控关系构建基因调控图谱,并在基因调控图谱中增加motif和bin来构建基于基因调控网络的知识图谱,进而学习基因在知识图谱中的基因表示,并将知识图谱中的基因表示作为特殊token引入基因的基因序列中,提升了MLM模型对mask的预测准确性,并得到准确性的基因表示,将序列中学到的基因表示作为扩充基因调控图谱中基因的初始向量,再次经过可插拔表示模型提取基因表示,这样交替过程实现了知识图谱信息和基因序列信息的交互,利用交互训练的MLM模型提取基因表示,能够提升进而提升基因相关性质预测的准确性。
附图说明
[0027]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
[0028]图1是实施例提供的融合知识图谱的基因序列预训练方法的流程图;
[0029]图2是实施例提供的融合知识图谱的基因序列预训练方法的流程框图;
[0030]图3是实施例提供的基于基因调控图谱构建扩充基因调控图谱的示意图。
具体实施方式
[0031]为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,
并不限定本专利技术的保护范围。
[0032]图1是实施例提供的融合知识图谱的基因序列预训练方法的流程图。如图1所示,实施例提供的基因序列预训练方法,包括以下步骤:
[0033]步骤1,基于物种类别获取基因之间的调控关系,依据调控关系构建基因调控网络。
[0034]实施例中,基于物种类别获取基因之间的调控关系包括促进关系(isPositiveOf)、抑制关系(isNegativeOf),基于这两个调控关系建立基因调控网络,在基因调控网络中,以基因作为节点,以促进关系或抑制关系作为节点之间的连边。
[0035]步骤2,在基因调控网络中通过增加motif和bin来构建基于基因调控网络的知识图谱,并初始化知识图谱中节点的初始表示。
[0036]实施例中,在基因调控网络中通过增加motif和bin的信息来扩充调控网络以构建基于基因调控网络的知识图谱。其中,motif是基因产生的转录因子与DNA序列特异性结合的位置,bin是染色体序列的切块。基于motif和bin来构建知识图谱时,通过包含关系(isPartOf)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合知识图谱的基因序列预训练方法,其特征在于,包括步骤:步骤1,基于物种类别获取基因之间的调控关系,依据调控关系构建基因调控网络,并在基因调控网络中通过增加motif和bin来构建基于基因调控网络的知识图谱,其中,motif表示基因产生的转录因子与DNA序列特异性结合的位置,bin表示染色体序列的切块,并初始化知识图谱中节点的初始表示;步骤2,将每个基因对应的基因序列按照k

mer划分为多个token,并随机对token进行掩码,得到掩码后的基因序列;步骤3,利用可插拔表示模型基于节点初始表示来提取知识图谱中每个基因表示;步骤4,将可插拔表示模型提取的基因表示作为特殊token添加到掩码后的基因序列,并利用添加特殊token的基因序列对MLM模型进行掩码预测任务的训练,同时得到新基因表示;步骤5,将新基因表示更新知识图谱中节点的初始表示;步骤6,重复步骤3

步骤5至少1次,得到训练好的MLM模型。2.根据权利要求1所述的融合知识图谱的基因序列预训练方法,其特征在于,基于物种类别获取基因之间的调控关系包括促进关系和抑制关系,依据调控关系构建基因调控图谱时,以基因作为节点,以促进关系或抑制关系作为节点之间的连边。3.根据权利要求1所述的融合知识图谱的基因序列预训练方法,其特征在于,所述在基因调控图谱中通过增加motif和bin来扩充构建基于基因调控网络的知识图谱,包括:通过包含关系将bin连接到bin包含的基因上,motif作为bin的一部分,以motif作为桥梁将bin通过结合关系连接到...

【专利技术属性】
技术研发人员:陈华钧张孟垚张强连佳长洪浩森
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1