DNA6mA修饰类别的预测方法、装置、设备和存储介质制造方法及图纸

技术编号:30080606 阅读:49 留言:0更新日期:2021-09-18 08:37
本申请提供了一种DNA6mA修饰类别的预测方法、装置、设备和存储介质。方法包括:获取DNA6mA特征数据集;确定所述DNA6mA特征数据集中各个序列间的相似度矩阵;对所述相似度矩阵进行对数化处理,获得所述各个序列间的第一矩阵;对所述距离矩阵进行高斯化处理,获得满足正定性要求的距离矩阵;将所述满足正定性要求的距离矩阵作为支持向量机的自定义核矩阵,并基于支持向量机模型,对待预测序列的DNA6mA修饰类别进行预测。能够预测序列的DNA6mA修饰类别。别。别。

【技术实现步骤摘要】
DNA6mA修饰类别的预测方法、装置、设备和存储介质


[0001]本申请涉及生物信息学
,特别是涉及一种DNA6mA修饰类别的预测方法、装置、设备和存储介质。

技术介绍

[0002]人类最早发现的表观遗传调控机制之一就是DNA甲基化。哺乳动物中最主要的DNA修饰是5mC(5

甲基胞嘧啶),占人类DNA中总胞嘧啶的3%

6%。相反,5mC在原核生物中很少,而6mA(N6

甲基腺嘌呤)则是原核生物中最具代表性的DNA修饰,主要参与限制

修饰系统,保护个体免受外来DNA的侵入。1951年6mA修饰首次在细菌中被发现。然而,它不像5mC那样受到重视。一个重要的原因是6mA的修饰被认为只在原核生物和单细胞真核生物中广泛存在,但在多细胞真核生物中很少发现。但近年来实验性方法在真核生物,甚至包括哺乳动物和植物基因组中鉴定到了6mA,并发现6mA在生长发育和疾病调控中具有重要作用。这些研究掀开了真核生物表观遗传修饰的新篇章。但是随着数据量的不断的增大和对准确率的更高的要求,实验性方法高耗时和高成本的缺点就暴露出来了,于是一些计算性方法就涌现了出来。基于机器学习的预测工具不断被开发出来,包括iDNA6mA

PseKNC,i6mA

Pred等,但是很少有研究以序列间的距离作为分类预测的主要依据。因此,有必要研究如何利用序列距离对DNA6mA进行分类。

技术实现思路

[0003]本申请提供一种DNA6mA修饰类别的预测方法、装置、设备和存储介质,能够预测序列的DNA6mA修饰类别。
[0004]本申请实施例第一方面提供了一种DNA6mA修饰类别的的预测方法,包括:
[0005]获取DNA6mA特征数据集;
[0006]确定所述DNA6mA特征数据集中各个序列间的相似度矩阵;
[0007]对所述相似度矩阵进行对数化处理,获得所述各个序列间的第一矩阵;
[0008]对所述距离矩阵进行高斯化处理,获得满足正定性要求的距离矩阵;
[0009]将所述满足正定性要求的距离矩阵作为支持向量机的自定义核矩阵,并基于支持向量机模型,对DNA6mA修饰类别进行预测。
[0010]可选地,确定所述DNA6mA特征数据集中各个序列间的相似度矩阵,包括:
[0011]基于后缀树的双序列比对模型得到所述DNA6mA特征数据集中各个序列间的相似度矩阵。
[0012]可选地,基于后缀树的双序列比对模型得到所述DNA6mA特征数据集中各个序列间的相似度矩阵,包括:
[0013]将第一输入序列构造为第一后缀树;
[0014]获取与所述第一输入序列进行比对的第二输入序列;
[0015]基于所述第一后缀树和所述第二输入序列,采用LCS模型确定所述第一输入序列
和所述第二输入序列的公共子串;
[0016]基于预设合格标准,从所述公共子串中剔除不合格子串;
[0017]采用Needleman

Wunsch模型将所述第一输入序列和第二输入序列中未匹配的子串进行比对,并基于比对结果形成比对结果序列;
[0018]基于所述公共子串的长度和所述比对结果序列长度,确定所述第一输入序列和所述第二输入序列之间的相似度。
[0019]可选地,所述DNA6mA特征数据集包括正例数据集和反例数据集,所述正例数据集为DNA6mA序列,所述反例数据集为非DNA6mA序列。
[0020]本申请实施例第二方面提供一种药DNA6mA修饰类别的预测装置,包括:
[0021]第一获取单元,用于获取DNA6mA特征数据集;
[0022]第一确定单元,用于确定所述DNA6mA特征数据集中各个序列间的相似度矩阵;
[0023]对数处理单元,用于对所述相似度矩阵进行对数化处理,获得所述各个序列间的第一矩阵;
[0024]高斯处理单元,用于对所述距离矩阵进行高斯化处理,获得满足正定性要求的距离矩阵;
[0025]预测单元,用于将所述满足正定性要求的距离矩阵作为支持向量机的自定义核矩阵,并基于支持向量机模型,对DNA6mA修饰类别进行预测。
[0026]可选地,所述第一确定单元,包括:
[0027]第一确定子单元,用于基于后缀树的双序列比对模型得到所述DNA6mA特征数据集中各个序列间的相似度矩阵。
[0028]可选地,所述第一确定单元,包括:
[0029]第一构造子单元,用于将第一输入序列构造为第一后缀树;
[0030]第一获取子单元,用于获取与所述第一输入序列进行比对的第二输入序列;
[0031]第二确定子单元,用于基于所述第一后缀树和所述第二输入序列,采用LCS模型确定所述第一输入序列和所述第二输入序列的公共子串;
[0032]第一剔除单元,用于基于预设合格标准,从所述公共子串中剔除不合格子串;
[0033]第一比对单元,用于采用Needleman

Wunsch模型将所述第一输入序列和第二输入序列中未匹配的子串进行比对,并基于比对结果形成比对结果序列;
[0034]第三确定子单元,用于基于所述公共子串的长度和所述比对结果序列长度,确定所述第一输入序列和所述第二输入序列之间的相似度。
[0035]可选地,所述DNA6mA特征数据集包括正例数据集和反例数据集,所述正例数据集为DNA6mA序列,所述反例数据集为非DNA6mA序列。
[0036]本申请实施例第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请第一方面所述的方法中的步骤。
[0037]本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请第一方面所述的方法的步骤。
[0038]采用本申请实施例提供的药物

靶标相互作用预测方法,实现了对DNA6mA修饰类别的预测。
附图说明
[0039]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0040]图1为本申请实施例提供的DNA6mA修饰类别的的预测方法的流程图;
[0041]图2为本申请实施例提供的DNA6mA修饰类别的的预测方法所支持的数据文件类型示意图。
[0042]图3为本申请实施例提供的DNA6mA修饰类别的的预测方法中以M.musculus数据集预测方法效果对比示意图。
[0043]图4为本申请实施例提供的DNA6mA修饰类别的的预测方法中Rice数据集预测方法效果对比示意图。
[0044]图5为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种DNA6mA修饰类别的预测方法,其特征在于,包括:获取DNA6mA特征数据集;确定所述DNA6mA特征数据集中各个序列间的相似度矩阵;对所述相似度矩阵进行对数化处理,获得所述各个序列间的第一矩阵;对所述距离矩阵进行高斯化处理,获得满足正定性要求的距离矩阵;将所述满足正定性要求的距离矩阵作为支持向量机的自定义核矩阵,并基于支持向量机模型,对DNA6mA修饰类别进行预测。2.如权利要求1所述的预测方法,其特征在于,确定所述DNA6mA特征数据集中各个序列间的相似度矩阵,包括:基于后缀树的双序列比对模型得到所述DNA6mA特征数据集中各个序列间的相似度矩阵。3.如权利要求2所述的预测方法,其特征在于,基于后缀树的双序列比对模型得到所述DNA6mA特征数据集中各个序列间的相似度矩阵,包括:将第一输入序列构造为第一后缀树;获取与所述第一输入序列进行比对的第二输入序列;基于所述第一后缀树和所述第二输入序列,采用LCS模型确定所述第一输入序列和所述第二输入序列的公共子串;基于预设合格标准,从所述公共子串中剔除不合格子串;采用Needleman

Wunsch模型将所述第一输入序列和第二输入序列中未匹配的子串进行比对,并基于比对结果形成比对结果序列;基于所述公共子串的长度和所述比对结果序列长度,确定所述第一输入序列和所述第二输入序列之间的相似度。4.如权利要求1所述的预测方法,其特征在于,所述DNA6mA特征数据集包括正例数据集和反例数据集,所述正例数据集为DNA6mA序列,所述反例数据集为非DNA6mA序列。5.一种DNA6mA修饰类别的预测装置,其特征在于,包括:第一获取单元,用于获取DNA6mA特征数据集;第一确定单元,用于确定所述DNA6mA特征数据集中各个序列间的相似度矩阵;对数处理单元,用于对所述相似度矩阵进行对数化处理,获得所述各个序...

【专利技术属性】
技术研发人员:邹权张昊宇
申请(专利权)人:电子科技大学长三角研究院衢州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1