当前位置: 首页 > 专利查询>山东大学专利>正文

基于单细胞Hi-C数据的细胞周期预测方法及系统技术方案

技术编号:38257510 阅读:10 留言:0更新日期:2023-07-27 10:19
本发明专利技术提出了基于单细胞Hi

【技术实现步骤摘要】
基于单细胞Hi

C数据的细胞周期预测方法及系统


[0001]本专利技术属于细胞周期预测领域,尤其涉及基于单细胞Hi

C数据的细胞周期预测方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]细胞周期过程涉及细胞内一系列物质的变化,包括RNA、DNA和蛋白质;分析细胞周期与各种物质状态之间的关系将有助于分析细胞周期动力学;因此,如何确定细胞周期是非常重要的。
[0004]基于单细胞Hi

C数据确定细胞周期阶段有助于分析和研究不同细胞周期阶段染色体空间结构的变化,对揭示细胞周期动态具有重要意义;但是现有的预测方法主要采用机器学习的方法建立细胞周期伪轨迹序列,虽然通过创建细胞周期伪轨迹序列的方法可以初步按照周期顺序对同一类型的细胞群进行识别,但这种方法仍存在一些缺点:(1)如果不通过外部辅助手段,无法直观地判断周期结果中单个细胞的周期;(2)序列中相邻细胞周期之间的边界较为模糊;因此,现有技术存在预测不准确、性能低的问题。

技术实现思路

[0005]为克服上述现有技术的不足,本专利技术提供了基于单细胞Hi

C数据的细胞周期预测方法及系统,新提出两种特征集,并构建融合预测模型,独立预测单个细胞所属的细胞周期,解决预测不准确、性能低的问题。
[0006]为实现上述目的,本专利技术的一个或多个实施例提供了如下技术方案:
[0007]本专利技术第一方面提供了基于单细胞Hi

C数据的细胞周期预测方法;
[0008]基于单细胞Hi

C数据的细胞周期预测方法,包括:
[0009]对待预测单细胞的Hi

C数据进行预处理,得到染色体接触矩阵;
[0010]基于待预测单细胞的相互作用信息和染色体接触矩阵,提取单细胞染色体三维结构特征,得到不同尺度的三个特征集:接触概率分布与基因组距离特征集、Bin接触概率特征集和小域内接触概率特征集;
[0011]将提取的三个特征集输入到训练好的融合预测模型中,进行卷积和特征融合,生成并输出最终的细胞周期预测结果。
[0012]进一步的,所述预处理,具体为:
[0013]基于单细胞Hi

C数据中的读对位点映射文件,将单细胞Hi

C数据中基于片段编号的相互作用信息,转换成基于片段位置坐标的相互作用信息;
[0014]将单细胞中的所有染色体按照预设分辨率分成多个片段,每个片段称为一个Bin;
[0015]根据基于片段坐标标识的相互作用信息,将相互作用信息映射到相应的Bin中,为单细胞的每条染色体生成对应的染色体接触矩阵。
[0016]进一步的,所述接触概率分布与基因组距离特征集,具体为:
[0017]将两个片段的相互作用作为一个接触,根据接触中两个片段的线性距离,把接触分配到按线性距离划分的多个区间中;
[0018]计算每个区间中接触计数的概率,得到细胞的接触概率分布与基因组距离特征集。
[0019]进一步的,所述Bin接触概率特征集,具体为:
[0020]基于染色体接触矩阵,计算染色体上每个Bin的接触概率;通过计算所有染色体的Bin接触概率,生成细胞的Bin接触概率特征集。
[0021]进一步的,所述小域内接触概率特征集,具体为:
[0022]将小域定义为以目标Bin为中心,以一阶线性相邻Bin为界的三角区域;
[0023]基于染色体接触矩阵,计算每个小域的接触概率;通过计算所有染色体的小域内接触概率,生成细胞的小域内接触概率特征集。
[0024]进一步的,所述融合预测模型,包括卷积模块和特征融合模块;
[0025]所述卷积模块,通过一维卷积层、批处理规范层、最大池化层和Dropout层,为三个特征集分别生成一维特征向量;
[0026]所述特征融合模块,将三个一维特征向量融合成最终的细胞特征,并对细胞特征进行阶段打分,最高分对应的阶段为最终的细胞周期预测结果。
[0027]进一步的,所述融合预测模型的训练,采用5折交叉验证方法,每折将预设比例的训练集数据分割到验证集,验证集上的损失在连续预设轮数中都没有减少,则模型训练终止。
[0028]本专利技术第二方面提供了基于单细胞Hi

C数据的细胞周期预测系统。
[0029]基于单细胞Hi

C数据的细胞周期预测系统,包括数据预处理模块、特征提取模块和周期预测模块:
[0030]数据预处理模块,被配置为:对待预测单细胞的Hi

C数据进行预处理,得到染色体接触矩阵;
[0031]特征提取模块,被配置为:基于待预测单细胞的相互作用信息和染色体接触矩阵,提取单细胞染色体三维结构特征,得到不同尺度的三个特征集:接触概率分布与基因组距离特征集、Bin接触概率特征集和小域内接触概率特征集;
[0032]周期预测模块,被配置为:将提取的三个特征集输入到训练好的融合预测模型中,进行卷积和特征融合,生成并输出最终的细胞周期预测结果。
[0033]本专利技术第三方面提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本专利技术第一方面所述的基于单细胞Hi

C数据的细胞周期预测方法中的步骤。
[0034]本专利技术第四方面提供了电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本专利技术第一方面所述的基于单细胞Hi

C数据的细胞周期预测方法中的步骤。
[0035]以上一个或多个技术方案存在以下有益效果:
[0036](1)本专利技术提出了两种新的从单细胞Hi

C数据中提取特征集的方法,即Bin接触概率特征集(BCP特征集)和小域内接触概率特征集(SICP特征集),并通过融合现有的基因组距离的连接概率分布特征集(CDD特征集)与本专利技术新提出的两种特征集来构建深度学习预
测模型,预测细胞周期。
[0037](2)本专利技术提出的深度学习预测模型能够独立地判断单个细胞所属的细胞周期,明确了处于不同细胞周期边间之间的模糊细胞所属的周期,从而能够明确不同细胞周期之间的边界。
[0038]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0039]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0040]图1为第一个实施例的方法流程图。
[0041]图2为第一个实施例的小域构建示意图。
[0042]图3为第一个实施例的模型结构图。
[0043]图4为第一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于单细胞Hi

C数据的细胞周期预测方法,其特征在于,包括:对待预测单细胞的Hi

C数据进行预处理,得到染色体接触矩阵;基于待预测单细胞的相互作用信息和染色体接触矩阵,提取单细胞染色体三维结构特征,得到不同尺度的三个特征集:接触概率分布与基因组距离特征集、Bin接触概率特征集和小域内接触概率特征集;将提取的三个特征集输入到训练好的融合预测模型中,进行卷积和特征融合,生成并输出最终的细胞周期预测结果。2.如权利要求1所述的基于单细胞Hi

C数据的细胞周期预测方法,其特征在于,所述预处理,具体为:基于单细胞Hi

C数据中的读对位点映射文件,将单细胞Hi

C数据中基于片段编号的相互作用信息,转换成基于片段位置坐标的相互作用信息;将单细胞中的所有染色体按照预设分辨率分成多个片段,每个片段称为一个Bin;根据基于片段坐标标识的相互作用信息,将相互作用信息映射到相应的Bin中,为单细胞的每条染色体生成对应的染色体接触矩阵。3.如权利要求1所述的基于单细胞Hi

C数据的细胞周期预测方法,其特征在于,所述接触概率分布与基因组距离特征集,具体为:将两个片段的相互作用作为一个接触,根据接触中两个片段的线性距离,把接触分配到按线性距离划分的多个区间中;计算每个区间中接触计数的概率,得到细胞的接触概率分布与基因组距离特征集。4.如权利要求1所述的基于单细胞Hi

C数据的细胞周期预测方法,其特征在于,所述Bin接触概率特征集,具体为:基于染色体接触矩阵,计算染色体上每个Bin的接触概率;通过计算所有染色体的Bin接触概率,生成细胞的Bin接触概率特征集。5.如权利要求1所述的基于单细胞Hi

C数据的细胞周期预测方法,其特征在于,所述小域内接触概率特征集,具体为:将小域定义为以目标Bin为中心,以一阶线性相邻Bin为界的三角区域;基于...

【专利技术属性】
技术研发人员:吴昊周详斐吴应福史振岐
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1