【技术实现步骤摘要】
一种单细胞m6A甲基化谱的预测方法
[0001]本专利技术属于基因组学生物信息学的
,具体地说,涉及一种基于单细胞内反式m6A调控因子表达水平和顺式m6A序列组合特征在单细胞水平上预测m6A丰度的方法。
技术介绍
[0002]单细胞测序技术自2009年首次问世以来至今一直广受关注。简单来说,单细胞测序是在单个细胞水平上,对基因组、转录组、表观组进行高通量测序分析的一项新技术,其流程主要包括四个步骤:单细胞分离、全基因组扩增、高通量测序和数据分析。相较于传统的基于多细胞信号均值的测序,单细胞测序技术能够从混杂组织中捕获单个细胞,并获取单个细胞的基因结构和基因表达状态,揭示细胞间的异质性。
[0003]N6
‑
甲基腺苷(m6A)是一种mRNA内部含量最多,存在最广泛的RNA表观遗传修饰,在肿瘤、发育生物学、微生物学、神经科学等领域发挥重要作用,正成为生命科学研究的热点,调节m6A修饰所涉及的m6A调控因子有十余种包括:“编码器”(writer)METTL3、METTL14、WTAP等,“擦除器”( ...
【技术保护点】
【技术特征摘要】
1.一种单细胞m6A甲基化谱的预测方法,其特征在于,包括建立单细胞m6A甲基化谱预测模型和基于该模型进行单细胞m6A甲基化谱预测,其中建立单细胞m6A甲基化谱预测模型包括以下步骤:步骤1、从GEO(Gene Expression Omnibus)数据库中收集所有的m6A调控因子转录组数据和m6A
‑
seq数据,然后提取全部的m6A反式调控因子和顺式motif序列信息,和对应m6A甲基化水平的调控网络关系;步骤2、获得所有的m6A调控因子的基因表达谱数值和m6A甲基化谱数值,并进行标准化转换处理;步骤3、将处理后的单细胞m6A矩阵进行共表达网络分组,使用HOMER计算每个分组中基因的m6A motif数值,将符合DRACH模式且p值最小的序列的各个A/C/G/T的占比整理成矩阵,与单细胞m6A调控因子矩阵合并;步骤4、根据共表达水平对单细胞m6A进行降维,计算单细胞m6A甲基化谱与m6A调控因子的相关性,得到一一对应的单细胞m6A反式调控因子
‑
顺式motif矩阵和单细胞m6A甲基化谱矩阵;对得到的成对匹配的矩阵进行模型构建,将单细胞m6A反式调控因子和顺式motif矩阵作为模型输入,单细胞m6A甲基化谱矩阵作为监督学习的目标变量;将全部样本划分为训练集、测试集,训练集做5折交叉验证;给定参数,训练集用于构建模型,测试集用于验证模型回归预测性能。2.根据权利要求1所述的一种单细胞m6A甲基化谱的预测方法,其特征在于,经过步骤2之后,判断获得的m6A甲基化谱数据是否存在有大量缺失值,对缺失率>10%的样本和基因直接删除,对缺失率<10%的位置使用该行均值和该列均值的均值进行填充,计算公式为:其中,Z
ij
表示缺失值坐标,是该缺失值所在行均值,是该缺失值所在列均值。3.根据权利要求1所述的一种单细胞m6A甲基化谱的预测方法,其特征在于,对于所述步骤4还包括如下步骤:步骤4.1、最优参数筛选,使用网格搜索计算RFR模型的最优超参数,参数n_estimators是RFR模型基评估器的数量,max_depth是RFR模型基评估器的最大深度,超过最大深度的树枝会被剪掉,其中,参数网格设置为:
′
max
′
depth
:range(2,15,1)
ꢀꢀꢀꢀꢀ
(2...
【专利技术属性】
技术研发人员:安三奇,李玥琪,褚洁梅,梁浩,韦吴迪,李文兴,李静怡,叶力,蒋俊俊,胡小鹏,林垚,
申请(专利权)人:广西医科大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。