当前位置: 首页 > 专利查询>王全军专利>正文

筛选siRNA序列以降低脱靶效应的方法及系统技术方案

技术编号:39008044 阅读:9 留言:0更新日期:2023-10-07 10:39
本发明专利技术涉及siRNA序列筛选生物信息技术领域,尤其涉及筛选siRNA序列以降低脱靶效应的方法及系统。该方法包括获取siRNA候选序列数据和特征数据,根据特征数据建立机器学习模型,利用训练集对机器学习模型进行训练并得到siRNA序列筛选模型,提取测试集中的数据,输入至siRNA序列筛选模型,即可得到筛选评分,筛选评分最高者,即为最优siRNA。采用该方法及系统不仅筛选效率、精确度、敏感度、特异性和MCC值均显著高于对比例,并且不存在训练多度的情况发生;并且几乎可以免于siRNA对靶mRNA的脱靶效应产生,对将来siRNA干扰效率预测领域有重要参考价值。要参考价值。要参考价值。

【技术实现步骤摘要】
筛选siRNA序列以降低脱靶效应的方法及系统


[0001]本专利技术涉及siRNA序列筛选生物信息
,尤其涉及筛选siRNA序列以降低脱靶效应的方法及系统。

技术介绍

[0002]RNA干扰(siRNA)是自然界普遍存在的导致目标mRNA降解的生物现象。以siRNA为基础的基因沉默已经成为功能基因分析的高效工具,有试验结果表明,反义RNA通过与mRNA序列互补结合,抑制了基因的表达。siRNA的沉默作用非常强大,在细胞中1~3个双链siRNA就可以介导基因沉默。siRNA是由Dicer酶剪切双链RNA(dsRNA)产生的,并可与酶复合物结合成RNA

induced silencing complex(RISC),双链、iRNA解旋成单链,然后通过其反义链与目标mRNA结合,促进目标mRNA的酶性降解。siRNA成功的关键取决于siRNA和mRNAs有效地相互作用,因此设计高效特异的siRNA成为siRNA应用过程中极具挑战性问题。目前,已有许多高效siRNA的设计网站,但是对siRNA的高效性起决定作用的特征参数并不是很清楚。siRNA与mRNA之间复杂的作用机制决定了siRNA序列中各个位置的碱基必然有一定的偏好胜,然而现有的siRNA设计规则存在很多的不一致,这些规则的机制也并不完全清楚,从而导致了现有的siRNA设计不能很好抑制靶基因的表达,影响了siRNA技术的发展。多项研究已经证明,这些规则并不是完全适用于所有的靶基因,对于不同的目标基因来说,它们的价值不同,这就需要对现有的siRNA设计规则进行重新认识,并进一步优化,以减少由于设计规则的不一致性带来的影响。
[0003]大量生物试验表明,结合在同一mRNA不同靶点的siRNA具有不同的沉默效率。鉴于通过生物实验的方式寻找mRNA上合适的siRNA结合靶点效率高、免于脱靶或者脱靶率低、成本高、周期长、干扰因素多,借助计算机技术预测mRNA上合适的siRNA结合靶点具有显著意义。早期,siRNA沉默mRNA的靶点预测主要依据研究人员观察siRNA结合mRNA靶点样本上各种碱基出现的频次,效率较低,也难以得到最优结果。随着siRNA结合mRNA靶点样本的增加以及机器学习方法的兴起,通过提取siRNA结合mRNA靶点的碱基序列特征,再利用大样本数据训练预测模型,大幅提高了siRNA沉默mRNA的靶点预测效率和准确性。但是,现有的预测模型仅考虑siRNA结合mRNA靶点的碱基序列特征,并没有考虑结合mRNA靶点处的RNA二级结构特征,导致预测效果仍不能令人满意。

技术实现思路

[0004]为解决或缓解上述部分技术问题,因此,本专利技术提出一种新的筛选siRNA序列以降低脱靶效应的方法及系统。该方法采用了全新的机器学习模型和训练方法,对候选siRNA进行筛选评分,更加评分最高者筛选得到最合适的siRNA。采用该方法及系统不仅筛选效率、精确度、敏感度、特异性和MCC值均显著高于对比例,并且不存在训练多度的情况发生;并且几乎可以免于siRNA对靶mRNA的脱靶效应产生,对将来siRNA干扰效率预测领域有重要参考价值。为此,本专利技术提供了以下技术方案:
[0005]第一方面,本专利技术提供了一种获得免于脱靶miRNA的siRNA序列筛选方法,其特征在于,包括:
[0006]S100、获取siRNA候选序列数据;
[0007]S200、根据siRNA候选序列数据提取特征数据,并将特征数据组成训练集和测试集;所述特征数据包括各siRNA候选序列对应的序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据;
[0008]S300、根据序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据构建机器学习模型;
[0009]S400、利用训练集对机器学习模型进行训练,并得到siRNA序列筛选模型;
[0010]S500、提取测试集中的特征向量,输入siRNA序列筛选模型,其中,特征向量包括序列特征向量、二级结构特征向量和热动力学特征向量;以及
[0011]S600、根据分别得到筛选评分筛选对mRNA中靶效果最优的siRNA并输出数据,输出数据包括最优siRNA的序列数据、特征值和筛选评分;其中,筛选评分最高者,即为最优siRNA。
[0012]进一步的,所述siRNA候选序列包括中靶率>90%、中靶率70%~90%、中靶率50%~70%和中靶率<50%的siRNA;所述训练集包括中靶率>90%、中靶率70%~90%、中靶率50%~70%和中靶率<50%的siRNA对应的序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据。
[0013]进一步的,所述序列特征包括G/C含量、U

T1、U

T2、U

T3、U

T4、A、N、(G-C)%、(A-U)%、(G+C)%和(A+U)%,所述二级结构特征包括氢键系数,所述热力学特征包括ΔGm、ΔGs、ΔGd、P、W和M。
[0014]进一步的,G/C含量的特征提取方法为候选siRNA中G和C分别占的百分比例;
[0015]U

T1的特征提取方法为判断反义链5

端是否为A/U,若是则特征值为1,否则为0;
[0016]U

T2的特征提取方法为判断正义链5

端是否为G/C,若是则特征值为1,否则为0;
[0017]U

T3的特征提取方法为判断是否在反义链5

末端1/3区富含AU,若是则特征值为1,否则为0;
[0018]U

T4的特征提取方法为判断是否存在连续超过9位的GC区,若是则特征值为1,否则为0;
[0019]A的特征提取方法为判断是否同时满足U

T1/U

T2/U

T3/U

T4,若是则特征值为1,否则为0;
[0020]N的特征提取方法为判断是否同时不满足U

T1/U

T2/U

T3/U

T4,若是则特征值为1,否则为0;
[0021](G-C)%的特征提取方法为计算100
×
(G%-C%)/(G%+C%);
[0022](A-U)%的特征提取方法为计算100
×
(A%-U%)/(A%+U%);
[0023](G+C)%的特征提取方法为计算G%+C%;
[0024](A+U)%的特征提取方法为计算A%+U%。
[0025]进一步的,氢键系数的特征提取方法包括采用如下公式的进行计算:
[0026][0027]在此公式中,i表示siRNA所对应的靶siRNA区域中的核苷酸序数,PH

bond是第i个核苷酸与同一条mRNA中其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.获得免于脱靶miRNA的siRNA序列筛选方法,其特征在于,包括:S100、获取siRNA候选序列数据;S200、根据siRNA候选序列数据提取特征数据,并将特征数据组成训练集和测试集;所述特征数据包括各siRNA候选序列对应的序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据;S300、根据序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据构建机器学习模型;S400、利用训练集对机器学习模型进行训练,并得到siRNA序列筛选模型;S500、提取测试集中的特征向量,输入siRNA序列筛选模型,其中,特征向量包括序列特征向量、二级结构特征向量和热动力学特征向量;以及S600、根据分别得到筛选评分筛选对mRNA中靶效果最优的siRNA并输出数据,输出数据包括最优siRNA的序列数据、特征值和筛选评分;其中,筛选评分最高者,即为最优siRNA;所述机器学习模型为:其中,S为针对某一靶标mRNA的某一siRNA的筛选评分;m为针对某一靶标mRNA的上述全部候选siRNA的数量;n为特征数量;T1为针对某一靶标mRNA的siRNA序列特征值,T2为针对某一靶标mRNA的二级结构特征值,T3为针对某一靶标mRNA的热力学特征值;p、q和j为模型参数。2.根据权利要求1所述的筛选方法,其特征在于,所述siRNA候选序列包括中靶率>90%、中靶率70%~90%、中靶率50%~70%和中靶率<50%的siRNA;所述训练集包括中靶率>90%、中靶率70%~90%、中靶率50%~70%和中靶率<50%的siRNA对应的序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据。3.根据权利要求1所述的筛选方法,其特征在于,所述序列特征包括G/C含量、U

T1、U

T2、U

T3、U

T4、A、N、(G-C)%、(A-U)%、(G+C)%和(A+U)%,所述二级结构特征包括氢键系数,所述热力学特征包括ΔGm、ΔGs、ΔGd、P、W和M。4.根据权利要求3所述的筛选方法,其特征在于,G/C含量的特征提取方法为候选siRNA中G和C分别占的百分比例;U

T1的特征提取方法为判断反义链5

端是否为A/U,若是则特征值为1,否则为0;U

T2的特征提取方法为判断正义链5

端是否为G/C,若是则特征值为1,否则为0;U...

【专利技术属性】
技术研发人员:王全军
申请(专利权)人:王全军
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1