【技术实现步骤摘要】
筛选siRNA序列以降低脱靶效应的方法及系统
[0001]本专利技术涉及siRNA序列筛选生物信息
,尤其涉及筛选siRNA序列以降低脱靶效应的方法及系统。
技术介绍
[0002]RNA干扰(siRNA)是自然界普遍存在的导致目标mRNA降解的生物现象。以siRNA为基础的基因沉默已经成为功能基因分析的高效工具,有试验结果表明,反义RNA通过与mRNA序列互补结合,抑制了基因的表达。siRNA的沉默作用非常强大,在细胞中1~3个双链siRNA就可以介导基因沉默。siRNA是由Dicer酶剪切双链RNA(dsRNA)产生的,并可与酶复合物结合成RNA
‑
induced silencing complex(RISC),双链、iRNA解旋成单链,然后通过其反义链与目标mRNA结合,促进目标mRNA的酶性降解。siRNA成功的关键取决于siRNA和mRNAs有效地相互作用,因此设计高效特异的siRNA成为siRNA应用过程中极具挑战性问题。目前,已有许多高效siRNA的设计网站,但是对siRNA的高效性起决定作用的特征参数并不是很清楚。siRNA与mRNA之间复杂的作用机制决定了siRNA序列中各个位置的碱基必然有一定的偏好胜,然而现有的siRNA设计规则存在很多的不一致,这些规则的机制也并不完全清楚,从而导致了现有的siRNA设计不能很好抑制靶基因的表达,影响了siRNA技术的发展。多项研究已经证明,这些规则并不是完全适用于所有的靶基因,对于不同的目标基因来说,它们的价值不同,这就需要对现有的siR ...
【技术保护点】
【技术特征摘要】
1.获得免于脱靶miRNA的siRNA序列筛选方法,其特征在于,包括:S100、获取siRNA候选序列数据;S200、根据siRNA候选序列数据提取特征数据,并将特征数据组成训练集和测试集;所述特征数据包括各siRNA候选序列对应的序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据;S300、根据序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据构建机器学习模型;S400、利用训练集对机器学习模型进行训练,并得到siRNA序列筛选模型;S500、提取测试集中的特征向量,输入siRNA序列筛选模型,其中,特征向量包括序列特征向量、二级结构特征向量和热动力学特征向量;以及S600、根据分别得到筛选评分筛选对mRNA中靶效果最优的siRNA并输出数据,输出数据包括最优siRNA的序列数据、特征值和筛选评分;其中,筛选评分最高者,即为最优siRNA。2.根据权利要求1所述的筛选方法,其特征在于,所述siRNA候选序列包括中靶率>90%、中靶率70%~90%、中靶率50%~70%和中靶率<50%的siRNA;所述训练集包括中靶率>90%、中靶率70%~90%、中靶率50%~70%和中靶率<50%的siRNA对应的序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据。3.根据权利要求1所述的筛选方法,其特征在于,所述序列特征包括G/C含量、U
‑
T1、U
‑
T2、U
‑
T3、U
‑
T4、A、N、(G-C)%、(A-U)%、(G+C)%和(A+U)%,所述二级结构特征包括氢键系数,所述热力学特征包括ΔGm、ΔGs、ΔGd、P、W和M。4.根据权利要求3所述的筛选方法,其特征在于,G/C含量的特征提取方法为候选siRNA中G和C分别占的百分比例;U
‑
T1的特征提取方法为判断反义链5
’
端是否为A/U,若是则特征值为1,否则为0;U
‑
T2的特征提取方法为判断正义链5
’
端是否为G/C,若是则特征值为1,否则为0;U
‑
T3的特征提取方法为判断是否在反义链5
’
末端1/3区富含AU,若是则特征值为1,否则为0;U
‑
T4的特征提取方法为判断是否存在连续超过9位的GC区,若是则特征值为1,否则为0;A的特征提取方法为判断是否同时满足U
‑
...
【专利技术属性】
技术研发人员:王全军,戴学栋,董延生,韩刚,刘杨,
申请(专利权)人:苏州赛赋新药技术服务有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。