【技术实现步骤摘要】
一种siRNA敲减mRNA的靶点预测方法和系统
本专利技术属于生物信息领域,具体涉及一种siRNA敲减mRNA的靶点预测方法。此外,本专利技术还涉及一种siRNA敲减mRNA的靶点预测系统。
技术介绍
大量生物试验表明,结合在同一mRNA不同靶点的siRNA具有不同的敲减效率。鉴于通过生物实验的方式寻找mRNA上合适的siRNA结合靶点效率低、成本高、周期长、干扰因素多,借助计算机技术预测mRNA上合适的siRNA结合靶点具有显著意义。早期,siRNA敲减mRNA的靶点预测主要依据研究人员观察siRNA结合mRNA靶点样本上各种碱基出现的频次,效率较低,也难以得到最优结果。随着siRNA结合mRNA靶点样本的增加以及机器学习方法的兴起,通过提取siRNA结合mRNA靶点的碱基序列特征,再利用大样本数据训练预测模型,大幅提高了siRNA敲减mRNA的靶点预测效率和准确性。但是,现有的预测模型仅考虑siRNA结合mRNA靶点的碱基序列特征,并没有考虑结合mRNA靶点处的RNA二级结构特征,导致预测效果仍不能令人满意。因此 ...
【技术保护点】
1.一种siRNA敲减mRNA的靶点预测方法,其特征在于,该方法采用:首先提取mRNA目标结合靶点的碱基序列特征,然后提取目标结合靶点处的RNA二级结构特征,进而通过siRNA敲减mRNA的靶点预测模型实现siRNA敲减mRNA的靶点预测。/n
【技术特征摘要】
1.一种siRNA敲减mRNA的靶点预测方法,其特征在于,该方法采用:首先提取mRNA目标结合靶点的碱基序列特征,然后提取目标结合靶点处的RNA二级结构特征,进而通过siRNA敲减mRNA的靶点预测模型实现siRNA敲减mRNA的靶点预测。
2.如权利要求1所述的方法,其特征在于,该方法包括如下步骤:
步骤1、输入要敲减的mRNA碱基序列,根据碱基互补配对原则得到mRNA上所有候选目标靶点对应的siRNA序列;
步骤2,根据mRNA目标结合靶点的碱基序列,提取目标靶点及其对应siRNA每个位置的碱基种类及其每个碱基种类的出现频率碱基序列特征;
步骤3,提取mRNA目标结合靶点处的二级结构特征及其对应siRNA反义链的二级结构特征;
步骤4,将提取的所有特征输入预测模型,模型输出mRNA目标结合靶点与其对应siRNA反义链的结合概率值;
步骤5,根据模型输出的概率值,筛选出合适的siRNA敲减mRNA的靶点。
3.如权利要求2所述的方法,其特征在于,步骤3具体包括如下步骤:
步骤A,如式(1)所示,计算mRNA目标结合靶点处mRNA单链上每个碱基i与整个mRNA单链上其它碱基j配对结合的概率Pij之和Si;m为mRNA的碱基数量;
其中,k为mRNA单链可能形成的众多二级结构中碱基i与碱基j发生配对的任意一种二级结构,S为mRNA单链所有可能形成的二级结构中的任意一种,ΔGk和ΔGS为编号为k和S的二级结构对应的自由能,T为绝对温度,R为气体常数8.314J/(mol*K)。
步骤B,对步骤A中提取的目标结合靶点上每个碱基的概率和Si进行加权求和Fsum,以及计算最大值Fmax;加权求和过程中,如式(1)所示,考虑碱基配对形成的氢键数量,如果碱基类型为A或U,权Wi为2;如果碱基类型为C或G,权Wi为3;最大值的计算过程如式(3)所示,n为目标结合靶点的碱基数量:
Fmax=MAXSi(3)
步骤C,对mRNA目标结合靶点对应的siRNA反义链也按照步骤A、B进行特征提取;此时,m=n。
4.如权利要求3所述的方法,其特征在于,步骤3中,mRNA与siRNA反义链结合区域特征包含每个位置的碱基与其他所有碱基配对概率和共n个特征,这n个数的最大值,以及这n个数的加权和,共n+2个特征;对siRNA反义链上的n个碱基以同样的方式提取特征也得到n+2个特征;总共提取反应mRNA目标结合靶点处RNA二级结构的特征2n+4个。
5.如权利要求1所述的方法,其特征在于,所述siRNA敲减mRNA的靶点预测模型由三个不同参数的LightGBM回归模型构成,对三个模型的预测结果取平均作为最终预测结果;LightGBM回归模型结构如下式:
式(4)中,ft(x)为第t个决策树的输出值,T为决策树数量。
6.如权利要求5所述的方法,其特征在于,所述siRNA敲减mRNA的靶点预测模型训练过程中,首先根据训练集按预先...
【专利技术属性】
技术研发人员:冯伟兴,赵明昊,徐南,康立清,
申请(专利权)人:吉优诺上海基因科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。