System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于生物信息领域,具体涉及一种基于多态式结构化碱基比对方式的microrna靶标预测方法及计算机程序产品。
技术介绍
1、microrna简称为mirna,是一类长度约为22个核苷酸、多产生于基因间区和内含子上的小分子rna。在生物细胞中,成熟的mirna分子与分布在细胞质中的ago蛋白结合形成rna的沉默复合体。rna的沉默复合体通过靶向结合其目标mrna,从而上调或下调目标mrna的表达。
2、mirna靶基因预测是指根据基因的表达模式或基因间的相互作用模式,在众多感兴趣的目标基因中筛选预测出潜在可能的靶基因。mirna靶基因预测作为研究mirna分子功能或mirna分子调控机制的前期研究中的必经之路,可帮助研究人员快速高效低实验成本地淘汰大量的非靶标基因和非结合位点,节省大量的人力物力。时至今日,已有为数不少的mirna靶标预测软件被应用于各类研究工作中,然而,这些软件在实际的应用中依然存在平台限制、物种限制、准确度较低以及预测不够全面等诸多局限和不便。
3、当今社会,随着各种计算机辅助分析软件的蓬勃发展以及生物学实验研究的逐渐深入,对众多mirna的生物学功能及其作用机制的探究越发清晰,同时所面临的困难也越来越大,现有分析软件的科学性和准确度较低,不能满足研究人员越来越高的需求。相关研究人员对于mirna靶标预测精准性的需求越要越高,随着实验研究的深入,实验任务和相关工作量的增大,人们也希望mirna靶标预测软件能够方便、灵活,高效,适应自身实验的需要,用户对于靶标预测软件需求呈现高效、
4、基于此,一种能够高效、精准、全面地预测mirna靶基因的方法和计算机程序亟待开发。
技术实现思路
1、本专利技术的目的在于提供一种高效、精准、全面地预测mirna靶基因的方法和计算机程序产品。
2、为了实现上述目的,本专利技术提供如下技术方案:
3、本专利技术提供了一种基于多态式结构化碱基比对方式的microrna靶标预测方法,包括如下步骤:
4、(1)将mirna文件及其潜在靶基因文件分别作为输入单元;
5、(2)提取两个分别来自mirna文件和靶基因文件的输入单元组成一个预测单元;
6、(3)设置移动量和跳过数,根据移动量和跳过数并基于多态式碱基组合拆分成多个比对单元,比对并生成输出单元,采用评分系统和能量分数系统计算并分析每个输出单元的评分和能量分数,根据评分和能量分数筛选合适的潜在靶基因,格式化输出;
7、所述多态式碱基组合包括有以下几种:
8、其中,0和1表示碱基的匹配状态,0表示不匹配,1表示匹配。
9、①group 1:1+~,其中~代表连续的碱基序列,1+表示当mirna第一个碱基匹配时,确定比对;
10、②group 2:~+1,其中~的含义同上,+1表示当前面连续的碱基序列匹配时,确定比对;
11、③group 3:11,表示当同时拥有两个连续匹配的碱基时,确定比对;
12、④group 4:0111,表示当连续的四个碱基中满足前一位碱基不匹配且后三位连续的碱基匹配时,确定比对;
13、⑤group 5:00111,表示当连续的五个碱基中满足前两位连续的碱基不匹配且后三位连续的碱基匹配时,确定比对;
14、⑥group 6:000111,表示当连续的六个碱基中满足前三位连续的碱基不匹配且后三位连续的碱基匹配时,确定比对;
15、所述输出单元的评分系统为:
16、(1)权重系数:用于衡量mirna各碱基位点的重要程度
17、w1:mirna 5’->3’端的第一个碱基;
18、w2:mirna 5’->3’端的第二到八位种子序列;
19、w3:mirna 5’->3’端的第十一到十三位的三个重要碱基;
20、w4:mirna 5’->3’端的其他碱基;
21、(2)校正系数:w5,用于校正匹配与不匹配碱基评分之间的数量关系
22、(3)比例系数:wx,用于调整各权重系数的比例关系,公式如下所示:
23、
24、(4)mirna碱基序列:
25、mirlen:mirna序列的总碱基数,即总长度;
26、(5)匹配碱基数值:
27、matcha:mirna 5’->3’端的第一个碱基是a碱基且匹配的数量;
28、matchseed:mirna 5’->3’端的种子序列匹配的数量;
29、match11to13:mirna 5’->3’端的第十一到十三个碱基匹配的数量;
30、matchother:mirna 5’->3’端的其他碱基匹配的数量;
31、公式如下所示:
32、
33、(6)不匹配碱基数值:
34、loopa:mirna5’->3’端的第一个碱基未匹配的数量;
35、loopseed:mirna5’->3’端的种子序列未匹配的数量;
36、loop11to13:mirna5’->3’端的第十一到十三个碱基未匹配的数量;
37、loopother:mirna5’->3’端的其他碱基未匹配的数量;
38、公式如下所示:
39、scoreloop=w1×loopa+w2×loopseed+w3×loop11to13+w4×loopother
40、(7)缺口碱基数值:
41、gapnum:mirna5’->3’端形成缺口的碱基数量;
42、公式如下所示:
43、scoregap=gapnum×w5
44、(8)评分公式:如下所示
45、
46、所述能量分数系统为:
47、(1)a:t碱基对数值:
48、matchat:表示在输出单元中含有a:t碱基对的数量;
49、(2)c:g碱基对数值:
50、matchcg:表示在同一个比对单元中含有c:g碱基对的数量;
51、(3)u:g碱基对数值:
52、matchug:表示在同一个比对单元中含有u:g碱基对的数量;
53、(4)全部碱基对数值:
54、matchall:表示在同一个比对单元中所有碱基对的数量;
55、(5)能量公式:如下所示
56、
57、本专利技术还提供了一种基于多态式结构化碱基比对方式的microrna靶标预测计算机程序tarp。
58、计算机程序tarp的结构由输入数据、执行程序、输出数据三个部分组成。
59、输入数据是指本文档来自技高网...
【技术保护点】
1.一种基于多态式结构化碱基比对方式的microRNA靶标预测方法,其特征在于,包括如下步骤:
2.一种基于多态式结构化碱基比对方式的microRNA靶标预测计算机程序产品,其特征在于,该计算机程序被处理器执行时实现权利要求1所述microRNA靶标预测方法的步骤。
3.根据权利要求2所述的计算机程序产品,其特征在于,所述计算机程序TarP的结构由输入数据、执行程序、输出数据三个部分组成。
4.根据权利要求3所述的计算机程序产品,其特征在于,所述输入数据是指miRNA文件及其潜在靶基因文件,两类输入文件的格式均以两行为一个输入单元,每一个输入单元的第一行为以“>”开头的基因名,第二行则为对应的碱基序列。
5.根据权利要求3所述的计算机程序产品,其特征在于,所述执行程序用于处理输入数据,提取两个分别来自miRNA文件和靶基因文件的输入单元组成一个预测单元,根据移动量和跳过数并基于多态式结构化碱基比对原则拆分成多个比对单元,比对并生成输出单元,计算并分析每个输出单元的评分和能量分数,根据评分和能量分数筛选合适的潜在靶基因,格式化输
6.根据权利要求3所述的计算机程序产品,其特征在于,所述输出数据为执行程序运行结束后的输出结果,包括两个文件,一个文件为潜在靶基因的结果文件,另一个为miRNA与其潜在靶基因的靶位点结合文件。
7.根据权利要求6所述的计算机程序产品,其特征在于,所述靶基因结果文件主要包含miRNA基因及其预测的潜在靶基因的名称、碱基序列、输出单元的碱基序列、比对状态值、输出单元的匹配总数、miRNA第一个碱基匹配数、miRNA种子序列碱基匹配总数、miRNA第11到第13个碱基的匹配总数、输出单元的评分及能量分数。
8.根据权利要求6所述的计算机程序产品,其特征在于,所述靶位点结合文件主要包括潜在靶基因的名称及序列,miRNA的名称及序列,输出单元的评分及能量分数,比对单元的靶位点结合图。
9.一种计算机系统,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行权利要求2-8所述计算机程序产品。
...【技术特征摘要】
1.一种基于多态式结构化碱基比对方式的microrna靶标预测方法,其特征在于,包括如下步骤:
2.一种基于多态式结构化碱基比对方式的microrna靶标预测计算机程序产品,其特征在于,该计算机程序被处理器执行时实现权利要求1所述microrna靶标预测方法的步骤。
3.根据权利要求2所述的计算机程序产品,其特征在于,所述计算机程序tarp的结构由输入数据、执行程序、输出数据三个部分组成。
4.根据权利要求3所述的计算机程序产品,其特征在于,所述输入数据是指mirna文件及其潜在靶基因文件,两类输入文件的格式均以两行为一个输入单元,每一个输入单元的第一行为以“>”开头的基因名,第二行则为对应的碱基序列。
5.根据权利要求3所述的计算机程序产品,其特征在于,所述执行程序用于处理输入数据,提取两个分别来自mirna文件和靶基因文件的输入单元组成一个预测单元,根据移动量和跳过数并基于多态式结构化碱基比对原则拆分成多个比对单元,比对并生成输出单元,计算并分析每个输出单元的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。