确定小核酸序列集合的方法及其应用技术

技术编号:28538507 阅读:28 留言:0更新日期:2021-05-21 09:03
本发明专利技术提出了一种确定小核酸序列集合的方法。该方法包括:(1)将由多个测序读段构成的测序结果划分为多个测序读段集合,所述测序结果是基于含有小RNA分子的核酸样本获得的;(2)针对所述多个测序读段集合的每一个,分别基于比对处理进行合并,以便获得多个合并测序读段集合;(3)基于比对处理,将所述多个合并测序读段集合进行合并,以便获得候选小核酸序列集合。

【技术实现步骤摘要】
确定小核酸序列集合的方法及其应用
本专利技术涉及生物信息领域,具体地,本专利技术涉及确定小核酸序列集合的方法及其应用,更具体地,本专利技术涉及确定小核酸序列集合的方法、计算机可读存储介质、电子设备以及确定小核酸序列集合的系统。
技术介绍
目前smallRNA的预测方法,主要是基于其结构特征来预测,例如通过miRNA的前体的二级结构来预测潜在的miRNA,通过正负链的几乎完全互补及1~2个碱基的粘性末端来预测潜在的siRNA以及基于转座子序列预测piRNA等,这些方法都是针对特定类型的smallRNA分子,进行相应的预测。目前主要的smallRNA预测软件,只能对miRNA、siRNA、piRNA等少数类型的smallRNA进行预测,而且其结果准确性很大程度上都是依赖于基因组的完整性。因此,对于smallRNA预测方法仍需要科研工作者的进一步开发和改进。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。在本专利技术的第一方面,本专利技术提出了一种确定小核酸序列集合的方法。根据本专利技术的实施例,所述方法包括:(1)将由多个测序读段构成的测序结果划分为多个测序读段集合,所述测序结果是基于含有小RNA分子的核酸样本获得的;(2)针对所述多个测序读段集合的每一个,分别基于比对处理进行合并,以便获得多个合并测序读段集合;(3)基于比对处理,将所述多个合并测序读段集合进行合并,以便获得候选小核酸序列集合,其中,在步骤(2)中,针对预定所述测序读段集合,所述合并进一步包括:(2-1)将所述预定测序读段集合中的所述多个测序读段进行两两比对,并基于比对结果进行两两合并,以便获得与所述预定测序读段集合对应的所述合并测序读段集合;以及(2-2)将所述预定测序读段集合中的成员与步骤(2-1)中得到的所述合并测序读段集合的成员进行两两比对,并将比对结果进行两两合并,并基于合并结果对所述合并测序读段集合进行更新。根据本专利技术实施例的确定小核酸序列集合的方法,是基于测序的原始数据进行小核酸预测,降低了对基因组和小核酸结构特征的依赖,并且采用动态规划的构建潜在小核酸序列集合,预测结果更全面。根据本专利技术的实施例,上述确定小核酸序列集合的方法还可以进一步包括如下附加技术特征至少之一:根据本专利技术的实施例,步骤(2)、(3)、(2-1)和(2-2)中的比对处理分别独立地采用下列比对方法:获取待比对的第一核酸序列与第二核酸序列各位置上的基本单元信息;基于所述基本单元信息,构建得分矩阵,其中,m为所述第一核酸序列的基本单元数目,n为所述第二核酸序列的基本单元数目,其中所述得分矩阵中的元素Mij表示所述第一核酸序列中第i个基本单元与所述第二核酸序列中第j个基本单元的比对得分;基于所述得分矩阵的数值,进行回溯处理,以便获得经过所述第一核酸序列与所述第二核酸序列的比对结果,其中,所述元素Mij是基于下列公式确定的:其中,Mi-1,j-1表示所述第一核酸序列中第i-1个基本单元与所述第二核酸序列中第j-1个基本单元的比对得分;Mi,j-1表示所述第一核酸序列中第i个基本单元与所述第二核酸序列中第j-1个基本单元的比对得分;Mi-1,j表示所述第一核酸序列中第i-1个基本单元与所述第二核酸序列中第j个基本单元的比对得分;g表示小于零的第一预定数值;S(Ri,Sj)是基于所述第一核酸序列中第i个基本单元Ri与所述第二核酸序列中第j个基本单元Sj确定的数值,其中,当Ri与Sj相同时,S(Ri,Sj)为第二预定数值,当Ri与Sj不相同时,S(Ri,Sj)为第三预定数值,所述第三预定数值小于所述第二预定数值。根据本专利技术实施例的上述生物序列比对方法,采用全局比对的方式,保证了第一生物序列与第二生物序列有效比对结果的产生,尤其适用于小核酸片段序列的比对,提高了小核酸序列比对的准确性和灵敏度。根据本专利技术的实施例,所述回溯处理是根据下列步骤确定的;(a)确定所述矩阵Mmn中的最大值所对应的回溯起始位置;(b)基于所述回溯起始位置上游相邻三个位置的数值,确定下一回溯位置,其中,所述上游相邻三个位置包括行相邻位置、对角线相邻位置和列相邻位置,其中,选择数值最大的位置作为所述下一回溯位置,并且优先选择所述对角线相邻位置;(c)重复步骤(b),直到步骤(b)中所确定的所述下一回溯位置的行号和列号的至少之一为0;(d)基于步骤(a)-(c)中所确定的回溯路线,确定所述第一生物序列与所述第二生物序列的比对结果。根据本专利技术的实施例,所述第一预定数值为不小于-10的整数,优选-5。根据本专利技术的实施例,所述第二预定数值为3。根据本专利技术的实施例,所述第三预定数值为-3。模拟数据测试时专利技术人发现,所述第一预定数值为-5、所述第二预定数值为1、所述第三预定数值为-2的预定数值组合下,调整了打分矩阵的罚分值,同时从最大得分值处进行回溯,减少了回溯步骤,一定程度上提升了运行效率。根据本专利技术的实施例,所述基本单元为碱基。根据本专利技术的实施例,在步骤(1)中,所述多个测序读段集合的每一个分别含有300~1000条测序读段,优选400~600,更优选500条测序读段。根据本专利技术的实施例,所述小核酸包括选自miRNA、siRNA、piRNA的至少之一。根据本专利技术的实施例,针对存在重叠区域的第一待合并序列和第二待合并序列,所述合并是基于下列原则进行的:如果所述第一待合并序列的起点和终点均位于所述第二待合并序列的序列中,则采用所述第二待合并序列作为所述合并的输出结果;如果所述第一待合并序列的终点位于所述第二待合并序列的序列中,并且所述第二待合并序列的起点位于所述第一待合并序列的序列中,则将所述第一待合并序列的起点延伸至所述第二待合并序列的终点的序列作为所述合并的输出结果。根据本专利技术的实施例,所述重叠区域不小于2bp。在本专利技术的第二方面,本专利技术提出了一种计算机可读存储介质,其上存储有计算机程序。根据本专利技术的实施例,所述该程序被处理器执行时实现前面所述的确定小核酸序列集合的方法。在本专利技术的第三方面,本专利技术提出了一种电子设备。根据本专利技术的实施例,所述电子设备包括存储器、处理器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现前面所述的确定小核酸序列集合的方法。在本专利技术的第四方面,本专利技术提出了一种确定小核酸序列集合的系统。根据本专利技术的实施例,所述系统包括:测序读段集合获得装置,所述测序读段集合获得装置用于将由多个测序读段构成的测序结果划分为多个测序读段集合,所述测序结果是基于含有小RNA分子的核酸样本获得的;合并测序读段集合装置,所述合并测序读段集合装置与所述测序读段集合获得装置相连,用于针对所述多个测序读段集合的每一个,分别基于比对处理进行合并,以便获得多个合并测序读段集合;候选小核酸序列集合获得装置,所述候选小核酸序列集合获得装置与所述合并测序读段集合装置相连,用于基于比对处理,将所述多个合并测序读段集合进行合并,以便获得候选小核酸序本文档来自技高网...

【技术保护点】
1.一种确定小核酸序列集合的方法,其特征在于,包括:/n(1)将由多个测序读段构成的测序结果划分为多个测序读段集合,所述测序结果是基于含有小RNA分子的核酸样本获得的;/n(2)针对所述多个测序读段集合的每一个,分别基于比对处理进行合并,以便获得多个合并测序读段集合;/n(3)基于比对处理,将所述多个合并测序读段集合进行合并,以便获得候选小核酸序列集合,/n其中,在步骤(2)中,针对预定所述测序读段集合,所述合并进一步包括:/n(2-1)将预定测序读段集合中的所述多个测序读段进行两两比对,并基于比对结果进行两两合并,以便获得与所述预定测序读段集合对应的所述合并测序读段集合;以及/n(2-2)将所述预定测序读段集合中的成员与步骤(2-1)中得到的所述合并测序读段集合的成员进行两两比对,并将比对结果进行两两合并,并基于合并结果对所述合并测序读段集合进行更新。/n

【技术特征摘要】
1.一种确定小核酸序列集合的方法,其特征在于,包括:
(1)将由多个测序读段构成的测序结果划分为多个测序读段集合,所述测序结果是基于含有小RNA分子的核酸样本获得的;
(2)针对所述多个测序读段集合的每一个,分别基于比对处理进行合并,以便获得多个合并测序读段集合;
(3)基于比对处理,将所述多个合并测序读段集合进行合并,以便获得候选小核酸序列集合,
其中,在步骤(2)中,针对预定所述测序读段集合,所述合并进一步包括:
(2-1)将预定测序读段集合中的所述多个测序读段进行两两比对,并基于比对结果进行两两合并,以便获得与所述预定测序读段集合对应的所述合并测序读段集合;以及
(2-2)将所述预定测序读段集合中的成员与步骤(2-1)中得到的所述合并测序读段集合的成员进行两两比对,并将比对结果进行两两合并,并基于合并结果对所述合并测序读段集合进行更新。


2.根据权利要求1所述的方法,其特征在于,步骤(2)、(3)、(2-1)和(2-2)中的比对处理分别独立地采用下列比对方法:
获取待比对的第一核酸序列与第二核酸序列各位置上的基本单元信息;
基于所述基本单元信息,构建得分矩阵Mmn,其中,m为所述第一核酸序列的基本单元数目,n为所述第二核酸序列的基本单元数目,其中所述得分矩阵中的元素Mij表示所述第一核酸序列中第i个基本单元与所述第二核酸序列中第j个基本单元的比对得分;
基于所述得分矩阵Mmn的数值,进行回溯处理,以便获得经过所述第一核酸序列与所述第二核酸序列的比对结果,
其中,
所述元素Mij是基于下列公式确定的:



其中,
Mi-1,j-1表示所述第一核酸序列中第i-1个基本单元与所述第二核酸序列中第j-1个基本单元的比对得分;
Mi,j-1表示所述第一核酸序列中第i个基本单元与所述第二核酸序列中第j-1个基本单元的比对得分;
Mi-1,j表示所述第一核酸序列中第i-1个基本单元与所述第二核酸序列中第j个基本单元的比对得分;
g表示小于零的第一预定数值;
S(Ri,Sj)是基于所述第一核酸序列中第i个基本单元Ri与所述第二核酸序列中第j个基本单元Sj确定的数值,其中,当Ri与Sj相同时,S(Ri,Sj)为第二预定数值,当Ri与Sj不相同时,S(Ri,Sj)为第三预定数值,所述第三预定数值小于所述第二预定数值。


3.根据权利要求2所述的方法,其特征在于,所述回溯处理是根据下列步骤确定的;
(a)确定所述矩阵Mmn中的最大值所对应的回溯起始位置;
(b)基于所述回溯起始位置上游相邻三个位置的数值,确定下一回溯位置,其中,所述上游相邻三个位置包括行相邻位置、对角线相邻位置和列相邻位置,其中,选择数值最大的位置作为所述下一回溯位置,并且优先选择所述对角线相邻位置;
(c)重复步骤(b),直到步骤(b)中所确定的所述下一回溯位置的行号和列号的至少之一为0;
(d)基于步骤(a)-(c)中所确定的回溯路线,确定所述第一生物序列与所述第二生物序列的比对结果。


4.根据权利要求2所述的方法,其特征在于,所述第一预定数值为不小于-10的整数,优选-5。


5.根据权利要求2所述的方法,其特征在于,所述第二预定数值为3。


6.根据权利要求2所述的方法,其特征在于,所述第三预定数值为-3。


7.根据权利要求2所述的方法,其特征在于,所述基本单元为碱基。


8.根据权利要求1所述的方法,其特征在于,在步骤(1)中,所述多个测序读段集合的每一个分别含有300~1000条测序读段,优选400~600,更优选500条测序读段。


9.根据权利要求1所述的方法,其特征在于,所述小核酸包括选自miRNA、siRNA、piRNA的至少之一。


10.根据权利要求1所述的方法,其特征在于,针对存在重叠区域的第一待合并序列和第二待合并序列,所述合并是基于下列原则进行的:
如果所述第一待合并序列的起点和终点均位于所述第二待合并序列的序列中,则采用所述第二待合并序列作为所述合并的输出结果;
如果所述第一待合并序列的终点位于所述第二待合并序列的序列中,并且所述第二待合并序列的起点位于所述第一待合并序列的序列中,则将所述第一待合并序列的起点延伸至所述第...

【专利技术属性】
技术研发人员:朱欠华杨林峰
申请(专利权)人:深圳华大基因科技服务有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1