基于分布式计算确定基因组间重叠基因对数量的方法技术

技术编号:21717200 阅读:32 留言:0更新日期:2019-07-27 20:26
本发明专利技术公开基于分布式计算确定基因组间重叠基因对数量的方法,步骤1:给定基因组A和基因组B。步骤2:给定分布式计算中分区的数量。步骤3:将A、B基因组中的基因片段拆分为指定格式的键值对。步骤4:在所有的键值对中,统计键值的最小值和最大值。步骤5:根据键值的大小,计算键值对的分区号。步骤6:计算分区内满足重叠关系的键值对的数量。步骤7:计算分区间满足重叠关系的键值对的数量。步骤8:计算基因组间重叠基因对的数量。本发明专利技术通过考虑在大数据应用中,分布式计算的处理优势,有效地解决了现有技术中存在的重叠基因对的数量计算难的问题。

A Method for Determining the Number of Overlapping Genes between Genomes Based on Distributed Computing

【技术实现步骤摘要】
基于分布式计算确定基因组间重叠基因对数量的方法
本专利技术涉及生物信息学领域,尤其涉及基于分布式计算确定基因组间重叠基因对数量的方法。
技术介绍
随着现代计算机技术的快速发展与网络的飞速普及,现代社会的信息量急剧增加,丰富的数据资源极大地为人们的生活提供了便利。在这些数据资源给人们提供便利的同时,也出现了不少问题,如大数据的存储与计算等。在这样的背景下,分布式计算应运而生。分布式计算具有广泛的应有前景,目前主要应用于搜索日志的分析、网页数据的挖掘、电子商务的处理等。大量的生物信息学基因组已经面向大众。美国洛斯阿拉莫斯国家实验室于1979年建立起GenBank基因组;1982年欧洲分子生物学实验室的核酸序列基因组开始提供服务;日本也于1984年着手建立国家级的核酸序列基因组。据相关统计,GenBank基因组的碱基总量大约每13~15个月翻一番。截至2009年8月,登录的序列总量已经达到108431692条,DNA碱基对已经达到106533156756条。如此庞大的数据,借助一种基于分布式的确定基因组间重叠基因对的数量的方法进行检测,实现多个基因组间重叠基因对的数量的计算是很有必要的。一个好的确定基因组间重叠基因对的数量的方法在基因注释、疾病预测、健康管理等领域上具有重要意义。基因组间重叠基因对的数量是指两个或多个基因组中满足基因重叠关系的基因对的数量。两个基因组间的重叠基因对的数量越多,代表着这两个基因组越相近。目前已有的基因组间重叠基因对的数量的度量方法有很多,如基于R树和顺序扫描。基于R树是一种将一个基因组中的基因片段划分为“容器”,然后将另一个基因组中的基因片段与匹配的“容器”进行比较的方法。该方法虽然有效地缩小了基因片段的搜索范围,但当“容器”中的数据分布不均时,将导致严重的线程不同步。相反地,顺序扫描方法的复杂性在理论上是最优的,但是存在的并行性数量是有限的,并且需要一些开销来保证正确性。
技术实现思路
本专利技术的目的在于提供基于分布式计算确定基因组间重叠基因对数量的方法,通过考虑在大数据应用中,分布式计算的处理优势,有效地解决了现有技术中存在的重叠基因对的数量计算难的问题。本专利技术采用的技术方案是:基于分布式计算确定基因组间重叠基因对数量的方法,其包括以下步骤:步骤1:获取基因组A和基因组B,基因组A和基因组B均包括两条以上由起始位置和终止位置构成的连续基因片段;步骤2:给定分布式计算中分区的数量num,分区的数量num为不小于1的整数;步骤3:将基因组A和基因组B的基因片段按照键值对格式<pos,tag>进行拆分得到若干键值对;其中,pos是基因片段的位置,包括基因片段的起始位置和终止位置;tag是由基因片段的基因组标志与起止标志组合而成,A基因组的tag分别为AS和AE,B基因组的tag分别为BS和BE;步骤4:在所有的键值对中,统计键值的最小值min和最大值max;步骤5:根据键值的大小计算键值对的分区号i,计算公式如下:其中,0≤i≤(num-1);步骤6:计算获取分区内满足重叠关系的键值对的数量inner;其中,i表示当前分区号,bsofae表示键值较小者的值为BS且键值较大者的值为AE的键值对的数量,beofas表示键值较小者的值为BE且键值较大者的值为AS的键值对的数量,asequalbe表示键值对的值为AS和键值对的值为BE的两个键值相等的键值对的数量,步骤7:计算获取分区间满足重叠关系的键值对的数量outer;其中,as[i]为tag=AS的数量;ae[i]为tag=AE的数量;bs[j]为tag=BS的数量;be[j]为tag=BE的数量;步骤8:计算基因组间重叠基因对的数量sum,sum=inner+outer。进一步地,步骤2中分区的数量num为4。进一步地,步骤6中初始时令bsofae=0,当posl<pos2且tag1=BS且tag2=AE,bsofae=bsofae+1;初始时令beofas=0,当posl<pos2且tag1=BE且tag2=AS,beofas=beofas+1;初始时令asequalbe=0,当pos1=pos2且tag1=BE且tag2=AS,asequalbe=asequalbe+1。本专利技术采用以上技术方案,根据分布式的原理:基因组间的重叠基因对的数量等于分区内重叠基因对的数量与分区间重叠基因对的数量之和;将该方法运用到重叠基因对的计数的确定,准确有效地得到了精确的重叠基因对的数量;由于该方法充分发挥了分布式计算的优势,所获得的结果的比较准确。附图说明以下结合附图和具体实施方式对本专利技术做进一步详细说明;图1为本专利技术基于分布式计算确定基因组间重叠基因对数量的方法的流程示意图。具体实施方式如图1所示,本专利技术公开基于分布式计算确定基因组间重叠基因对数量的方法,其包括以下步骤:步骤1:给定基因组A和基因组B。基因组A中有m条基因片段,基因组B中有n条基因片段;且每条基因片段是由起始位置和终止位置构成的连续片段。例如在基因组A={(5,8)、(7,11)}中,m=2,基因组B={(3,5)、(5,8)、(7,10)}中,n=3。基因片段(5,8)是一条起始位置为5、终止位置为8的连续片段。步骤2:给定分布式计算中分区的数量。根据分布式计算的特征,分区的数量应大于等于1。如,假设num=4。步骤3:设计键值对格式,拆分A、B基因组中的基因片段。具体地,记键值对格式为<pos,tag>,pos是基因片段的位置,包括基因片段的起始位置和终止位置;tag是由基因片段的基因组标志与起止标志组合而成。具体地,A基因组中的基因片段(p,q),被拆分成<p,AS>和<q,AE>;同理,B基因组中的基因片段(m,n),被拆分成<m,BS>和<n,BE>。因此,就上述例子而言,A基因组中基因片段(5,8)被拆分成<5,AS>、<8,AE>,基因片段(7,11)被拆分成<7,AS>、<11,AE>;B基因组中的基因片段(3,5)被拆分成<3,BS>、<5,BE>,基因片段(5,8)被拆分成<5,BS>、<8,BE>,基因片段(7,10)被拆分成<7,BS>、<10,BE>。步骤4:在所有的键值对中,统计键值的最小值和最大值。记A、B这两个基因组中所有键值的最小值为min,最大值为max。就上述例子而言,A、B基因组所有键值对有<5,AS>、<8,AE>、<7,AS>、<11,AE>、<3,BS>、<5,BE>、<5,BS>、<8,BE>、<7,BS>、<10,BE>,键值对<5,AS>的键值为5,以此类推。则所有键值为:5、8、7、11、3、5、5、8、7、10,其中最小值min=3,最大值max=11。步骤5:根据键值的大小,计算键值对的分区号。具体地,记分区号为i,即其中0≤i≤(num-1)。由公式可知,当键值越大时,其分区号越大。就上例而言,本文档来自技高网
...

【技术保护点】
1.基于分布式计算确定基因组间重叠基因对数量的方法,其特征在于:其包括以下步骤:步骤1:获取基因组A和基因组B,基因组A和基因组B均包括两条以上由起始位置和终止位置构成的连续基因片段;步骤2:给定分布式计算中分区的数量num,分区的数量num为不小于1的整数;步骤3:将基因组A和基因组B的基因片段按照键值对格式<pos,tag>进行拆分得到若干键值对;其中,pos是基因片段的位置,包括基因片段的起始位置和终止位置;tag是由基因片段的基因组标志与起止标志组合而成,A基因组的tag分别为AS和AE,B基因组的tag分别为BS和BE;步骤4:在所有的键值对中,统计键值的最小值min和最大值max;步骤5:根据键值的大小计算键值对的分区号i,计算公式如下:

【技术特征摘要】
1.基于分布式计算确定基因组间重叠基因对数量的方法,其特征在于:其包括以下步骤:步骤1:获取基因组A和基因组B,基因组A和基因组B均包括两条以上由起始位置和终止位置构成的连续基因片段;步骤2:给定分布式计算中分区的数量num,分区的数量num为不小于1的整数;步骤3:将基因组A和基因组B的基因片段按照键值对格式<pos,tag>进行拆分得到若干键值对;其中,pos是基因片段的位置,包括基因片段的起始位置和终止位置;tag是由基因片段的基因组标志与起止标志组合而成,A基因组的tag分别为AS和AE,B基因组的tag分别为BS和BE;步骤4:在所有的键值对中,统计键值的最小值min和最大值max;步骤5:根据键值的大小计算键值对的分区号i,计算公式如下:其中,0≤i≤(num-1);步骤6:计算获取分区内满足重叠关系的键值对的数量inner;其中,i表示当前分区号,bsofae表示键值较小者的值为BS且键值较大者的值为AE的键值对的数量,beofas表示键值较小者的值为BE且键值较大者的值为AS的键值对的数量...

【专利技术属性】
技术研发人员:江育娥刘书田林劼
申请(专利权)人:福建师范大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1