一种基于特征向量的高性能基因匹配判别方法及系统技术方案

技术编号:35781259 阅读:20 留言:0更新日期:2022-12-01 14:26
本发明专利技术公开了一种基于特征向量的高性能基因匹配判别方法及系统,该方法包括如下步骤:S1:CPU多线程基因解析,获得基因数据reads的ID、碱基序列和序列长度,并传回GPU;S2:GPU计算每条基因数据reads片段的质心值;S3:评价碱基序列相似性;S4:训练DNN模型:将输入向量x送至DNN网络的输入层,进行前向传播,经过若干隐层后得到前向输出y';S5:计算y'与真实值y之间的误差,并调整DNN网络的各个连接权值;S6:完成DNN模型的训练后,利用训练好的DNN模型识别基因数据reads之间的匹配关系,由此获得每条基因数据reads间的相似性关系。本发明专利技术大幅提高了生物信息学分析流程的速度,有助于生信分析人员以更快的速度、更短的时间获得准确的分析结果。分析结果。分析结果。

【技术实现步骤摘要】
一种基于特征向量的高性能基因匹配判别方法及系统


[0001]本专利技术属于生物信息学
,尤其涉及一种基于特征向量的高性能基因匹配判别方法及系统。

技术介绍

[0002]自2005年罗氏推出第一款二代测序仪罗氏454后,生命科学正式开始进入高通量测序时代。Illumina(因美纳)系列测序平台的推出,极大地降低了二代测序的价格,使得高通量测序在生命科学各个研究领域得到了广泛的普及。至今,第二代短读长测序技术在全球测序市场上仍然占有绝对的优势地位。
[0003]在生物信息学领域,寻找基因序列相似性是基因组分析的核心问题。第二代测序技术虽然大大提高了测序的通量,但其获得的单条序列长度很短,往往只在50~300bp,并且因为测序的覆盖范围更深,导致基因组项目中需要处理的序列数量迅速增加,需要将这些较短的序列进行前后匹配对齐,以实现更长序列的拼接和有参基因组的回帖比对。
[0004]目前由于比对技术的限制和实际情况的复杂性,最终进行比对和匹配所需的算力成本过高。目前主流的双序列比对算法是Blast和动态规划。Blast使用启发式算法(seed

extend),在种子向两边的延伸过程中消耗较大算力。动态规划受打分矩阵影响过大,在双序列比对中属于全局比对,无法实现头尾匹配拼接。

技术实现思路

[0005]本专利技术的目的在于提供一种基因组装的多线程化方法及系统,以解决在基因组组装、有参基因组比对中,寻找测序片段reads相似性和前后重叠对齐速度慢、算力需求大的技术问题。r/>[0006]本专利技术的目的是采用以下技术方案实现的:一种基于特征向量的高性能基因匹配判别方法,包括如下步骤:S1:CPU多线程基因解析,获得基因数据reads的ID、碱基序列和序列长度,并传回GPU;S2:GPU计算每条基因数据reads片段的质心值;S3:随机选择两条碱基序列进行匹配对齐,并对匹配结果进行打分,以此评价碱基序列相似性;S4:将两条碱基序列的两组质心值及其序列长度通过线性特征比例变换至[

1,1]以内,作为数据集的输入向量x;S5:将两条碱基序列匹配对齐的结果输出,作为数据集的输出向量;S6:训练DNN模型:将输入向量x送至DNN网络的输入层,进行前向传播,经过若干隐层后得到前向输出y';S7:计算y'与真实值y之间的误差,并调整DNN网络的各个连接权值;S8:完成DNN模型的训练后,利用训练好的DNN模型识别基因数据reads之间的匹配
关系,由此获得每条基因数据reads间的相似性关系。
[0007]进一步的,所述步骤S1具体包括:CPU通过内置RAID卡或NFS协议或者直接读取基因测序数据文件的方式,多线程并行计算基因解析获得基因数据reads序列的ID、碱基序列和序列长度,并从不同位置开始读取碱基序列,即:将每条基因数据reads头尾剪裁各n和m个碱基,得到首尾各去n个和首尾各去m个的基因数据reads片段,并将基因数据reads片段及对应ID编号传回给GPU。
[0008]进一步的,所述步骤S2具体包括:使用异步操作,当GPU接收到基因数据reads片段时,立即启动核函数,而无需等待全部数据回传完毕,通过基因数值化表达算法,计算每个基因数据reads片段的质心特征值,其中,一条基因数据reads共有四个质心值。
[0009]进一步的,所述步骤S3具体包括:随机选择两条碱基序列进行匹配对齐,并对匹配结果进行打分,以此评价碱基序列相似性,若相似性得分在0.8以上,则认为此两条碱基序列能够匹配,反之则不能。
[0010]进一步的,所述步骤S4具体包括:将两条碱基序列的两组共8个前后质心值及其序列长度的十个分量通过线性特征比例变换至[

1,1]以内,作为数据集的输入向量x。
[0011]进一步的,所述步骤S5具体包括:将两条碱基序列匹配对齐的结果输出,若能对齐匹配则返回TRUE,y=1,若不能对齐匹配则返回FALSE,y=0,y作为数据集的输出向量。
[0012]进一步的,所述步骤S6具体包括:S61:训练前,首先设置一个均值为0的随机分布初始化网络权重;S62:训练时,先将输入向量x送至DNN网络的输入层,进行前向传播,经过若干隐层后得到前向输出y'。
[0013]进一步的,所述步骤S7具体包括:计算y'与真实值y之间的误差,再从输出层开始将误差反向传播至第一个隐层,按照减小误差的方向调整DNN网络的各个连接权值。
[0014]进一步的,所述步骤S8具体包括:不断循环步骤S7调整权值的过程,直到训练误差收敛到极小值,即得到符合要求的DNN网络权重,并利用训练好的DNN模型识别基因数据reads之间的匹配关系,由此获得每条基因数据reads间的相似性关系。
[0015]一种基于特征向量的高性能基因匹配判别系统,包括基因解析模块、数据集生成模块、神经网络模型训练模块,其中,所述基因解析模块用以实现碱基序列、ID和序列长度的提取;所述数据集生成模块用以基因数据reads片段前后特征值计算、匹配结果计算;所述神经网络模型训练模块用以通过数据集进行训练,调整网络连接权值,以此获得收敛误差极小,准确率最高的神经网络模型。
[0016]本专利技术的有益效果在于:本专利技术创造性地提出了一种基于特征向量的高性能基因匹配判别方法及系统,完成了基因测序数据的低成本高性能匹配判别,相较于以往的匹配方法,本专利技术没有使用打分矩阵以及序列索引,而是通过无监督机器学习等方法将测序碱基数值化,通过神经网络模糊匹配算法将序列匹配的相似关系转换为特征值之间的相似关系,以此实现基因数据的前后匹配对齐,以实现更长序列的拼接和有参基因组的回帖比对,总而言之,本专利技术是一种集高精准度、高性能、高效率于一体的基因匹配判别方案,大幅提高了生物信息学分析流程的速度,有助于生信分析人员以更快的速度、更短的时间获得准确的分析结果。
附图说明
[0017]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
[0018]图1为专利技术流程图;图2为本专利技术系统框图。
具体实施方式
[0019]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。
[0020]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0021]下面结合附图,对本专利技术的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于特征向量的高性能基因匹配判别方法,其特征在于,包括如下步骤:S1:CPU多线程基因解析,获得基因数据reads的ID、碱基序列和序列长度,并传回GPU;S2:GPU计算每条基因数据reads片段的质心值;S3:随机选择两条碱基序列进行匹配对齐,并对匹配结果进行打分,以此评价碱基序列相似性;S4:将两条碱基序列的两组质心值及其序列长度通过线性特征比例变换至[

1,1]以内,作为数据集的输入向量x;S5:将两条碱基序列匹配对齐的结果输出,作为数据集的输出向量;S6:训练DNN模型:将输入向量x送至DNN网络的输入层,进行前向传播,经过若干隐层后得到前向输出y';S7:计算y'与真实值y之间的误差,并调整DNN网络的各个连接权值;S8:完成DNN模型的训练后,利用训练好的DNN模型识别基因数据reads之间的匹配关系,由此获得每条基因数据reads间的相似性关系。2.如权利要求1所述的一种基于特征向量的高性能基因匹配判别方法,其特征在于,所述步骤S1具体包括:CPU通过内置RAID卡或NFS协议或者直接读取基因测序数据文件的方式,多线程并行计算基因解析获得基因数据reads序列的ID、碱基序列和序列长度,并从不同位置开始读取碱基序列,即:将每条基因数据reads头尾剪裁各n和m个碱基,得到首尾各去n个和首尾各去m个的基因数据reads片段,并将基因数据reads片段及对应ID编号传回给GPU。3.如权利要求1所述的一种基于特征向量的高性能基因匹配判别方法,其特征在于,所述步骤S2具体包括:使用异步操作,当GPU接收到基因数据reads片段时,立即启动核函数,而无需等待全部数据回传完毕,通过基因数值化表达算法,计算每个基因数据reads片段的质心特征值,其中,一条基因数据reads共有四个质心值。4.如权利要求1所述的一种基于特征向量的高性能基因匹配判别方法,其特征在于,所述步骤S3具体包括:随机选择两条碱基序列进行匹配对齐,并对匹配结果进行打分,以此评价碱基序列相似性,若相似性得分在0.8以上,则认...

【专利技术属性】
技术研发人员:李国良江熠谢宇涛张也彭德华刘原驰陈建邦唐善雯章璐于鑫慧
申请(专利权)人:天津大学四川创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1