微藻蛋白质特征序列标签匹配的快速检测方法及系统技术方案

技术编号:15437723 阅读:68 留言:0更新日期:2017-05-26 03:44
基于微藻蛋白质特征序列标签匹配的蛋白质快速检测方法及系统,包括采集微藻样品,获得其蛋白质序列集,转换成标准蛋白质序列集,并进行拆分配置处理,将其转换为对于一个给定序列片段的键/值对列表,将键/值对列表进行汇总后做交集运算,当结果非空,则确定该数据集某条数据含有特征蛋白质序列。其系统主要包括检测数据输入模块、键/值对列表模块、检测识别模块、特征值交集运算模块、输出模块。本发明专利技术通过蛋白质序列检索以判断蛋白质的同源性和相似性程度,较传统逐条数据进行对比的方式,算法的鉴定准确率和效率有显著提高,大大提升了检索效率,不仅具有良好的实用性,而且算法的时间复杂度低,性能高,对于蛋白质组学的研究具有重要意义。

Protein fast detection method and system based on microalgae protein characteristic sequence label matching

Fast detection method and system characteristics of protein sequence tags, microalgae based on protein, including the collection of microalgae samples, the protein sequences, protein sequences into the standard set, and split configuration processing, convert it to for a given sequence of key / value on the list, the list of key / value pairs summary after the intersection, when the result is not empty, it is determined that this data set a data containing protein sequence. The system mainly consists of data input module, key / value pair list module, detection and recognition module, feature value intersection module and output module. The present invention by protein sequence retrieval to determine protein homology and similarity degree, compared with the traditional one by one data comparison method, algorithm of identification accuracy and efficiency are improved significantly, greatly enhance the efficiency of retrieval, not only has good practicability, and the algorithm has low time complexity, high performance, has important the significance for the research of proteomics.

【技术实现步骤摘要】
基于微藻蛋白质特征序列标签匹配的蛋白质快速检测方法及系统
本专利技术属于微藻基因开发利用
,特别是涉及一种基于微藻蛋白质特征序列标签匹配的蛋白质检测方法及系统。
技术介绍
海洋微藻是水体生态系统中主要的初级生产者,占海洋生物物种的40.86%,有体积小、数量大、细胞结构简单、生长周期短、生物量大、光合效率高、适应力强、不受气候限制、易培养等优点,因此受到了人们的广泛关注,微藻中所含有的微藻不饱和脂肪酸具有维护生物膜的结构和功能、离子通道的调节、调控基因的表达、参与活性物质的合成、预防和治疗心血管疾病、调节免疫系统功能等生理功能和生物学效应。脂肪酸去饱和酶是催化脂肪酸链特定位置形成双键,从而产生不饱和脂肪酸的一类酶类大家族。由于对相关酶的蛋白质序列进行逐条分析时,可以针对其蛋白质序列中的某功能域进行分析,因此提取目标蛋白质的特征序列,并对其进行特征序列标签的匹配和搜索可提高获得目标蛋白质序列的效率。蛋白质组学是了解基因功能的最重要的途径之一。而蛋白质组学研究中一项基本而又尤为重要的一步就是蛋白质序列的鉴定,也就是确定蛋白质的一级结构,即一个氨基酸串。现今存在有20种氨基酸,并且每个蛋白质的一级结构均能表示为一个由20种氨基酸组成的序列,每个氨基酸用固定字母表示。由于序列决定结构,结构决定功能,因此研究蛋白质序列是生物信息学领域的一个关键问题,为进一步研究蛋白质的功能提供依据,需要有效的序列分析方法。蛋白质序列搜索是蛋白质科学的重要研究方向,研发速度快和精度高的鉴定算法是该方向的一个主要问题。确定蛋白质功能最可靠的方法是进行数据库的相似性搜索。现有方法的搜索结果只注明目标序列的匹配部分,并不能提供该序列的全部信息,有时甚至得出模棱两可的结果,对用户产生误导,且都需要辅以人工搜索,面对大量数据集时耗时长。因此,为了准确、快速的在大量蛋白质组数据中搜索到所需要的目标序列,需要一种可进行大数据处理,快速提升检索速度,有效的在大量蛋白质序列组中对目标蛋白质序列进行特征序列标签的匹配和搜索的方法,达到提高搜索结果速度的目的以对脂肪酸去饱和酶序列进行分析。
技术实现思路
本专利技术的目的是提供一种基于微藻蛋白质特征序列标签匹配的蛋白质快速检测方法及系统,以克服现有技术的不足。基于微藻蛋白质特征序列标签匹配的蛋白质快速检测方法,其特征在于包括以下步骤:步骤1:采集微藻样品,对样品进行RNA提取,样品纯度要求:OD值应在1.8至2.2之间;电泳检测28S:18S至少大于1.8,样品浓度:总RNA浓度不低于400ng/μg,用①Oligo(dT)富集mRNA,去除rRNA,将RNA随机打断,用随机引物和逆转录酶从RNA片段合成cDNA片段,cDNA片段末端修复,连接测序接头;②对于smallRNA,进行3’和5’端接头连接,逆转录合成cDNA片段,最终将①和②的cDNA片段制备测序文库并进行测序,获得转录组测序的基因序列,之后翻译为蛋白质序列集;或者根据所采集微藻的种类同时从美国国家生物技术信息中心(NBCI)下载对应的蛋白质序列集,并与上述蛋白质序列集合并;步骤2:对步骤1得到的蛋白质序列集进行预处理,得到标准蛋白质序列集;所述蛋白质序列集中的蛋白质序列有几百万条,得到标准蛋白质序列之后,该标准蛋白质序列中的每一条可以由几个、几百个甚至更多氨基酸组成,每一个氨基酸以20个字母G、S、A、T、V、D、N、L、I、E、Q、Y、F、H、P、M、W、K、C、R中的其中一个来表示;步骤3:对该标准蛋白质序列集进行拆分配置处理,将其转换为对于一个给定序列片段的键/值对列表;(1)选择需要进行匹配检测的蛋白质Pr,该Pr作为目标蛋白质;(2)基于已有的文献确定(1)中Pr的氨基酸序列特征值,该特征值由多个氨基酸组构成,每个氨基酸组中有多个氨基酸;以i表示组数,将特征值的每组氨基酸记为PCF1、PCF2...PCFi;(3)根据特征值将步骤2的标准蛋白质特征序列集进行排列:排列后的数据记作以下形式:<PCF1,PLT1>;.......<>......<PCF1,PLTj>.......<PCFi,PLT1>;.......<>......<PCFi,PLTj>其中,PCF1-PCFi表示(2)中的特征值,i表示组数,PLT1-PLTj表示步骤2的蛋白质序列集中的每一条蛋白质序列数据,j表示步骤2中标准蛋白质序列集所含蛋白质序列数据的数量;从而得到一个对列表;(4)检测(3)中对列表的每一行PLT1-PLTj是否含有该行之前所标注的PCFk,k属于1-i,将该行包含有PCFk的那些PLT1-PLTj中的元素检测出来,记作<PCF1,PL1-1>;.......<>......<PCF1,PL1-j>.......<PCFi,PLi-1>;.......<>......<PCFi,PLi-j>并将记作上述格式的数据作为键/值对列表,其中,PL1-1至PL1-j表示第一行PLT1-PLTj中含有PCF1的标准蛋白质序列,PL1-1表示PLT1-PLTj中第一个含有该PCF1的标准蛋白质序列,PL1-j表示PLT1-PLTj中最后一个含有该PCF1的标准蛋白质序列;PLi-1至PLi-j表示第i行PLT1-PLTj中含有PCFi的标准蛋白质序列,PLi-1表示PLT1-PLTj中第一个含有该PCFi的标准蛋白质序列,PLi-j表示PLT1-PLTj中最后一个含有该PCFi的标准蛋白质序列;步骤4:对上述键/值对列表,进行汇总;接受上一步骤生成的键/值对列表,合并含有相同特征值的蛋白质序列,得到了分别包含第1至第i个蛋白质特征值的蛋白质序列,记作<PCF1,PL[1-1....1-j]>...<PCFi,PL[i-1....i-j]>其中,<PCF1,PL[1-1....1-j]>=<PCF1,PL1-1,....PL1-j>...<PCFi,PL[i-1....i-j]>=<PCF1,PLi-1,....PLi-j>并将记作上述格式的数据作为减化后的键/值对列表;步骤5:对上一步得到的减化后的键/值对列表进行交集运算,以得出步骤1的蛋白质序列集中是否含有步骤3中指定的目标蛋白质;[PCF1,...,PCFi]=PL[1-1...1-j]∩...∩PL[i-1...i-j],即以交集PL[1-1...1-j]∩...∩PL[i-1...i-j]表示上述PL[1-1...1-j]—PL[i-1...i-j]中,同时含有PCF1-PCFi的那些蛋白质序列;当结果非空,则确定该数据集某条数据含有特征蛋白质序列。该对列表可能过于庞大,超过某台物理机的处理能力,需要将其拆分,将其拆分成64M大小的文件,每个文件可以作为一个计算任务。均匀发送到参与检索的计算节点上(物理计算机),例如有三台物理机参与检索计算任务。而生成的对列表文件大小为800G,则拆分原则为:800GB/64MB为拆分成的文件数。每个计算节点(物理计算机)分配的文件数为本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201611162740.html" title="微藻蛋白质特征序列标签匹配的快速检测方法及系统原文来自X技术">微藻蛋白质特征序列标签匹配的快速检测方法及系统</a>

【技术保护点】
微藻蛋白质特征序列标签匹配的快速检测方法,其特征在于包括以下步骤:步骤1:采集微藻样品,对样品进行RNA提取,样品纯度要求:OD值应在1.8至2.2之间;电泳检测28S:18S至少大于1.8,样品浓度:总RNA浓度不低于400ng/μg,用①Oligo(dT)富集mRNA,去除rRNA,将RNA随机打断,用随机引物和逆转录酶从RNA片段合成cDNA片段,cDNA片段末端修复,连接测序接头;②对于small RNA,进行3’和5’端接头连接,逆转录合成cDNA片段,最终将①和②的cDNA片段制备测序文库并进行测序,获得转录组测序的基因序列,之后翻译为蛋白质序列集;或者根据所采集微藻的种类同时从美国国家生物技术信息中心(NBCI)下载对应的蛋白质序列集,并与上述蛋白质序列集合并;步骤2:对步骤1得到的蛋白质序列集进行预处理,得到标准蛋白质序列集;所述蛋白质序列集中的蛋白质序列有几百万条,得到标准蛋白质序列之后,该标准蛋白质序列中的每一条可以由几个、几百个甚至更多氨基酸组成,每一个氨基酸以20个字母G、S、A、T、V、D、N、L、I、E、Q、Y、F、H、P、M、W、K、C、R中的其中一个来表示;步骤3:对该标准蛋白质序列集进行拆分配置处理,将其转换为对于一个给定序列片段的键/值对列表;(1)选择需要进行匹配检测的蛋白质Pr,该Pr作为目标蛋白质;(2)基于已有的文献确定(1)中Pr的氨基酸序列特征值,该特征值由多个氨基酸组构成,每个氨基酸组中有多个氨基酸;以i表示组数,将特征值的每组氨基酸记为PCF1、PCF2...PCFi;(3)根据特征值将步骤2的标准蛋白质特征序列集进行排列:排列后的数据记作以下形式:<PCF1,PLT1>;…….<>……<PCF1,PLTj>…….<PCFi,PLT1>;…….<>……<PCFi,PLTj>其中,PCF1‑PCFi表示(2)中的特征值,i表示组数,PLT1‑PLTj表示步骤2的蛋白质序列集中的每一条蛋白质序列数据,j表示步骤2中标准蛋白质序列集所含蛋白质序列数据的数量;从而得到一个对列表;(4)检测(3)中对列表的每一行PLT1‑PLTj是否含有该行之前所标注的PCFk,k属于1‑i,将该行包含有PCFk的那些PLT1‑PLTj中的元素检测出来,记作<PCF1,PL1‑1>;…….<>……<PCF1,PL1‑j>…….<PCFi,PL i‑1>;…….<>……<PCFi,PLi‑j>并将记作上述格式的数据作为键/值对列表,其中,PL1‑1至PL1‑j表示第一行PLT1‑PLTj中含有PCF1的标准蛋白质序列,PL1‑1表示PLT1‑PLTj中第一个含有该PCF1的标准蛋白质序列,PL1‑j表示PLT1‑PLTj中最后一个含有该PCF1的标准蛋白质序列;PLi‑1至PLi‑j表示第i行PLT1‑PLTj中含有PCFi的标准蛋白质序列,PLi‑1表示PLT1‑PLTj中第一个含有该PCFi的标准蛋白质序列,PLi‑j表示PLT1‑PLTj中最后一个含有该PCFi的标准蛋白质序列;步骤4:对上述键/值对列表,进行汇总;接受上一步骤生成的键/值对列表,合并含有相同特征值的蛋白质序列,得到了分别包含第1至第i个蛋白质特征值的蛋白质序列,记作<PCF1,PL[1‑1….1‑j]>…<PCFi,PL[i‑1….i‑j]>其中,<PCF1,PL[1‑1….1‑j]>=<PCF1,PL1‑1,….PL 1‑j>…<PCFi,PL[i‑1….i‑j]>=<PCF1,PLi‑1,….PL i‑j>并将记作上述格式的数据作为减化后的键/值对列表;步骤5:对上一步得到的减化后的键/值对列表进行交集运算,以得出步骤1的蛋白质序列集中是否含有步骤3中指定的目标蛋白质;[PCF1,...,PCFi]=PL[1‑1...1‑j]∩…∩PL[i‑1...i‑j],即以交集PL[1‑1...1‑j]∩…∩PL[i‑1...i‑j]表示上述PL[1‑1…1‑j]—PL[i‑1…i‑j]中,同时含有PCF1‑PCFi的那些蛋白质序列;当结果非空,则确定该数据集某条数据含有特征蛋白质序列。...

【技术特征摘要】
1.微藻蛋白质特征序列标签匹配的快速检测方法,其特征在于包括以下步骤:步骤1:采集微藻样品,对样品进行RNA提取,样品纯度要求:OD值应在1.8至2.2之间;电泳检测28S:18S至少大于1.8,样品浓度:总RNA浓度不低于400ng/μg,用①Oligo(dT)富集mRNA,去除rRNA,将RNA随机打断,用随机引物和逆转录酶从RNA片段合成cDNA片段,cDNA片段末端修复,连接测序接头;②对于smallRNA,进行3’和5’端接头连接,逆转录合成cDNA片段,最终将①和②的cDNA片段制备测序文库并进行测序,获得转录组测序的基因序列,之后翻译为蛋白质序列集;或者根据所采集微藻的种类同时从美国国家生物技术信息中心(NBCI)下载对应的蛋白质序列集,并与上述蛋白质序列集合并;步骤2:对步骤1得到的蛋白质序列集进行预处理,得到标准蛋白质序列集;所述蛋白质序列集中的蛋白质序列有几百万条,得到标准蛋白质序列之后,该标准蛋白质序列中的每一条可以由几个、几百个甚至更多氨基酸组成,每一个氨基酸以20个字母G、S、A、T、V、D、N、L、I、E、Q、Y、F、H、P、M、W、K、C、R中的其中一个来表示;步骤3:对该标准蛋白质序列集进行拆分配置处理,将其转换为对于一个给定序列片段的键/值对列表;(1)选择需要进行匹配检测的蛋白质Pr,该Pr作为目标蛋白质;(2)基于已有的文献确定(1)中Pr的氨基酸序列特征值,该特征值由多个氨基酸组构成,每个氨基酸组中有多个氨基酸;以i表示组数,将特征值的每组氨基酸记为PCF1、PCF2...PCFi;(3)根据特征值将步骤2的标准蛋白质特征序列集进行排列:排列后的数据记作以下形式:<PCF1,PLT1>;…….<>……<PCF1,PLTj>…….<PCFi,PLT1>;…….<>……<PCFi,PLTj>其中,PCF1-PCFi表示(2)中的特征值,i表示组数,PLT1-PLTj表示步骤2的蛋白质序列集中的每一条蛋白质序列数据,j表示步骤2中标准蛋白质序列集所含蛋白质序列数据的数量;从而得到一个对列表;(4)检测(3)中对列表的每一行PLT1-PLTj是否含有该行之前所标注的PCFk,k属于1-i,将该行包含有PCFk的那些PLT1-PLTj中的元素检测出来,记作<PCF1,PL1-1>;…….<>……<PCF1,PL1-j>…….<PCFi,PLi-1>;…….<>……<PCFi,PLi-j>并将记作上述格式的数据作为键/值对列表,其中,PL1-1至PL1-j表示第一行PLT1-PLTj中含有PCF1的标准蛋白质序列,PL1-1表示PLT1-PLTj中第一个含有该PCF1的标准蛋白质序列,PL1-j表示PLT1-PLTj中最后一个含有该PCF1的标准蛋白质序列;PLi-1至PLi-j表示第i行PLT1-PLTj中含有PCFi的标准蛋白质序列,PLi-1表示PLT1-PLTj中第一个含有该PCFi的标准蛋白质序列,PLi-j表示PLT1-PLTj中最后一个含有该PCFi的标准蛋白质序列;步骤4:对上述键/值对列表,进行汇总;接受上一步骤生成的键/值对列表,合并含有相同特征值的蛋白质序列,得到了分别包含第1至第i个蛋白质特征值的蛋白质序列,记作<PCF1,PL[1-1….1-j]>…<PCFi,PL[i-1….i-j]>其中,<PCF1,PL[1-1….1-j]>=<PCF1,PL1-1,….PL1-j>…<PCFi,PL[i-1….i-j]>=<PCF1,PLi-1,….PLi-j>并将记作上述格式的数据作为减化后的键/值对列表;步骤5:对上一步得到的减化后的键/值对列表进行交集运算,以得出步骤1的蛋白质序列集中是否含有步骤3中指定的目标蛋白质;[PCF1,...,PCFi]=PL[1-1...1-j]∩…∩PL[i-1...i-j],即以交集PL[1-1...1-j]∩…∩PL[i-1...i-j]表示上述PL[1-1…1-j]—PL[i-1…i-j]中,同时含有PCF1-PCFi的那些蛋白质序列;当结果非空,则确定该数据集某条数据含有特征蛋白质序列。2.如权利要求1所述的微藻蛋白质特征序列标签匹配的快速检测方法,其特征在于上述步骤3在其步骤(3)之后如下:(4A)对所得的上述对列表进行分解:将对列表分解为若干个64M的文件,每个文件是上述对列表的一个子集,即子对列表;(5A)设置多个检测节点(采用物理计算机),将得到的子对列表分配至每个检测节点进行进一步检测;(6A)每个检测节点检测其所分配的各个64M文件进行检测,以检测每一个子对列表中的每一行是否是否含有该行之前所标注的PCFk,k属于1-i;所有检测节点完成检测时,即完成对(3)中对列表的每一行PLT1-PLTj是否含有该行之前所标注的PCFk,k属于1-i,将该行包含有PCFk的那些PLT1-PLTj中的元素检测出来,记作<PCF1,PL1-1>;…….<>……<PCF1,PL1-j>…….<PCFi,PLi-1>;…….<>……<PCFi,PLi-j>并将记作上述格式的数据作为键/值对列表,其中,PL1-1至PL1-j表示第一行PLT1-PLTj中含有PCF1的标准蛋白质序列,PL1-1表示PLT1-PLTj中第一个含有该PCF1的标准蛋白质序列,PL1-j表示PLT1-PLTj中最后一个含有该PCF1的标准蛋白质序列;PLi-1至PLi-j表示第i行PLT1-PLTj中含有PCFi的标准蛋白质序列,PLi-1表示PLT1-PLTj中第一个含有该PCFi的标准蛋白质序列,PLi-j表示PLT1-PLTj中最后一个含有该PCFi的标准蛋白质序列。3.如权利要求1所述的微藻蛋白质特征序列标签匹配的快速检测方法,其特征在于上述步骤3-5中;当有n个检测节点,分别为1-n,假设分别分配了S1,...,Sn个任务,且1-n个检测节点有一个完成任务,即剩余任务为0,并且各个节点当前完成任务数分别为s1,....,sn;各个节点的剩余任务数为S1-s1,...,Sn-sn,在非零的剩余任务中选取值最大者,动态调配一个任务给已完成任务的节点,更新完成任务节点的任务分配数加一,更剩余任务最大节点的任务分配数减一,每次当有节点出现分配任务全部完成时,重复上述分配方式,直到所有计算任务完成。4.如权利要求1所述的微藻蛋白质特征序列标签匹配的快速检测方法,其特征在于上述步骤3-5中,所述的检测是选取PCF1,且PCF1的长度为L;在PLTn,n∈1...

【专利技术属性】
技术研发人员:王帅郑立陈军辉
申请(专利权)人:国家海洋局第一海洋研究所
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1