一种从批量contig中批量获取麦类植物LMW-GS基因编码区的方法技术

技术编号:22975868 阅读:32 留言:0更新日期:2019-12-31 23:51
本发明专利技术公开了一种从批量contig中批量获取麦类植物LMW‑GS基因编码区的方法,其特征在于:本发明专利技术目的是克服从批量SeqMan组装出来的contig中批量获取不同麦类植物LMW‑GS基因编码区困难的问题。根据SeqMan组装出来的不同小麦材料中LMW‑GS基因的contig序列,先进行序列标识的批量重命名,并整理至同一个fasta格式的文件中;接着根据该基因N端、C端保守的特点,采用已经发表的中国春、小偃54的LMW‑GS基因编码区的两端各90bp序列为参比序列,与SeqMan组装出来的对应不同小麦材料中相应contig序列(即LMW‑GS基因的基因组DNA序列)进行比对,找到相应编码区的起始位置;最后根据起始位置从SeqMan组装出来的LMW‑GS基因contig中批量提取出编码区序列。这为进行该类基因的功能研究奠定了良好的基础。

【技术实现步骤摘要】
一种从批量contig中批量获取麦类植物LMW-GS基因编码区的方法
本专利技术属于分子生物学和生物信息学交叉的
,具体涉及一种从批量contig中批量获取LMW-GS基因编码区的方法。
技术介绍
小麦籽粒中的蛋白质包括清蛋白、球蛋白、醇溶蛋白和麦谷蛋白,其中清蛋白和球蛋白约占15%,为代谢蛋白;麦谷蛋白和醇溶蛋白约占85%,为小麦籽粒的主要贮藏蛋白,是小麦面筋的主要成分。贮藏蛋白的种类和特性决定了小麦面粉加工品质的优劣。小麦醇溶蛋白主要影响面团的延展性,麦谷蛋白主要决定面团的弹性,包括高分子量麦谷蛋白亚基(HMW-GS)和低分子量麦谷蛋白亚基(LMW-GS),分别占胚乳总蛋白含量的10%和40%左右。从小麦种子中储藏蛋白各成份含量上来看,LMW-GS所占比例最高。从生产实践上看,不同的优质小麦品种年际间品质指标都有波动,有的波动甚至很大,从优质强筋直接下降到中强筋,甚至中筋水平。品质性状的波动与其控制基因的数量及表达有重要关系。LMW-GS基因位于小麦第一同源群染色体短臂上,为单外显子基因,编码区长度约900bp~1200bp,为典型的多拷贝基因。其所编码的成熟蛋白亚基分子量变化在30~45kD之间,分子量大小主要取决于重复区的拷贝数,谷氨酰胺和脯氨酸占氨基酸总数的50%。据Southern杂交数据分析,估计六倍体小麦中LMW-GS基因总数变化在35~40之间,就每个小麦材料而言,A、B、D三个亚基因组上总拷贝数一般都为10~20个。从小麦籽粒蛋白产物分离上看,HMW-GS基因拷贝数较少,蛋白亚基分子量大,易于用单向SDS-PAGE区分,其等位基因变异及其与小麦品质的关系已得到广泛深入的研究。LMW-GS基因由于其拷贝数较多,蛋白亚基分子量小、且在电泳图谱上与大量的醇溶蛋白相互重叠,不容易区分,因此有关LMW-GS及其与品质之间关系的研究相对较难,相关研究成果报道也相对较少。因此,从DNA序列水平上先搞清不同品质类型小麦材料的LMW-GS基因构成,进而进行基因表达与相应品质性状间的关系研究不失为一个好的策略。根据GenBank上收录的LMW-GS基因序列设计保守引物进行PCR扩增结合测序是搞清不同材料中LMW-GS基因构成的有效方法。由于LMW-GS基因不同拷贝在N端和C端间具有较高的序列相似性,采用基于Sanger法双脱氧测序的成本太高,采用Illumina公司的测序平台,由于其读长较短导致进行LMW-GS基因序列拼接时其保守的N端和C端容易误拼,而形成不同LMW-GS基因的嵌合基因。PacBio测序是单分子测序,且该平台测序的reads较长,平均都在5kb以上。由于LMW-GS基因PCR产物需要测序的片段较小(1kb左右)且PacBio的原始错误为随机错误,可以通过该公司的CCS测序模式进行单一片段多轮测序的自我纠正,来提高测序数据的准确性。CCSreads无需其它二代测序数据矫正,其本身就具有较高准确性。据PacBio官方数据,同一片段测序5次后,单一read的准确性可达99%以上。这为麦类植物基因组中多拷贝的LMW-GS基因组装提供了更有利的支持。LMW-GS基因PCR产物PacBio测序结果一般采用DNASTARLasergeneversion7.1.0软件中的SeqMan组件进行序列组装。但组装出来的序列是LMW-GS基因的基因组DNA序列,该软件没有提供直接导出组装序列的编码区的选项。NCBI上ORFfinder只能单个序列逐一提交进行编码区预测,没法批量操作。这对于每个小麦材料中就含有10~20个LMW-GS基因,数十个小麦材料就多达几百、上千个LMW-GS基因而言工作量相当大,而且手工操作还有可能出错。经广泛查阅资料,也没有发现其它合适的工具能够用于从批量SeqMan组装出来的contig中批量提取不同麦类植物LMW-GS基因的编码区序列。根据麦类植物LMW-GS基因研究上遇到的实际问题和需求,经过不断探索和反复试验,我们专利技术了一种用于从批量contig中批量获取麦类植物LMW-GS基因编码区的方法,为进行该类基因对小麦面粉加工品质影响的基础研究提供良好条件。
技术实现思路
本专利技术目的是克服从批量SeqMan组装出来的contig中批量获取麦类植物LMW-GS基因编码区困难的问题。本专利技术介绍了一种从批量contig中批量获取麦类植物LMW-GS基因编码区的方法,该方法采用perl程序辅助结合少量人工判别分步进行来实施。不同小麦材料LMW-GS基因编码区的获取为进行该类基因的表达及其对小麦品质性状影响的研究奠定了良好的基础。本专利技术的技术方案是:一种从批量contig中批量获取麦类植物LMW-GS基因编码区的方法,其特征在于:本专利技术根据SeqMan组装出来的不同小麦材料中LMW-GS基因的contig序列,先进行序列标识的批量重命名并整理至同一个fasta格式的文件中;接着根据该基因N端、C端保守的特点,采用已经发表的中国春、小偃54的LMW-GS基因编码区的两端各90bp序列为参比序列,与SeqMan组装出来的对应不同小麦材料中相应contig序列(即LMW-GS基因的基因组DNA序列)进行比对,找到相应编码区的起始位置;最后根据起始位置从SeqMan组装出来的LMW-GS基因contig中批量提取出编码区序列。附图说明图1perl程序3copyTemptoOne.pl的代码图2perl程序3fasDelEnterfrommore-IDrename.pl的代码图3perl程序3fasmergeFa.pl的代码图4perl程序3fasDelEnterfrommore.pl的代码图5perl程序fasFuzzyMatch-tempPositionExtr.pl的代码图6perl程序consensusTempPositionExtrLMW-GS-notfind.pl的代码图7perl程序consensusTempPositionExtrLMW-GS-RC-notfind.pl的代码图8perl程序seqExtraByIDinFilenew-twoNo.pl的代码图9从批量contig中批量获取麦类植物LMW-GS基因编码区的流程图具体实施方式分成以下三步来实现:1.contig序列标识的批量重命名并整理至同一个fasta格式文件中在完成LMW-GS基因PCR产物PacBio测序结果SeqMan组装后,可以从SeqMan导出各个contig(即LMW-GS基因的基因组DNA序列)的fasta格式序列,本专利技术导出的序列命名为:“材料编号--temp.fas”。本专利技术的前期工作中SeqMan组装时为了节省时间,一般为所组装的contig命名为:“本材料中contig编号+空格+对应参考基因的编号(中国春或小偃54中的LMW-GS基因编号)”,导出fasta序列后,序列标识为:“>′contig编号_对应参考基因的编号′”(组装命名时的空格,导出后自本文档来自技高网
...

【技术保护点】
1.一种从批量contig中批量获取麦类植物LMW-GS基因编码区的方法,其特征在于,所述方法包括:S1:本专利技术根据LMW-GS基因PCR产物PacBio测序后SeqMan组装出来的不同小麦材料中LMW-GS基因的contig序列,先进行序列标识的批量重命名并整理至同一个fasta格式的文件中;S2:接着根据该基因N端、C端保守的特点,采用已经发表的中国春、小偃54的LMW-GS基因编码区的两端各90bp序列为参比序列,与SeqMan组装出来的对应不同小麦材料中相应contig序列(即LMW-GS基因的基因组DNA序列)进行比对,找到相应编码区的起始位置;S3:最后根据起始位置从SeqMan组装出来的LMW-GS基因contig中批量提取出编码区序列。/n

【技术特征摘要】
1.一种从批量contig中批量获取麦类植物LMW-GS基因编码区的方法,其特征在于,所述方法包括:S1:本发明根据LMW-GS基因PCR产物PacBio测序后SeqMan组装出来的不同小麦材料中LMW-GS基因的contig序列,先进行序列标识的批量重命名并整理至同一个fasta格式的文件中;S2:接着根据该基因N端、C端保守的特点,采用已经发表的中国春、小偃54的LMW-GS基因编码区的两端各90bp序列为参比序列,与SeqMan组装出来的对应不同小麦材料中相应contig序列(即LMW-GS基因的基因组DNA序列)进行比对,找到相应编码区的起始位置;S3:最后根据起始位置从SeqMan组装出来的LMW-GS基因contig中批量提取出编码区序列。


2.根据权利要求1所述的从批量contig中批量获取麦类植物LMW-GS基因编码区的方法,其特征在于,步骤S1序列标识的批量重命名并整理至同一个fasta格式的文件中时本发明编写了4个perl程序(3copyTemptoOne.pl、3fasDelE...

【专利技术属性】
技术研发人员:张胜利李东方董松果朱启迪杨靖周岩
申请(专利权)人:河南科技学院
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1