【技术实现步骤摘要】
一种基于matK基因的未知植物物种识别数据库的构建方法及数据库
本专利技术属于植物物种鉴定领域,具体涉及一种基于matk基因的未知植物物种识别数据库的构建方法及数据库。
技术介绍
matK基因存在于叶绿体赖氨酸trnK基因内,且位于高度保守的两个外显子中间的内含子中,是单拷贝的编码基因,参与编码转录本内被II型内含子剪切的成熟酶,进化速度介于rbcL和ITS之间,在科、属水平上具有较高的物种鉴定能力。2009年,matK基因和rbcL基因一起被生物条形码联盟(CBOL)以测序质量、物种鉴定效率和通用性为衡量标准推荐成为植物DNA条形码相关研究的核心DNA条形码。尽管matk基因有着较出色的物种鉴定效率、通用性以及测序质量,但由于其扩增的引物通用性较差,导致在不同类群中使用matk基因通常需要使用不同的引物。李德铢等人采用单一的引物在6,286个样品里的PCR扩增效率仅仅为79.5%,是全部DNA条形码候选序列中PCR扩增效率最低的,而采用16对引物组合来对matK基因进行PCR扩增,其扩增效率为91.2%。< ...
【技术保护点】
1.一种基于matK基因的未知植物物种识别数据库的构建方法,其特征在于,所述方法包括步骤:/n获取含有matK基因的原始序列数据文件;/n提取所述原始序列数据文件中的物种注释信息;/n将所述物种注释信息整合至所述matK基因上,以得到matK序列;/n对所述matK序列进行质量控制;/n根据所述matK序列之间的相似性进行聚类;/n根据聚类结果构建所述数据库。/n
【技术特征摘要】
1.一种基于matK基因的未知植物物种识别数据库的构建方法,其特征在于,所述方法包括步骤:
获取含有matK基因的原始序列数据文件;
提取所述原始序列数据文件中的物种注释信息;
将所述物种注释信息整合至所述matK基因上,以得到matK序列;
对所述matK序列进行质量控制;
根据所述matK序列之间的相似性进行聚类;
根据聚类结果构建所述数据库。
2.根据权利要求1所述的基于matK基因的未知植物物种识别数据库的构建方法,其特征在于,所述获取含有matK基因的原始序列数据文件包括步骤:
以matK作为关键字在NCBINucleotide数据库中进行检索;
下载检索结果;
以Genbank格式保存所述检索结果,以得到所述原始序列数据文件。
3.根据权利要求1所述的基于matK基因的未知植物物种识别数据库的构建方法,其特征在于,所述提取所述原始序列数据文件中的物种注释信息包括步骤:
获取所述原始序列数据文件的个数N;
将N个所述原始序列数据文件分割为N个单独文件;
对N个所述单独文件进行连续编号;
从每个单独文件中提取matK序列。
4.根据权利要求3所述的基于matK基因的未知植物物种识别数据库的构建方法,其特征在于,所述从每个单独文件中提取matK序列包括步骤:
使用最多一种关键字格式对每个所述单独文件进行第一提取matK序列操作,以得到第一提取matK序列信息;
使用最少两种关键字格式对经过所述第一提取matK序列操作后的所有所述单独文件进行第二提取matK序列操作,以得到第二提取matK序列信息:
构建隐尔马可夫模型对经过所述第二提取matK序列操作后的所有所述单独文件进行第三提取matK序列操作,以得到第三提取matK序列信息;
合并所述第一提取matK序列信息、所述第二提取matK序列信息和所述第三提取matK序列信息。
5.根据权利要求1所述...
【专利技术属性】
技术研发人员:宁康,白虹,杨朋硕,卢璟详,邹欣桐,李洪军,
申请(专利权)人:华中科技大学鄂州工业技术研究院,华中科技大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。