一种基于matK基因的未知植物物种识别数据库的构建方法及数据库技术

技术编号:25693328 阅读:31 留言:0更新日期:2020-09-18 21:04
一种基于matk基因的未知植物物种识别数据库的构建方法及数据库,所述方法包括步骤:获取含有matk基因的原始序列数据文件;提取所述原始序列数据文件中的物种注释信息;将所述物种注释信息整合至所述matK基因上,以得到matK序列;对所述matk序列进行质量控制;根据所述matk序列之间的相似性进行聚类;根据聚类结果构建所述数据库。本申请提供的一种基于matk基因的未知植物物种识别数据库的构建方法及数据库优点为:(1)检测通量高;(2)高灵敏度和选择性;(3)该方法所构建的数据库覆盖面广、数据质量高、信息全面;(4)可以利用生物信息学方法在物种的水平上确定未知物种。

【技术实现步骤摘要】
一种基于matK基因的未知植物物种识别数据库的构建方法及数据库
本专利技术属于植物物种鉴定领域,具体涉及一种基于matk基因的未知植物物种识别数据库的构建方法及数据库。
技术介绍
matK基因存在于叶绿体赖氨酸trnK基因内,且位于高度保守的两个外显子中间的内含子中,是单拷贝的编码基因,参与编码转录本内被II型内含子剪切的成熟酶,进化速度介于rbcL和ITS之间,在科、属水平上具有较高的物种鉴定能力。2009年,matK基因和rbcL基因一起被生物条形码联盟(CBOL)以测序质量、物种鉴定效率和通用性为衡量标准推荐成为植物DNA条形码相关研究的核心DNA条形码。尽管matk基因有着较出色的物种鉴定效率、通用性以及测序质量,但由于其扩增的引物通用性较差,导致在不同类群中使用matk基因通常需要使用不同的引物。李德铢等人采用单一的引物在6,286个样品里的PCR扩增效率仅仅为79.5%,是全部DNA条形码候选序列中PCR扩增效率最低的,而采用16对引物组合来对matK基因进行PCR扩增,其扩增效率为91.2%。<br>目前,大部分基本文档来自技高网...

【技术保护点】
1.一种基于matK基因的未知植物物种识别数据库的构建方法,其特征在于,所述方法包括步骤:/n获取含有matK基因的原始序列数据文件;/n提取所述原始序列数据文件中的物种注释信息;/n将所述物种注释信息整合至所述matK基因上,以得到matK序列;/n对所述matK序列进行质量控制;/n根据所述matK序列之间的相似性进行聚类;/n根据聚类结果构建所述数据库。/n

【技术特征摘要】
1.一种基于matK基因的未知植物物种识别数据库的构建方法,其特征在于,所述方法包括步骤:
获取含有matK基因的原始序列数据文件;
提取所述原始序列数据文件中的物种注释信息;
将所述物种注释信息整合至所述matK基因上,以得到matK序列;
对所述matK序列进行质量控制;
根据所述matK序列之间的相似性进行聚类;
根据聚类结果构建所述数据库。


2.根据权利要求1所述的基于matK基因的未知植物物种识别数据库的构建方法,其特征在于,所述获取含有matK基因的原始序列数据文件包括步骤:
以matK作为关键字在NCBINucleotide数据库中进行检索;
下载检索结果;
以Genbank格式保存所述检索结果,以得到所述原始序列数据文件。


3.根据权利要求1所述的基于matK基因的未知植物物种识别数据库的构建方法,其特征在于,所述提取所述原始序列数据文件中的物种注释信息包括步骤:
获取所述原始序列数据文件的个数N;
将N个所述原始序列数据文件分割为N个单独文件;
对N个所述单独文件进行连续编号;
从每个单独文件中提取matK序列。


4.根据权利要求3所述的基于matK基因的未知植物物种识别数据库的构建方法,其特征在于,所述从每个单独文件中提取matK序列包括步骤:
使用最多一种关键字格式对每个所述单独文件进行第一提取matK序列操作,以得到第一提取matK序列信息;
使用最少两种关键字格式对经过所述第一提取matK序列操作后的所有所述单独文件进行第二提取matK序列操作,以得到第二提取matK序列信息:
构建隐尔马可夫模型对经过所述第二提取matK序列操作后的所有所述单独文件进行第三提取matK序列操作,以得到第三提取matK序列信息;
合并所述第一提取matK序列信息、所述第二提取matK序列信息和所述第三提取matK序列信息。


5.根据权利要求1所述...

【专利技术属性】
技术研发人员:宁康白虹杨朋硕卢璟详邹欣桐李洪军
申请(专利权)人:华中科技大学鄂州工业技术研究院华中科技大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1