当前位置: 首页 > 专利查询>吴俊阳专利>正文

一种病原微生物参考知识库的最大多样性聚类构建方法技术

技术编号:31086386 阅读:32 留言:0更新日期:2021-12-01 12:39
本发明专利技术公开了一种病原微生物参考知识库的最大多样性聚类构建方法,属于生物技术领域,该构建方法具体步骤如下:(1)收集病原微生物全基因组序列;(2)将序列进行OTU聚类,并进行统计;(3)对错误序列进行检测删除并进行记录;(4)对各病原微生物进行注释匹配;(5)构建微生物知识库,同时将数据表反馈给工作人员;本发明专利技术能够扩大知识库适用人群,方便人们了解各类病原微生物,提高了科技资源共享服务质量,能够保证知识库的完整性,提高知识库的构建质量,节省工作人员排查时间。节省工作人员排查时间。节省工作人员排查时间。

【技术实现步骤摘要】
一种病原微生物参考知识库的最大多样性聚类构建方法


[0001]本专利技术涉及生物
,尤其涉及一种病原微生物参考知识库的最大多样性聚类构建方法。

技术介绍

[0002]随着科技的不断发展,专家发现的病原体的种类涵盖细菌、真菌、寄生虫、病毒、支原体或衣原体、分枝杆菌等,涵盖的种类超过2万种,病原微生物参考知识库建设时不仅需要包括染色体,还需要考虑线粒体、转录组序列及非编码序列等,当前病原微生物的知识库建立的方法是采用从国际公共数据库中通过获取、整合、筛选等一系列处理过程进行建立,通常知识库的建立方式有三种,分别是冗余方法、菌株代表序列法和打断重组法,病原微生物的知识库的出现推动新时代我国病原微生物资源保护和利用工作更好发展,为科学研究、技术进步和社会发展提供高质量的科技资源共享服务;因此,专利技术出一种病原微生物参考知识库的最大多样性聚类构建方法变得尤为重要;
[0003]经检索,中国专利号CN112800245A公开了一种病原微生物参考知识库的最大多样性聚类构建方法,该专利技术虽然准确性高、检测效率高且数据冗余率低,但是未对构建完成本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种病原微生物参考知识库的最大多样性聚类构建方法,其特征在于,该构建方法具体步骤如下:(1)收集病原微生物全基因组序列:对云端数据库中存储的病原微生物全基因组序列进行提取,并对提取出的基因组序列进行去重筛选;(2)将序列进行OTU聚类,并进行统计:将筛选完成的基因组序列进行OTU聚类,同时将无法聚类的基因组序列处理生成错误序列,并将其录入OTU筛选表中;(3)对错误序列进行检测删除并进行记录:对错误序列进行数据筛错,并将错误序列信息进行更新,同时对其重新进行OTU聚类处理;(4)对各病原微生物进行注释匹配:依据OTU聚类表中分类完成的数据进行数据检索,并对各病原微生物全基因组序列的相关信息进行抓取,同时对其进行信息匹配;(5)构建微生物知识库,将数据表反馈给工作人员:将信息匹配完成的病原微生物数据整合生成微生物知识库,并将未匹配成功的病原微生物全基因组序列反馈给工作人员,同时由工作人员对其进行信息补充,微生物知识库进行数据更新。2.根据权利要求1所述的一种病原微生物参考知识库的最大多样性聚类构建方法,其特征在于,步骤(1)中所述去重筛选具体步骤如下:步骤一:服务器将病原微生物全基因组序列依据首字母A~Z进行有序排列,并将其分为26组数据,同时将未排序的病原微生物全基因组序列组成第27组数据;步骤二:依次对各组数据中的病原微生物全基因组序列进行重复数据查询,并将其中重复的病原微生物全基因组序列删除。3.根据权利要求1所述的一种病原微生物参考知识库的最大多样性聚类构建方法,其特征在于,步骤(2)中所述OTU聚类具体步骤如下:第一步:工作人员设置百分比标识阈值X,27组数据与参考数据库中预先定义的聚类中心对齐;第二步:各组数据依次对参考数据库进行查询,如果读取匹配的参考序列相似度大于或等于X,则将其分配给该参考序列定义的OTU,并将其处理生成OTU1;第三步:将无法匹配参考数据库的病原...

【专利技术属性】
技术研发人员:吴俊阳
申请(专利权)人:吴俊阳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1