【技术实现步骤摘要】
一种基于机器学习的新冠病毒亚群识别方法
[0001]本专利技术属于生物信息领域,具体涉及一种基于机器学习的新冠病毒亚群识别方法。
技术介绍
[0002]现存的新冠病毒亚群识别主要是在利用比对软件获得病毒突变位点的基础上,根据共同突变将病毒分成不同的亚群。分群的方法主要分为四种,一是通过人工检测的方法把出现相同的高频突变的病毒序列归为一群。这种分析方法有如下两个缺点:1.分群粒度较粗。通过人工方法识别的模式序列,粒度比较粗,即没有找到模式序列的全长,这可能是因为模式序列中存在一些突变频率不那么高的突变,在人工识别的过程中被忽略掉。
[0003]2.忽略一些潜在的发展中的亚群。由(1)引申出的另一个问题是,病毒群中的亚群,即与病毒群具有相同的主要突变模式,同时又拥有新型的突变的病毒,因为频率不高没有被发现,但是具有形成群体的趋势。这些亚群往往具有时空关系,对于疫情监控,病毒溯源具有重要意义。
[0004]二是利用进化分析软件根据比对结果构建进化树,根据进化树判断病毒属于哪个种系。这种方法的缺点是当数据量比较多的时 ...
【技术保护点】
【技术特征摘要】
1.一种基于机器学习的新冠病毒亚群识别方法,其特征在于:包括收集需要分析的病毒基因序列,可以从公共数据库上可以获得大量的新冠病毒序列,然后,根据规则去除质量较低的序列,清理数据后,使用序列比对软件把序列与通用参考序列进行比对,从比对结果可以知道突变出现的位置,接下来把每条病毒序列对应位置上的碱基提取出来进行热编码,从而把每个碱基转变为一个五维的向量,接下来,使用t
‑
SNE把矩阵投影到二维平面上,其中t
‑
SNE的困惑度为30,然后使用DBSCAN进行聚类,其中两点之间的最大距离设置为5,最小样本数为50,最后排除掉无法聚类的噪点,就能得到相互区分开的病毒群,每个群都有特定的模式序列,其中模式序列是通过把突变位点对应回每个病毒群中获得。2.根据权利要求1所述的一种基于机器学习的新冠病毒亚群识别方法,其特征在于:所述的规则包括:1)未知碱基小于1%,具有长度小于10bp...
【专利技术属性】
技术研发人员:肖勉丽,胡伟澎,石景容,
申请(专利权)人:广州天鹏计算机科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。