System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种重点病毒的检测方法、系统及存储介质技术方案_技高网

一种重点病毒的检测方法、系统及存储介质技术方案

技术编号:42668234 阅读:20 留言:0更新日期:2024-09-10 12:23
本发明专利技术提供了一种重点病毒的检测方法、系统及存储介质。所述检测方法包括以下步骤:获取多个待测病毒样本的基因组序列数据;计算各所述待测病毒样本的基因组序列数据的k‑mers值,以生成第一k‑mers矩阵;将所述第一k‑mers矩阵输入预先训练的支持向量机模型,以识别其相较前期病毒样本的新变体;以及将所述新变体的基因组序列数据的k‑mers值构建的第二k‑mers矩阵输入预先训练的自编码模型,以识别所述新变体中的重点病毒株。通过采用上述检测方法,本发明专利技术能够从待测病毒样本的基因组数据中快速识别出重点病毒,从而实现病毒变体的高效监测和预警。

【技术实现步骤摘要】

本专利技术涉及生物信息,尤其涉及一种重点病毒的检测方法、一种重点病毒的检测系统,以及一种计算机可读存储介质。


技术介绍

1、全球关于sars-cov-2相关的研究大多数是对sars-cov-2产生的新变体进行追踪,然而只有部分变异能使得病毒的传播力、致病性等发生改变,大多数的变异对病毒总体特性影响不大,从而影响病毒防治的方法及策略。因此,科学家们真正需要关注的是这些可能对当前病毒防治策略造成影响的病毒变体。世界卫生组织(world health organization,who)将这样一些变体进行了定义,其中被定义为voi(variants of interest)的病毒变体,who认为其应具有被预测为或已知会影响传染性、疾病严重程度、免疫逃逸等病毒特征的遗传学变化,且已确定其在多个国家造成重大社区传播或聚集性传播,相对流行率不断上升,病例数量也在增加,或具有其它明显的、会对全球公共卫生构成新风险的流行病学影响。此外,被定义为voc(variants of concern)的病毒变体,不仅具备以上voi的特征,同时其已经被证实具有更强的传播力及毒性,或是其导致的临床疾病表现发生改变,又或是针对此类变体现有的防治措施、诊断及治疗方法和疫苗的有效性下降。

2、现有技术中,giovanna nicora等人使用one class svm对每周收集的sars-cov-2病毒的spike蛋白质序列进行异常检测并识别voc/voi病毒变体。然而,该方法需要通过序列比对获得spike蛋白的氨基酸序列,因此数据的准备工作较难实施。</p>

3、为了克服现有技术存在的上述缺陷,本领域亟需一种重点病毒的检测技术,用于从sars-cov-2病毒等待测病毒样本的基因组数据中快速识别出新发voc/voi变体,从而实现病毒变体的高效监测和预警。


技术实现思路

1、以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之前序。

2、为了克服现有技术存在的上述缺陷,本专利技术提供了一种重点病毒的检测方法、一种重点病毒的检测系统,以及一种计算机可读存储介质,能够从sars-cov-2病毒基因组数据中快速识别出新发voc/voi,从而实现病毒变体的高效监测和预警。

3、具体来说,根据本专利技术第一方面提供的重点病毒的检测方法包括以下步骤:获取多个待测病毒样本的基因组序列数据;计算各所述待测病毒样本的基因组序列数据的k-mers值,以生成第一k-mers矩阵;将所述第一k-mers矩阵输入预先训练的支持向量机模型,以识别其相较前期病毒样本的新变体;以及将所述新变体的基因组序列数据的k-mers值构建的第二k-mers矩阵输入预先训练的自编码模型,以识别所述新变体中的重点病毒株。

4、进一步地,在本专利技术的一些实施例中,所述获取多个待测病毒样本的基因组序列数据的步骤包括:确定一参考日期;获取采样于所述参考日期到当前日期之间的第一病毒样本的基因组序列数据,并将所述第一病毒样本标记为所述待测病毒样本;以及获取采样于所述参考日期之前同时长的第二病毒样本的基因组序列数据,并将所述第二病毒样本标记为前期病毒样本。

5、进一步地,在本专利技术的一些实施例中,所述待测病毒样本包括人源性sars-cov-2病毒。所述参考日期到当前日期之间的检测周期选自1天、3天、7天、15天和/或30天。

6、进一步地,在本专利技术的一些实施例中,所述计算各所述待测病毒样本的基因组序列数据的k-mers值,以生成第一k-mers矩阵的步骤包括:确定各所述待测病毒样本涉及的k-mer种类;以及以各所述k-mer种类为列名,以各所述待测病毒样本的样本名称为行名,并分别计算各所述待测病毒样本关于各所述k-mer种类的取值,以生成所述第一k-mers矩阵。

7、进一步地,在本专利技术的一些实施例中,所述支持向量机模型选用one class svm模型,训练所述支持向量机模型的步骤包括:调用sklearn库的svm.oneclasssvm模块,以作为待训练的支持向量机模型;计算各所述前期病毒样本的基因组序列数据的k-mers值,以生成第三k-mers矩阵;以及根据所述第三k-mers矩阵,训练用于识别新变体的one class svm模型。

8、进一步地,在本专利技术的一些实施例中,所述重点病毒株包括voc病毒株和/或voi病毒株,训练所述自编码模型的步骤包括:从所述第三k-mers矩阵中筛选非重点病毒样本,以构建第四k-mers矩阵;调用pyod的pyod.models.auto_encoder模块,以作为待训练的自编码模型;以及根据所述第四k-mers矩阵,训练检测所述voc病毒株和/或所述voi病毒株的自编码模型。

9、此外,根据本专利技术第二方面提供的一种重点病毒变体的检测系统包括存储器及处理器。所述存储器上存储有计算机指令。所述处理器连接所述存储器,并被配置用于执行所述存储器上存储的计算机指令,以实施如本专利技术第一方面中任一项所述的重点病毒变体的检测方法。

10、此外,根据本专利技术第三方面提供的一种计算机可读存储介质,其上存储有计算机指令。所述计算机指令被处理器执行时,实施如本专利技术第一方面中任一项所述的重点病毒变体的检测方法。

本文档来自技高网...

【技术保护点】

1.一种重点病毒的检测方法,其特征在于,包括以下步骤:

2.如权利要求1所述的检测方法,其特征在于,所述获取多个待测病毒样本的基因组序列数据的步骤包括:

3.如权利要求2所述的检测方法,其特征在于,所述待测病毒样本包括人源性SARS-CoV-2病毒,所述参考日期到当前日期之间的检测周期选自1天、3天、7天、15天和/或30天。

4.如权利要求2所述的检测方法,其特征在于,所述计算各所述待测病毒样本的基因组序列数据的k-mers值,以生成第一k-mers矩阵的步骤包括:

5.如权利要求4所述的检测方法,其特征在于,所述支持向量机模型选用One ClassSVM模型,训练所述支持向量机模型的步骤包括:

6.如权利要求5所述的检测方法,其特征在于,所述重点病毒株包括VOC病毒株和/或VOI病毒株,训练所述自编码模型的步骤包括:

7.一种重点病毒变体的检测系统,其特征在于,包括

8.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时,实施如权利要求1~6中任一项所述的重点病毒变体的检测方法。

...

【技术特征摘要】

1.一种重点病毒的检测方法,其特征在于,包括以下步骤:

2.如权利要求1所述的检测方法,其特征在于,所述获取多个待测病毒样本的基因组序列数据的步骤包括:

3.如权利要求2所述的检测方法,其特征在于,所述待测病毒样本包括人源性sars-cov-2病毒,所述参考日期到当前日期之间的检测周期选自1天、3天、7天、15天和/或30天。

4.如权利要求2所述的检测方法,其特征在于,所述计算各所述待测病毒样本的基因组序列数据的k-mers值,以生成第一k-mers矩阵的步骤包括:...

【专利技术属性】
技术研发人员:任昊甜黄涛李亦学
申请(专利权)人:中国科学院上海营养与健康研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1