检测人类基因组病毒整合位点的方法及装置制造方法及图纸

技术编号:23673475 阅读:34 留言:0更新日期:2020-04-04 18:41
本发明专利技术涉及一种检测人类参考基因组病毒整合位点的方法及装置,属于基因检测生物信息学分析技术领域。该方法包括:基因组比对、滑动切割、短序列比对、整合步骤。该方法将同时没有比对到人类参考基因组及病毒基因组的reads进行滑动切割,将切割后的子序列(或称短序列)重新进行比对,通过比对的位置及某条reads分割序列顺序的聚类、相关性及协方差处理,并在分析过程中,可列举所有高度可能的比对位置,可以准确找出同时比对上人类参考基因组及病毒基因组的reads,精准定位,误差范围在3bp以内。并且该方法计算资源要求不高,运行速度快,具有较高的实用价值。

Methods and devices for detecting the integration sites of human genome viruses

【技术实现步骤摘要】
检测人类基因组病毒整合位点的方法及装置
本专利技术涉及基因检测生物信息学分析
,特别是涉及一种检测人类基因组病毒整合位点的方法及装置。
技术介绍
很多病毒感染人类能够将其基因组整合到人类基因组上,病毒基因与人类宿主基因组的相互作用可导致癌症、艾滋病等疾病。研究表明,10-15%的癌症是由于病毒感染致使的,如HPV或者HBV等,这些病毒整合到人类基因组中很可能是致癌的主要原因。准确的检测病毒整合位点可为病毒相关的癌症发病机制、肿瘤进化及肿瘤治疗提供可用信息,且下一代测序(NGS)能够为病毒基因组整合到人类基因组的检测提供了技术和数据的支持。目前较为常见的检测方法是blastn方法,使用NGS的reads比对人类及病毒的核算库中,其主要是检测有哪些病毒整合到人类基因组上,但是由于样本库较大,而且比对相对灵敏,导致了blastn的比对复杂多样,结果繁多,处理复杂繁琐,假阳性假阴性较多;更主要的是,其整合位点信息需要重新处理计算。另外的方法是利用soft-clippingreads的方法进行处理,比如ViralFusionSeq、Virus-Clip、HGT-ID和VirTect等软件都是基于这种方法处理,但是由于比对软件bwa或者bowtie2得到的soft-clippingreads是不考虑比对到两端的,这会使后续处理较难,无法确保reads的2边末端分别能够比对上人类基因组和病毒基因组。还有一些是基于未比对到人类基因组上的reads使用重新组装(denovoassembly)后再比对,这样可以确保病毒序列的长度和完整性,但是由于重新组装需要使用大量的内存及计算资源,构建出来的conting也有多种可能,无法确保准确性,基于这种方法的软件有ViralFusionSeq和VirusFinder。也有方法是基于将人类参考基因组合病毒基因进行处理,重构新的混合参考基因组来确定整合位点的,比如VirusFinder和VERSE,但是由于构建流程复杂,而且基因组由于本身重复序列多,无法确保新参考基因组的准确性,同样也存在无法快速准确定位整合位点的问题。因而,亟需一种能够准确找出同时匹配人类基因组及病毒基因组的reads,并准确定位断点的方法。
技术实现思路
基于此,有必要针对上述问题,提供一种检测人类基因组病毒整合位点的方法及装置,采用该方法,能够准确找出同时匹配人类基因组及病毒基因组的reads并准确定位断点,并且具有快速,使用计算机内存及计算资源少的优势。一种检测人类基因组病毒整合位点的方法,包括以下步骤:基因组比对:获取基因检测得到的数据,将其中reads分别与人类参考基因组及人类病毒基因组进行比对,得到既不能与人类参考基因组匹配,又不能与人类病毒基因组匹配的第一reads集;滑动切割:将上述第一reads集中各reads进行滑动切割,得到各reads的子序列,并使用等差数列标记编号,得到上述子序列组成的第二reads集;短序列比对:将上述第二reads集中各子序列分别与人类参考基因组及人类病毒基因组进行比对,得到第二reads集中各子序列比对到人类参考基因组或人类病毒基因组上的起始位置数据;根据上述位置数据进行聚类分析,确定子序列比对到基因组的区域,并通过基因组位置与对应子序列编号的相关性分析和协方差分析,还原母序列的最佳比对区域,得到一端匹配人类基因组另一端匹配病毒基因组的第三reads集;整合:将上述第三reads集的reads进行整合,计算得到病毒整合至人类基因组的整合位点。上述检测人类基因组病毒整合位点的方法,将同时没有比对到人类基因组及病毒基因组的reads进行滑动切割,将切割后的子序列(或称短序列)重新进行比对,使原本为嵌合reads的序列再切割后能够通过短片段比对上人类基因组或病毒基因组,又考虑到由于序列较短,可能产生错配的问题,通过比对的位置及某条reads分割序列顺序的聚类、相关性及协方差处理,排除干扰,可以准确找出同时比对上人类基因组及病毒基因组的reads。可以理解的,上述滑动切割步骤中,所述等差数列标记编号中,选用公差为1的等差数列编号,即1,2,3,4…k-1,k,k+1…n。上述方法应用于检测新冠病毒(SARS-CoV-2病毒)是否有整合到人类基因组的现象,虽目前仍未有研究报道新冠病毒嵌合到人类基因组的事件,但无法排除这样的可能。在病毒与人类基因组作用机制中,目前已发现RNA病毒可以通过逆转录成cDNA整合到人类基因组的现象,比如RNA逆转录病毒HIV和HBV等,为负义的单链RNA病毒流感病毒,以及正义的单链RNA病毒HCV等(ThebloodDNAviromein8,000humans.PLOSPathogens2017)。而新冠病毒属于正义的单链RNA病毒,存在嵌合到人类基因组的可能。而假如新冠病毒嵌合到人类基因组,可能会产生以下的后果:1)有可能引发不明症状。假如嵌合位点位于一些比较关键的基因或者转录调控区域的话,可能引发其他如癌症等疾病或者其他症状;2)可能会增加病毒的隐匿效果。嵌合到基因组的片段可能会选择性地沉没,等合适的时机再翻译病毒相关的蛋白进行复制及感染等行为;3)可能影响到疫苗的效果。假如疫苗与嵌合的病毒的序列产生相同的抗体的话,疫苗可能在产生不了应有的效果。因此,分析其嵌合位点及相关区域有助于我们了解病毒整合机制及预测后续的可能发生的后果,可为SARS-CoV-2的感染者及医疗人员提供必要预警及指导作用。在其中一个实施例中,所述短序列比对步骤中,获取可比对到人类参考基因组或人类病毒基因组的子序列编号,按照每条reads中子序列的比对编号及比对到基因组的起始位置进行排序,通过相关性及聚类分析结果,得到一端匹配人类基因组另一端匹配病毒基因组的reads。在其中一个实施例中,所述短序列比对步骤中,所述聚类分析为:根据某一reads子序列比对到人类参考基因组或人类病毒基因组上的起始位置数据,按照各子序列比对到人类参考基因组或人类病毒基因组上的起始位置从小到大排序后,相邻两起始位置之间最大差值≤5进行聚类分析。优选的,上述最大差值≤3。更优选的,上述最大差值为1,即进行严格匹配。上述最大差值为大于0的自然数。可以理解的,在人类基因组中存在SNP(单核苷酸多态性)、碱基插入、缺失等现象,在病毒基因组中也存在变异发生,实际样本检测得到的数据可能存在无法严格匹配至人类参考基因组的情况,因此在聚类分析时,将子序列比对到人类参考基因组或人类病毒基因组后的位置要求适当放宽,可避免由于SNP、碱基插入、缺失等现象导致无法严格匹配的问题。在其中一个实施例中,所述短序列比对步骤中,将聚类分析后得到的每个聚类的簇,与其对应子序列的编号进行相关性和协方差分析,筛选相关性为1或者-1的聚类的簇,并对相关性和协方差值的绝对值和进行加权计算,根据最大加权值找出每个read对应于人类基因组染色体或人类病毒基因组的最佳比对位置。在其中一个实施例中,当来源本文档来自技高网
...

【技术保护点】
1.一种检测人类基因组病毒整合位点的方法,其特征在于,包括以下步骤:/n基因组比对:获取基因检测得到的数据,将其中reads分别与人类参考基因组及人类病毒基因组进行比对,得到既不能与人类参考基因组匹配,又不能与人类病毒基因组匹配的第一reads集;/n滑动切割:将上述第一reads集中各reads进行滑动切割,得到各reads的子序列,并使用等差数列标记编号,得到上述子序列组成的第二reads集;/n短序列比对:将上述第二reads集中各子序列分别与人类参考基因组及人类病毒基因组进行比对,得到第二reads集中各子序列比对到人类参考基因组或人类病毒基因组上的起始位置数据;根据上述位置数据进行聚类分析,确定子序列比对到基因组的区域,并通过基因组位置与对应子序列编号的相关性分析和协方差分析,还原母序列的最佳比对区域,得到一端匹配人类基因组另一端匹配病毒基因组的第三reads集;/n整合:将上述第三reads集的reads进行整合,计算得到病毒整合至人类基因组的整合位点。/n

【技术特征摘要】
1.一种检测人类基因组病毒整合位点的方法,其特征在于,包括以下步骤:
基因组比对:获取基因检测得到的数据,将其中reads分别与人类参考基因组及人类病毒基因组进行比对,得到既不能与人类参考基因组匹配,又不能与人类病毒基因组匹配的第一reads集;
滑动切割:将上述第一reads集中各reads进行滑动切割,得到各reads的子序列,并使用等差数列标记编号,得到上述子序列组成的第二reads集;
短序列比对:将上述第二reads集中各子序列分别与人类参考基因组及人类病毒基因组进行比对,得到第二reads集中各子序列比对到人类参考基因组或人类病毒基因组上的起始位置数据;根据上述位置数据进行聚类分析,确定子序列比对到基因组的区域,并通过基因组位置与对应子序列编号的相关性分析和协方差分析,还原母序列的最佳比对区域,得到一端匹配人类基因组另一端匹配病毒基因组的第三reads集;
整合:将上述第三reads集的reads进行整合,计算得到病毒整合至人类基因组的整合位点。


2.根据权利要求1所述的检测人类基因组病毒整合位点的方法,其特征在于,所述短序列比对步骤中,获取可比对到人类参考基因组或人类病毒基因组的子序列编号,按照每条reads中子序列的比对编号及比对到基因组的起始位置进行排序,通过相关性及聚类分析结果,得到一端匹配人类基因组另一端匹配病毒基因组的reads。


3.根据权利要求2所述的检测人类基因组病毒整合位点的方法,其特征在于,所述短序列比对步骤中,所述聚类分析为:根据某一reads子序列比对到人类参考基因组或人类病毒基因组上的起始位置数据,按照各子序列比对到人类参考基因组或人类病毒基因组上的起始位置的升序排序后,相邻两起始位置之间最大差值≤5进行聚类分析。


4....

【专利技术属性】
技术研发人员:蒙裕欢关宇佳严慧孟博于世辉
申请(专利权)人:广州市金域转化医学研究院有限公司广州金域医学检验集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1