【技术实现步骤摘要】
一种探测单核苷酸突变的方法及装置
本专利技术涉及核酸序列分析
,具体涉及一种探测单核苷酸突变的方法及装置。
技术介绍
随着二代测序技术的发展,在高通量全基因组或全外显子组测序数据分析中,单碱基位点突变(Singlenucleotidevariation,SNV)的探测是一个关键且要求高精准度的问题。遗传性点突变(SingleNucleatidePolymorphism,SNP)的探测可以用来发现物种基因型和表型的遗传规律;在肿瘤或病变组织数据中,体细胞突变位点(SomaticSingleNucleatideVariation,SSNV)检测在此基础上又给单碱基位点突变问题提出了更高的要求。现有技术会计算突变点附近的支持突变碱基的序列数量,这些序列的比对质量,正负链情况,以及测序的错误率等信息,计算突变纯合或杂合基因型质量值。现有技术有以下缺点:缺点一:各种技术的统计模型速度慢;缺点二:没采用机器学习的方法,性能提升有限,只通过统计信息,和根据统计信息计算的基因型质量值,这些信息对精度提升有限;总之,目前主流的技术探测单核苷酸突变的速度慢,同一套数据各个算法得 ...
【技术保护点】
1.一种探测单核苷酸突变的方法,其特征在于,包括以下步骤:步骤(11)将待测样本的测序数据和参考序列进行比对,得到第一比对结果;步骤(12)提取第一比对结果中的单核苷酸突变的特征向量,得到第一特征向量集合,所述第一特征向量集合中含有待测样本的测序数据相对参考序列的变异位置和待测样本的测序数据中各碱基的数量;步骤(13)根据所述第一特征向量集合利用机器学习模型探测所述待测样本的单核苷酸突变的位点;其中,所述机器学习模型通过以下步骤构建:步骤(21)将标准样本的测序数据和所述参考序列进行比对,得到第二比对结果;步骤(22)提取第二比对结果中的单核苷酸突变的特征向量,得到第二特征 ...
【技术特征摘要】
1.一种探测单核苷酸突变的方法,其特征在于,包括以下步骤:步骤(11)将待测样本的测序数据和参考序列进行比对,得到第一比对结果;步骤(12)提取第一比对结果中的单核苷酸突变的特征向量,得到第一特征向量集合,所述第一特征向量集合中含有待测样本的测序数据相对参考序列的变异位置和待测样本的测序数据中各碱基的数量;步骤(13)根据所述第一特征向量集合利用机器学习模型探测所述待测样本的单核苷酸突变的位点;其中,所述机器学习模型通过以下步骤构建:步骤(21)将标准样本的测序数据和所述参考序列进行比对,得到第二比对结果;步骤(22)提取第二比对结果中的单核苷酸突变的特征向量,得到第二特征向量集合,所述第二特征向量集合中含有标准样本的测序数据相对参考序列的变异位置和标准样本的测序数据中各碱基的数量;步骤(23)根据所述第二特征向量集合在标准样本的可靠值序列中标注单核苷酸突变位点,得到标准样本的单核苷酸突变位点集合;步骤(24)利用机器学习方法对所述标准样本的单核苷酸突变位点集合进行模型训练,得到所述机器学习模型。2.根据权利要求1所述的方法,其特征在于,所述步骤(11)还包括:将待测样本的对照样本的测序数据和所述参考序列进行比对,得到第三比对结果;在所述步骤(12)中,根据第三比对结果提取第一比对结果中的单核苷酸突变的特征向量,得到所述第一特征向量集合;所述步骤(21)还包括:将标准样本的对照样本的测序数据和所述参考序列进行比对,得到第四比对结果;在所述步骤(22)中,根据所述第四比对结果提取第二比对结果中的单核苷酸突变的特征向量,得到所述第二特征向量集合。3.根据权利要求1或2所述的方法,其特征在于,单核苷酸的特征向量还包括以下任一种或多种:总覆盖度、支持参考序列碱基覆盖度、支持变异碱基覆盖度、突变频率、单核苷酸多态性数据库、GC含量、噪音的个数统计、噪音的频率统计、突变左右参考序列上数量最多的碱基比例、正链支持参考序列碱基的数目、正链支持变异碱基的数目、负链支持参考序列碱基的数目、负链支持变异碱基的数目、正链支持变异碱基数目和负链支持变异碱基数目的比值、参考序列碱基据距头尾最短距离的均值、参考序列碱基据距头尾最短距离的方差、变异碱基据距头尾最短距离的均值、变异碱基据距头尾最短距离的方差、建库长度均值、建库长度方差、支持参考序列碱基基因序列比对质量平均值、支持参考序列碱基基因序列比对质量方差、支持参考序列碱基质量平均值、支持参考序列碱基质量方差、支持变异碱基基因序列比对质量平均值、支持变异碱基基因序列比对质量方差、支持变异碱基质量平均值、支持变异碱基质量方差、一致性质量、单样本SNP质量、单样本RMS质量、单样本校正的P值、有对照样本两两费歇尔检验的P值、有对照样本两两体细胞评分、有对照样本两两体细胞变异探测分数、信噪比、对信息统计;所述机器学习方法包括以下任一种:朴素贝叶斯法、逻辑回归法、线性回归法、最近邻近法、决策树法、Boosting方法及其变种、SVM支持向量机法、人工神经网络算法;其中,Boosting方法及其变种包含AdaptiveBoosting、GradientBoosting;所述步骤(24)还包括:采用十折交叉验证法测试所述机器学习模型。4.根据权利要求1或2所述的方法,其特征在于,第一比对结果存放在BAM文件中;第二比对结果存放在BAM文件中;待测样本的测序数据的测序平台和测序方法,与标准样本的测序数据的测序平台和测序方法一致。5.根据权利要求1或2所述的方法,其特征在于,在所述步骤(12)中,根据特征设定条件提取第一比对结果中的单核苷酸突变的特征向量;在所述步骤(22)中,根据特征设定条件提取第二比对结果中的单核苷酸突变的特征向量;特征设定条件包括以下任一种或多种:测序质量、测序深度、对照样本中单核苷酸突变出现的频率。...
【专利技术属性】
技术研发人员:凌少平,张忠波,尹龙辉,曹丽华,郝伶童,刘昌灵,徐昭,
申请(专利权)人:志诺维思北京基因科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。