基于微生物组测序数据和机器学习算法的死亡时间推断方法技术

技术编号:24325429 阅读:28 留言:0更新日期:2020-05-29 17:57
本发明专利技术公开了一种基于微生物组测序数据和机器学习算法的死亡时间推断方法,以提取自小鼠尸体的盲肠样本中的DNA为模板,针对微生物的16S rDNA设计引物进行PCR扩增,利用扩增产物建立基因文库并测序。对有效测序数据进行OTUs聚类和物种分类分析。基于物种的丰度分布情况去除相对丰度及组间方差变化小的物种分类,提取得到用来建立死亡时间推断模型的特征微生物种类,利用小鼠死亡后不同时间点的样本微生物丰度数据训练人工神经网络,得到可以准确预测死亡时间的数学模型。

Dead time estimation based on microbiome sequencing data and machine learning algorithm

【技术实现步骤摘要】
基于微生物组测序数据和机器学习算法的死亡时间推断方法
本专利技术属于医学检验领域,特别涉及一种推断死后间隔时间的方法。
技术介绍
死亡时间(postmorteminterval,PMI)通常指的是死亡发生时至尸体检验时的时间跨度,也可以称为死后间隔时间或死后经历时间。准确地推断PMI可以协助办案人员确定侦查方向、确认或排除犯罪嫌疑人、估计案发时间以及重建犯罪现场。此外,PMI推断在某些民事纠纷如保险理赔、财产纠纷等案件中也扮演着极其重要的角色。微生物结构简单、生长和繁殖更为迅速;同时,很大一部分微生物群落为机体死前自身携带的,所以初始种群受外界因素干扰较小。在高通量测序技术不断发展及推动下,微生物组学的研究也越来越深入,国内外研究学者发现,在机体死亡后微生物群落会出现可重复的、与环境及时间相关的动态变化,因此可以用于PMI的推断。目前已有一些有关尸体微生物集聚、变迁规律的探索性研究,并有学者提出可以将零散的人体死后微生物组研究逐渐扩展到人体死后微生物组计划(humanpostmortemmicrobiomeproject,HPMP),即是对整个尸体内部和外部整个微生物群落的演替过程开展研究,通过大数据的方式分析数亿万计微生物的入侵、定植、繁殖和死亡规律,阐明微生物群落组成的时空变化情况。随着PMI推断研究的不断深入,多影响因素的参与以及多方法、多指标的联合应用,势必产生海量数据。尤其是运用多组学的方法产生的数以百万或千万级数据变量,而且不同变量之间又有着复杂的关系,以至于难以用传统的数学模型加以分析。近些年国外研究学者尝试将死后微生物组学数据结合k-neighborsregressor模型进行死亡时间推断,但是其在死亡后15天内推测误差达到两天左右。这一结果使得将其模型应用到法医病理学检案的实践中还有很大距离,目前亟待提出一种推断死亡时间的方法,以降低死亡时间推断的误差。中国专利CN110241190A提出了一种获得小鼠死亡时间间隔的方法,建立了5个在不同分类水平的微生物相对丰度与死亡时间的线性回归方程。但是其仍旧采用了目前通行的先分析相关微生物,再建立特定微生物与死亡间隔时间关系的模型,选择微生物的标准没有泛用性,且筛选出的五类微生物都在门、纲、目及属的水平;同时,取样时间间隔也较为宽泛,降低了预测结果的可信度。其次,该专利采用的数学模型是一元线性回归模型,难以避免生物体死后尸体组织微生物构成及丰度复杂多样的变化对预测模型准确性、有效性的影响,制约了其实际应用。
技术实现思路
本专利技术的目的在于提供一种基于微生物组测序数据和机器学习算法的死亡时间推断方法。为达到上述目的,本专利技术采用了以下技术方案:该死亡时间推断方法,包括以下步骤:1)提取人或动物死亡后不同时间点采集的个体尸体组织的样本中所含DNA,以该DNA为模板,通过PCR扩增包含微生物种属特征序列的目的片段,以不同时间点(例如,死后0小时、8小时、12小时、1天、2天、4天、7天、10天、13天,及15天)采集的同一类别组织的样本所对应的扩增目的片段建立基因文库并进行目的片段测序;2)根据目的片段的序列相似性对不同时间点采集的样本分别进行OTU聚类,获得所有样本中所含DNA的OTU分类和各类OTU对应的相对丰度数据,根据各OTU对应的相对丰度,以在所有样本中稳定存在且随时间变化为原则,筛选获得用于建立死亡时间推断数学模型的特征分类集合;3)依据所述特征分类集合建立样本数据集,利用该样本数据集对基于人工神经网络的死亡时间-特征分类回归模型进行训练,得到死亡时间推断数学模型。优选的,所述死亡时间推断方法还包括以下步骤:对待测个体(与训练模型时的个体同物种)的尸体中与所述尸体组织具有相同类别的组织进行DNA提取,然后利用提取的DNA并按照步骤1)(扩增和测序)和步骤2)(聚类和筛选)获得针对该组织的OTU分类,将获得的各OTU的对应相对丰度输入所述死亡时间推断数学模型,得到待测个体的死亡时间预测结果(即输出待测个体的死亡时间推断结果)。优选的,所述尸体组织的类别选自肠道(例如,盲肠)、脑或心脏。优选的,所述目的片段包含16SrDNA中V3和V4可变区的基因序列。优选的,所述步骤2)中,特征分类的筛选包括以下步骤:首先,去除在各时间点采集获得的60%以上样本中相对丰度为0的OTU,然后去除在所有样本中相对丰度低于3的OTU,最后去除在不同时间点的样本间相对丰度的方差最小的20%所对应的OTU,得到第一特征分类集合。优选的,所述特征分类的筛选还包括以下步骤:对于第一特征分类集合,从其中通过人工智能机器学习算法选择特征分类子集,通过在每个机器学习的算法模型上重复运行多次,计算所选择的OTU的秩的加和结果,按照秩的加和结果对不同机器学习算法选择的OTU进行排序,从排序最高的OTU开始,根据选取的不同数量的OTU分别建立样本数据集,并通过人工神经网络计算各样本数据集的预测结果的平均绝对误差,利用平均绝对误差取得最小值时所选取的OTU构建第二特征分类集合。优选的,所述机器学习算法包括支持向量机和随机森林模型。优选的,通过对各类OTU进行微生物种属注释,使得用于建立死亡时间推断数学模型的特征具体化为微生物的种。优选的,所述微生物的种包括Clostridiumcochlearium、Anaerosalibacterbizertensis、ClostriduimtetaniE88、Anaerosalibactermassiliensis和Vagococcusfluvialis。本专利技术的有益效果体现在:本专利技术将基于个体(例如,小鼠等实验用哺乳动物)尸体组织样本不同死亡后时间点的微生物菌群聚类结果(OTUs)参照相对丰度进行筛选,提取得到构建样本数据集的特征分类,以训练样本集训练基于人工神经网络的回归模型,经测试样本集检验,可获得能够准确预测死亡时间的数学模型。本专利技术可以提高法医学死亡时间推断方法的准确性、有效性。进一步的,本专利技术根据聚类结果各自的相对丰度,去除了低相对丰度及组间(分组为不同时间点的组织样本)方差变化小的微生物种,从而提取得到用于建立死亡时间推断数学模型的特征分类集合,可以获得理论上最小的平均绝对误差预测结果。进一步的,本专利技术通过应用支持向量机和随机森林模型进一步提取对死亡时间推断模型贡献大的特征分类,并筛选出一系列在死亡后降解过程中变化、且对提高法医学实践中推断死后间隔时间准确性高度相关的微生物种类。附图说明图1是本专利技术实施例中在盲肠(Cecum)、大脑(Brain)和心脏(Heart)三个数据集(原始特征菌种集)上应用人工神经网络(ANN)、随机森林(RF)及支持向量机(SVM)回归模型运行15次时,小鼠死亡时间预测结果平均绝对误差(MAE)值(A)和拟合优度(R2)值(B)。图2是本专利技术实施例中建立的人工神经网络模型对死亡时间的预测结果;其中,主图显示了所有检测数据的预测结果,左本文档来自技高网
...

【技术保护点】
1.一种死亡时间推断方法,其特征在于:该推断方法包括以下步骤:/n1)提取人或动物死亡后不同时间点采集的个体尸体组织的样本中所含DNA,以该DNA为模板,扩增包含微生物种属特征的目的片段,以不同时间点采集的同一类别组织的样本所对应的扩增目的片段建立基因文库并进行目的片段测序;/n2)根据目的片段的序列相似性对不同时间点采集的样本分别进行OTU聚类,获得所有样本中所含DNA的OTU分类和各OTU对应的相对丰度数据,根据各OTU对应的相对丰度,以在所有样本中稳定存在且随时间变化为原则,筛选获得用于建立死亡时间推断数学模型的特征分类集合;/n3)依据所述特征分类集合建立样本数据集,利用该样本数据集对基于人工神经网络的死亡时间-特征分类回归模型进行训练,得到死亡时间推断数学模型。/n

【技术特征摘要】
1.一种死亡时间推断方法,其特征在于:该推断方法包括以下步骤:
1)提取人或动物死亡后不同时间点采集的个体尸体组织的样本中所含DNA,以该DNA为模板,扩增包含微生物种属特征的目的片段,以不同时间点采集的同一类别组织的样本所对应的扩增目的片段建立基因文库并进行目的片段测序;
2)根据目的片段的序列相似性对不同时间点采集的样本分别进行OTU聚类,获得所有样本中所含DNA的OTU分类和各OTU对应的相对丰度数据,根据各OTU对应的相对丰度,以在所有样本中稳定存在且随时间变化为原则,筛选获得用于建立死亡时间推断数学模型的特征分类集合;
3)依据所述特征分类集合建立样本数据集,利用该样本数据集对基于人工神经网络的死亡时间-特征分类回归模型进行训练,得到死亡时间推断数学模型。


2.根据权利要求1所述一种死亡时间推断方法,其特征在于:所述推断方法还包括以下步骤:对待测个体的尸体中与所述尸体组织具有相同类别的组织进行DNA提取,然后利用提取的DNA并按照步骤1)和步骤2)获得针对该组织的OTU分类,将获得的各OTU的对应相对丰度输入所述死亡时间推断数学模型,得到待测个体的死亡时间预测结果。


3.根据权利要求1或2所述一种死亡时间推断方法,其特征在于:所述尸体组织的类别选自肠道、脑或心脏。


4.根据权利要求1或2所述一种死亡时间推断方法,其特征在于:所述目的片段包含16SrDNA中V3和V4可变区的基因序列。


5.根据权利要求1或2所述一种死亡时间推断方法,其特征在于:所述步骤...

【专利技术属性】
技术研发人员:王振原刘睿娜徐纪茹沈明望顾玥茜
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1