当前位置: 首页 > 专利查询>云南大学专利>正文

基于集成学习的全球人类mtDNA发育树分类查询方法技术

技术编号:17994864 阅读:69 留言:0更新日期:2018-05-19 12:02
本发明专利技术公开了一种基于集成学习的全球人类mtDNA发育树分类查询方法,采用人工测得的mtDNA数据训练神经网络分类器,采用mtDNA发育树数据计算朴素贝叶斯分类器的参数,将待分类查询的mtDNA的变异位点序列输入神经网络分类器,得到前Q个可能分类,将待分类查询的mtDNA的变异位点序列和前Q个可能分类的所对应的变异位点序列合并得到朴素贝叶斯分类器的输入变异位点序列,并计算得到该输入变异位点序列中各个变异位点的权重,通过朴素贝叶斯分类器得到前Q个可能分类,然后将两组Q个可能分类的概率进行加权,得到前Q个可能分类作为最终分类结果。本发明专利技术综合利用神经网络分类器和朴素贝叶斯分类器的优势,提高了全球人类mtDNA发育树分类查询的正确率。

Global human mtDNA development tree classification query method based on Ensemble Learning

The invention discloses a global human mtDNA development tree classification query method based on integrated learning. The artificial mtDNA data is used to train the neural network classifier, and the parameters of the simple Bias classifier are calculated by using the mtDNA development tree data, and the variable point sequence of the classified mtDNA is input into the neural network classifier. The possible taxonomy of the previous Q is obtained. The sequence of the variant loci of the mtDNA in the classified query and the sequence of the corresponding mutation loci in the previous Q classifications is merged to get the input variable point sequence of the simple Bias classifier, and the weight of the variation loci in the input variable point sequence is calculated by the simple Bias classification. The former Q may be classified, and then the probability of two groups of Q classifications can be weighted to get the first Q possible classification as the final classification result. The invention comprehensively utilizes the advantages of the neural network classifier and the simple Bias classifier to improve the accuracy of the global mtDNA tree classification query.

【技术实现步骤摘要】
基于集成学习的全球人类mtDNA发育树分类查询方法
本专利技术属于机器学习
,更为具体地讲,涉及一种基于集成学习的全球人类mtDNA发育树分类查询方法。
技术介绍
我国是一个人口众多的国家,基于这样的大国基数,并且在历史的长河中各地域不断的交流融合,以及基于地缘关系的隔离和迁徙,逐渐形成了我国多民族的人口特色,为研究者提供了丰富多样的基因宝库。但是如何利用这样的基因宝库来研究人类起源,迁徙,发展以及遗传结构是我们面临的一个问题。对于各族的起源、迁徙和进化的研究不仅是大的科学问题,还涉及到对各自民族的自我认同,都具有重要的人文内涵。从生物学角度来说,不同种族、不同民族、同一个种族但不属于同一群体之间的差别,其实也可以说成是DNA分子的不同。原因在于线粒体基因组(mtDNA)的改变速度比核DNA快10~20倍,并且具有母系遗传、缺乏重组、mtDNA分子呈环状结构、不易分解等特点,所以可以通过分析这些差异来探讨不同人群的源流和迁移情况,而mtDNA也是在探讨不同人群间的血缘关系和不同人群内遗传分化的一个好的遗传标识。二十世纪末,随着专家对起源问题的深入研究,mtDNA问题逐渐进入了相本文档来自技高网...
基于集成学习的全球人类mtDNA发育树分类查询方法

【技术保护点】
一种基于集成学习的全球人类mtDNA发育树分类查询方法,其特征在于,包括以下步骤:S1:人工测得若干mtDNA数据,每条数据包含mtDNA的变异位点序列及对应的最有可能的分类,然后获取全球人类mtDNA发育树数据,包括分类信息及每个分类对应的mtDNA变异位点序列;S2:采用mtDNA数据中的变异位点序列作为输入,对应分类作为期望输出,训练得到神经网络分类器;S3:采用mtDNA发育树数据计算得到朴素贝叶斯分类器的参数,包括第i个分类targeti出现的概率P(targeti)、第j个变异位点mutationj在第i个分类targeti中出现的概率P(mutationj|targeti),i=...

【技术特征摘要】
1.一种基于集成学习的全球人类mtDNA发育树分类查询方法,其特征在于,包括以下步骤:S1:人工测得若干mtDNA数据,每条数据包含mtDNA的变异位点序列及对应的最有可能的分类,然后获取全球人类mtDNA发育树数据,包括分类信息及每个分类对应的mtDNA变异位点序列;S2:采用mtDNA数据中的变异位点序列作为输入,对应分类作为期望输出,训练得到神经网络分类器;S3:采用mtDNA发育树数据计算得到朴素贝叶斯分类器的参数,包括第i个分类targeti出现的概率P(targeti)、第j个变异位点mutationj在第i个分类targeti中出现的概率P(mutationj|targeti),i=1,2,…,T,T表示分类数量,j=1,2,…,M,M表示变异位点数量;S4:将待分类查询的mtDNA的变异位点序列mutationsc输入神经网络分类器,得到前Q个可能分类,记该变异位点序列mutationsc属于这Q个可能分类的概率为αq,查询得到这Q个可能分类对应的变异位点序列其中q=1,2,…,Q;将待分类查询的变异位点序列mutationsc与神经网络分类器前Q个可能分类所对应的变异位点序列合并得到变异位点序列mutations′c,计算变异位点序列mutations′c中各个变异位点的权重ωd:其中,d=1,2,…,D,D表示变异位点序列mutations′c中第d个变异位点,βd,c表示变异位点序列mutations′c中第d个变异位点是否属于变异位点序列mutationsc,如果是βd,c=1,否则βd,c=0;βd,q表示变异位点序列mutations′c中第d个变异位点是否属于Q个可能分类中第q个分类,如果是βd,q=1,否则βd,q=0;将变异位点序列mutations′c及D个权重ωd输入朴素贝叶斯分类器,根据以下公式计算每个分类targeti对应的分类评价值Ri:

【专利技术属性】
技术研发人员:周维彭旻晟贾俊燕王文智向文坤张亚平
申请(专利权)人:云南大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1