一种基于聚类的常染色体局部单倍型变异分组方法及系统技术方案

技术编号:40318882 阅读:16 留言:0更新日期:2024-02-07 21:02
本发明专利技术涉及生物信息学技术领域,公开一种基于聚类的常染色体局部单倍型变异分组方法及系统,包括:选定目标染色体的局部区间和局部区间内的变异位点集合;根据选定的局部区间和变异位点集合,得到目标染色体的局部区间的单倍型数据;根据预设聚类规则,对单倍型数据进行聚类分析,得到聚类结果;根据聚类结果,对单倍型数据进行分组,并根据分组结果,定义新的基因型。本发明专利技术综合考虑了基因组局部区间的多个变异的组合与分布情况,同时通过聚类分组把相似的单倍型有机整合,避免了变异位点越多,每种单倍型频率越低的不利因素,有效优化基因组单倍型分析技术。

【技术实现步骤摘要】

本专利技术涉及生物信息学,尤其涉及一种基于聚类的常染色体局部单倍型变异分组方法及系统


技术介绍

1、基因组变异分析是生物信息学领域常用的分析技术。基因组变异的类型主要包括单核苷酸多态性(snp)、短的插入缺失(indel)、短串联重复(str)以及多种大片段的结构变异(sv)等等。基因组变异可以用来分析人群祖源及演化、疾病性状关联、辅助诊断治疗等等。

2、同一条染色单体上多个变异位点基因型的组合称为单倍型。对于人类和大多数物种,每个个体的常染色体为二倍体,基因组同一个变异位点有两个等位基因,同一区域也存在两个单倍型。对于常染色体,由于重组现象的存在,邻近的变异之间存在连锁不平衡现象(ld),即变异之间存在一定的相关性,且相关性随变异位点之间距离的增加而减弱。因此,基因组局部单倍型的分布并非各个变异位点的随机组合,而是存在特定的组成结构。

3、通常直接检测到的是单个变异位点的二倍体基因型,要想从单个位点的基因型得到一定范围内的两个单倍体的基因型,需要借助一些其它信息和算法的辅助,包括测序序列的拼接、基于人群大样本ld结构的推断、以及本文档来自技高网...

【技术保护点】

1.一种基于聚类的常染色体局部单倍型变异分组方法,其特征在于,包括:

2.根据权利要求1所述的基于聚类的常染色体局部单倍型变异分组方法,其特征在于,所述根据预设聚类规则,对单倍型数据进行聚类分析,得到聚类结果,具体为:

3.根据权利要求2所述的基于聚类的常染色体局部单倍型变异分组方法,其特征在于,所述根据单倍型数据中每个单倍型之间的差异距离,对单倍型数据进行聚类分析,得到聚类结果,包括:

4.根据权利要求3所述的基于聚类的常染色体局部单倍型变异分组方法,其特征在于,所述根据单倍型之间存在差异的变异位点,得到单倍型之间的差异距离值,具体为:

...

【技术特征摘要】

1.一种基于聚类的常染色体局部单倍型变异分组方法,其特征在于,包括:

2.根据权利要求1所述的基于聚类的常染色体局部单倍型变异分组方法,其特征在于,所述根据预设聚类规则,对单倍型数据进行聚类分析,得到聚类结果,具体为:

3.根据权利要求2所述的基于聚类的常染色体局部单倍型变异分组方法,其特征在于,所述根据单倍型数据中每个单倍型之间的差异距离,对单倍型数据进行聚类分析,得到聚类结果,包括:

4.根据权利要求3所述的基于聚类的常染色体局部单倍型变异分组方法,其特征在于,所述根据单倍型之间存在差异的变异位点,得到单倍型之间的差异距离值,具体为:

5.根据权利要求3所述的基于聚类的常染色体局部单倍型变异分组方法,其特征在于,所述根据单倍型之间存在差异的变异位点,得到单倍型之间的差异距离值,具体为:

6.根据权利要求...

【专利技术属性】
技术研发人员:张鹏陈润生何顺民郝頔王晓娜宋廷瑞
申请(专利权)人:北京睿博解码生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1