System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及生物信息学,尤其涉及一种基于聚类的常染色体局部单倍型变异分组方法及系统。
技术介绍
1、基因组变异分析是生物信息学领域常用的分析技术。基因组变异的类型主要包括单核苷酸多态性(snp)、短的插入缺失(indel)、短串联重复(str)以及多种大片段的结构变异(sv)等等。基因组变异可以用来分析人群祖源及演化、疾病性状关联、辅助诊断治疗等等。
2、同一条染色单体上多个变异位点基因型的组合称为单倍型。对于人类和大多数物种,每个个体的常染色体为二倍体,基因组同一个变异位点有两个等位基因,同一区域也存在两个单倍型。对于常染色体,由于重组现象的存在,邻近的变异之间存在连锁不平衡现象(ld),即变异之间存在一定的相关性,且相关性随变异位点之间距离的增加而减弱。因此,基因组局部单倍型的分布并非各个变异位点的随机组合,而是存在特定的组成结构。
3、通常直接检测到的是单个变异位点的二倍体基因型,要想从单个位点的基因型得到一定范围内的两个单倍体的基因型,需要借助一些其它信息和算法的辅助,包括测序序列的拼接、基于人群大样本ld结构的推断、以及家系亲缘关系等,上述多种方式可以结合起来,该过程称为单倍体分型或单倍型估计(phasing)。得到单倍型之后,基于单倍型进行基因组变异分析可以更好地考虑基因组局部的连锁结构以及多位点的联合影响。
4、然而,随着高通量测序技术的发展和全基因组测序数据的积累,检测到大量新的变异位点,导致同样区域内组合起来的单倍型的多样性更高,每种单倍型的频率更低,给单倍型分析带来一定的
技术实现思路
1、本专利技术提供一种基于聚类的常染色体局部单倍型变异分组方法及系统,用以解决大量新的变异位点导致染色体同样区域内组合起来的单倍型的多样性更高,每种单倍型的频率更低,给单倍型分析带来一定的困难的缺陷。
2、本专利技术提供一种基于聚类的常染色体局部单倍型变异分组方法,包括:
3、选定目标染色体的局部区间和局部区间内的变异位点集合;
4、根据选定的局部区间和变异位点集合,得到目标染色体的局部区间的单倍型数据;
5、根据预设聚类规则,对单倍型数据进行聚类分析,得到聚类结果;
6、根据聚类结果,对单倍型数据进行分组,并根据分组结果,定义新的基因型。
7、根据本专利技术提供的一种基于聚类的常染色体局部单倍型变异分组方法,所述根据预设聚类规则,对单倍型数据进行聚类分析,得到聚类结果,具体为:
8、根据单倍型数据中每个单倍型之间的差异距离,对单倍型数据进行聚类分析,得到聚类结果。
9、根据本专利技术提供的一种基于聚类的常染色体局部单倍型变异分组方法,所述根据单倍型数据中每个单倍型之间的差异距离,对单倍型数据进行聚类分析,得到聚类结果,包括:
10、根据单倍型之间存在差异的变异位点,得到单倍型之间的差异距离值;
11、根据单倍型之间的差异距离值,对单倍型数据进行聚类分析,得到聚类簇聚类结果或树形结构聚类结果。
12、根据本专利技术提供的一种基于聚类的常染色体局部单倍型变异分组方法,所述根据单倍型之间存在差异的变异位点,得到单倍型之间的差异距离值,具体为:
13、得到单倍型之间对应变异位点的基因型之间的差异距离,通过第一表达式,得到单倍型之间的差异距离值,其中,第一表达式为:
14、
15、第一表达式中,dj,k表示单倍型j和单倍型k之间的差异距离值,βi表示单倍型j和单倍型k之间第i个变异位点的权重,dijk表示单倍型j和单倍型k之间第i个变异位点的差异距离,即是否存在差异,0表示无差异,1表示有差异,i=1,2,3,…,n表示变异位点的编号,n表示变异位点的数量。
16、根据本专利技术提供的一种基于聚类的常染色体局部单倍型变异分组方法,所述根据单倍型之间存在差异的变异位点,得到单倍型之间的差异距离值,具体为:
17、得到单倍型之间对应变异位点的基因型之间的差异距离,通过第二表达式,得到单倍型之间的差异距离值,其中,第二表达式为:
18、
19、第二表达式中,d′j,k表示单倍型j和单倍型k之间的差异距离值,βi表示单倍型j和单倍型k之间第i个变异位点的权重,dijk表示单倍型j和单倍型k之间第i个变异位点的差异距离,即是否存在差异,0表示无差异,1表示有差异,i=1,2,3,…,n表示变异位点的编号,n表示变异位点的数量。
20、根据本专利技术提供的一种基于聚类的常染色体局部单倍型变异分组方法,所述根据聚类结果,对单倍型数据进行分组,包括:
21、当聚类结果为聚类簇聚类结果时,直接根据聚类簇聚类结果对单倍型数据进行分组;
22、当聚类结果为树形结构聚类结果时,选定树形结构的任意层次或分支作为分组依据,并对单倍型数据进行分组。
23、根据本专利技术提供的一种基于聚类的常染色体局部单倍型变异分组方法,所述根据选定的局部区间和变异位点集合,得到目标染色体的局部区间的单倍型数据,包括:
24、对变异位点的二倍体基因型数据进行单倍体分型处理,得到单倍型数据,其中,一个个体的所有变异位点的二倍体基因型可组合得到两个单倍型。
25、根据本专利技术提供的一种基于聚类的常染色体局部单倍型变异分组方法,所述根据分组结果,定义新的基因型,包括:
26、根据单倍型的分组结果,重新定义每个个体在该局部区间的基因型。
27、在一种实施例中,对于每个分组,可以把属于该分组的单倍型定义为1型,不属于该分组的单倍型定义为0型。进一步的,对于一个个体的两个单倍型,若两个单倍型都不属于该分组,则基因型为0(0/0),若有一个单倍型属于该分组,则基因型为1(0/1),若两个单倍型都属于该分组,则基因型为2(1/1)。
28、本专利技术还提供一种基于聚类的常染色体局部单倍型变异分组系统,包括:
29、选定模块,用于:选定目标染色体的局部区间和局部区间内的变异位点集合;
30、数据获取模块,用于:根据选定的局部区间和变异位点集合,得到目标染色体的局部区间的单倍型数据;
31、聚类模块,用于:根据预设聚类规则,对单倍型数据进行聚类分析,得到聚类结果;
32、分组模块,用于:根据聚类结果,对单倍型数据进行分组,并根据分组结果,定义新的基因型。
33、本专利技术还提供一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现上述任一种所述的基于聚类的常染色体局部单倍型变异分组方法。
34、本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一种所述的基于聚类的常染色本文档来自技高网...
【技术保护点】
1.一种基于聚类的常染色体局部单倍型变异分组方法,其特征在于,包括:
2.根据权利要求1所述的基于聚类的常染色体局部单倍型变异分组方法,其特征在于,所述根据预设聚类规则,对单倍型数据进行聚类分析,得到聚类结果,具体为:
3.根据权利要求2所述的基于聚类的常染色体局部单倍型变异分组方法,其特征在于,所述根据单倍型数据中每个单倍型之间的差异距离,对单倍型数据进行聚类分析,得到聚类结果,包括:
4.根据权利要求3所述的基于聚类的常染色体局部单倍型变异分组方法,其特征在于,所述根据单倍型之间存在差异的变异位点,得到单倍型之间的差异距离值,具体为:
5.根据权利要求3所述的基于聚类的常染色体局部单倍型变异分组方法,其特征在于,所述根据单倍型之间存在差异的变异位点,得到单倍型之间的差异距离值,具体为:
6.根据权利要求3所述的基于聚类的常染色体局部单倍型变异分组方法,其特征在于,所述根据聚类结果,对单倍型数据进行分组,包括:
7.根据权利要求1-6任一项所述的基于聚类的常染色体局部单倍型变异分组方法,其特征在于,所述根据
8.一种基于聚类的常染色体局部单倍型变异分组系统,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的基于聚类的常染色体局部单倍型变异分组方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于聚类的常染色体局部单倍型变异分组方法。
...【技术特征摘要】
1.一种基于聚类的常染色体局部单倍型变异分组方法,其特征在于,包括:
2.根据权利要求1所述的基于聚类的常染色体局部单倍型变异分组方法,其特征在于,所述根据预设聚类规则,对单倍型数据进行聚类分析,得到聚类结果,具体为:
3.根据权利要求2所述的基于聚类的常染色体局部单倍型变异分组方法,其特征在于,所述根据单倍型数据中每个单倍型之间的差异距离,对单倍型数据进行聚类分析,得到聚类结果,包括:
4.根据权利要求3所述的基于聚类的常染色体局部单倍型变异分组方法,其特征在于,所述根据单倍型之间存在差异的变异位点,得到单倍型之间的差异距离值,具体为:
5.根据权利要求3所述的基于聚类的常染色体局部单倍型变异分组方法,其特征在于,所述根据单倍型之间存在差异的变异位点,得到单倍型之间的差异距离值,具体为:
6.根据权利要求...
【专利技术属性】
技术研发人员:张鹏,陈润生,何顺民,郝頔,王晓娜,宋廷瑞,
申请(专利权)人:北京睿博解码生物科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。