【技术实现步骤摘要】
考虑肿瘤纯度因素的基因组微卫星广域长度分布估计方法
本专利技术属于以精准医学为应用背景的数据科学
,具体涉及一种考虑肿瘤纯度因素的基因组微卫星广域长度分布估计方法。
技术介绍
基因组微卫星(英文名称:micro-satellite,英文缩写:MS)是由特定的寡核苷酸单元(通常为1-6个核苷酸片段)重复组成的DNA序列,具有长度方面的多样性,通常称为长度分布。微卫星不稳定(英文名称:micro-satelliteinstability,英文缩写:MSI)是指由DNA错配修复系统的缺陷(英文名称:deficientDNAmismatchrepair,英文缩写:dMMR)引起的一种超突变模式,其特征包括微卫星重复序列广泛的长度多样性,以及单核苷酸变异(英文名称:singlenucleotidevariants,英文缩写:SNVs)频率的升高。当同一个微卫星的长度分布在不同的组织样本(如肿瘤组织样本和正常组织样本)之间存在显著差异时,即为微卫星不稳定事件,否则即为微卫星稳定(英文名称:micro-satellitestability,英文缩写:MSS)事件。MSI是 ...
【技术保护点】
1.考虑肿瘤纯度因素的基因组微卫星广域长度分布估计方法,其特征在于,包括以下步骤:S1、定义数据特征并收集统计读段信息,完成数据特征提取;S2、扫描给定的参考基因组序列,找到微卫星候选区域,记录最大重复单位长度为6bp的微卫星,保存其位置及相关序列;利用聚类算法进一步筛选忽略的微卫星候选区域;确定微卫星数目后,对于每个候选微卫星区域,使用基于k‑mer的算法遍历该区域的读段并进行分割,识别微卫星重复单元与断点;S3、通过计算筛选出的SNVs位置的读段计数,估计给定测序样本的肿瘤纯度;S4、对混合样本中短型微卫星进行检测,使用最大似然估计方法估计肿瘤组织微卫星的长度分布参数; ...
【技术特征摘要】
1.考虑肿瘤纯度因素的基因组微卫星广域长度分布估计方法,其特征在于,包括以下步骤:S1、定义数据特征并收集统计读段信息,完成数据特征提取;S2、扫描给定的参考基因组序列,找到微卫星候选区域,记录最大重复单位长度为6bp的微卫星,保存其位置及相关序列;利用聚类算法进一步筛选忽略的微卫星候选区域;确定微卫星数目后,对于每个候选微卫星区域,使用基于k-mer的算法遍历该区域的读段并进行分割,识别微卫星重复单元与断点;S3、通过计算筛选出的SNVs位置的读段计数,估计给定测序样本的肿瘤纯度;S4、对混合样本中短型微卫星进行检测,使用最大似然估计方法估计肿瘤组织微卫星的长度分布参数;S5、利用长型微卫星的平均长度分布反映其整体的长度分布;采用最大期望算法,基于包含微卫星指定窗口的覆盖度估计微卫星的平均长度,然后使用更新后的微卫星平均长度迭代估计指定窗口的覆盖度,循环迭代至收敛,完成检测纯肿瘤样本长型微卫星;S6、采用独立z检验,判定长型肿瘤微卫星状态完成广域长度分布估计。2.根据权利要求1所述的方法,其特征在于,步骤S1中,数据特征为:MS-pair:两个成对的读段,其中一个完美比对,另一个跨越断点;SB-read:MS-pair中跨越断点的读段;PSset:二进制组的集合,由SB-read的初始位置和序列组成,用(POS,SEQ)表示;Sk-mer:前k个碱基组成的序列。3.根据权利要求1所述的方法,其特征在于,步骤S2具体为:S201、读取PSset的比对结果,当PSset中的两个SB-read初始位置之间的距离小于50kbps时,将两个SB-read分配进同一集群;S202、每个集群代表一个候选微卫星区域,识别输入样本的微卫星数量;S203、针对每个微卫星候选区域,从属于SB-read的右端读段中比对进该区域的读段序列的第一个碱基开始,向后选取k个碱基记为初始k-mer,默认k=6,记录其第一个碱基,依次向后,每次后移一个碱基,选取新的k-mer并记录其第一个碱基,并检测新k-mer与初始k-mer序列是否一致;S204、当两个k-mer序列一致时,记录的碱基序列为候选重复单元,该碱基序列的第一个碱基位置为微卫星的候选断点;S205、对其他候选微卫星区域的所有读段进行相同的操作。4.根据权利要求1所述的方法,其特征在于,步骤S4具体为:S401、给定一个混合的正常-肿瘤测序样本,正常细胞占比(1-c)%,肿瘤细胞占比c%,以及混合正常-肿瘤测序样本中的一个短型微卫星区域,统计该微卫星所有不同长度的支持读段数量;S402、根据支持读段数量以及支持的长度值,获得微卫星区域的长度数值集合L={l1,l2,...,lN},L是从两个相互独立且同时服从不同正态分布的样本中随机抽取出长度数据集,L中的数据有(1-c)%的概率为正常组织微卫星的长度数据,c%的概率为肿瘤组织微卫星的长度数据;S403、给定一个短型微卫星区域,当其属于正常组织时,令其长度服从正态分布N1(μ1,σ12);当其属于肿瘤组织时,其长度服从正态分布N2(μ2,σ22);该混合微卫星的长度服从密度函数为f=(1-c)f1+cf2的概率分布,其中,f1和f2分别为正态分布N1与N2的密度函数,通过单独检测正常样本可以得到μ1与σ1的值;S404、基于估计得到的肿瘤样本微卫星的长度分布参数,与正常样本微卫星的长度数据,通过z检验以判定短型微卫星的稳定性。5.根据权利要求4所述的方法,其特征在于,步骤S403中,使用最大似然估计方法可以获得μ2与σ2的估计值,似然函数为微卫星长度的联合概率密度函数:其中,L={l1,l2,...,lN}是该混合微卫星的长度数据集合,N是该长度集合的大小;最大化微卫星长度的联合...
【专利技术属性】
技术研发人员:王嘉寅,王以瑄,张选平,闫新兴,冯旋,赵仲孟,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。