【技术实现步骤摘要】
激活区域识别方法及装置、存储介质及电子设备
本公开涉及数据处理
,具体而言,涉及一种激活区域识别方法及装置、计算机可读存储介质及电子设备。
技术介绍
在治疗疾病的过程中往往会出现相同用药,效果差异较大的情况,这种情况的出现很大程度上是由于个体之间的遗传基因不同。为了能够更好的针对不同个体进行治疗,研究者不断研究如何在大量的遗传数据中进行变异检测。目前的变异检测通常依赖于GenomeAnalysisToolKit(GATK)这种算法。这种算法先识别激活区域,然后重比对序列到参考基因组,最终基于贝叶斯模型计算数据点的基因型概率从而识别变异。然而,通过这种方法进行变异检测往往会出现检测速度较低,耗时较高的问题。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种激活区域识别方法及装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服变异检测速度较低,耗时较高的问题。本公开 ...
【技术保护点】
1.一种激活区域识别方法,其特征在于,包括:/n获取待识别数据与预设遗传数据的比对数据,并根据预设规则对所述比对数据进行分块以获取分块后的数据块;/n以并行方式对各所述数据块按照预设窗口长度进行遍历以计算所述预设遗传数据中的数据点是激活点的概率值;/n分别对各窗口内的所有所述概率值进行平滑处理以获取各所述窗口对应的概率曲线,并根据所述概率曲线识别各所述窗口内的激活区域。/n
【技术特征摘要】
1.一种激活区域识别方法,其特征在于,包括:
获取待识别数据与预设遗传数据的比对数据,并根据预设规则对所述比对数据进行分块以获取分块后的数据块;
以并行方式对各所述数据块按照预设窗口长度进行遍历以计算所述预设遗传数据中的数据点是激活点的概率值;
分别对各窗口内的所有所述概率值进行平滑处理以获取各所述窗口对应的概率曲线,并根据所述概率曲线识别各所述窗口内的激活区域。
2.根据权利要求1所述的方法,其特征在于,所述预设规则包括染色体规则和预设分块值;
所述根据预设规则对所述比对数据进行分块以获取分块后的数据块,包括:
根据预设遗传数据所在的染色体对所述比对数据进行划分得到各染色体对应的染色体数据;
根据预设分块值对各所述染色体数据分块以获取至少一个数据块。
3.根据权利要求2所述的方法,其特征在于,所述预设分块值包括预设分块长度或预设分块数量。
4.根据权利要求1所述的方法,其特征在于,对各所述数据块按照预设窗口长度进行遍历以计算所述预设遗传数据中的数据点是激活点的概率值,包括:
通过预设工具在各所述数据块对应的预设遗传数据中查找第一个被待识别数据覆盖的第一数据点;
从各所述数据块对应的所述第一数据点开始,以预设窗口长度遍历各所述数据块以计算各所述数据点对应的概率值。
5.根据权利要求4所述的方法,其特征在于,所述计算各所述数据点对应的概率值,包括:
计算各所述数据点上覆盖的所有所述待识别数据与预设遗传数据匹配度;
计算各所述数据点对应匹配度的平均值,并将所述平均值配置为各所述数据点为激活点的概率值。
6.根据权利要求1所述的方法,其特征在于,所述分别对各窗口内的所有所述概率值进行平滑处理以获取各所述窗口对应的概率曲线,包括:
分别对各所述窗口内的所有所述概率值并行执行平滑处理,以获取所...
【专利技术属性】
技术研发人员:赵俊涛,蔡怡然,沈一鸣,
申请(专利权)人:南京医基云医疗数据研究院有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。