【技术实现步骤摘要】
一种构建生物信息分析参照数据集的方法及系统
本专利技术涉及生物信息分析领域,且更为具体地,涉及一种用于构建生物信息分析参照数据集的方法及系统。
技术介绍
随着测序技术的发展,使得人类可以越来越方便的获取基因组序列,了解自身的遗传信息。很多科学研究表明,人类很多疾病、表型和对药物的反应,都源于个体的遗传背景差异,也就是每个人DNA序列的差异。从2000年人类基因组计划开始,越来越多的人类基因组被破译,这些基因组构成了人类基因组的参考序列。基因检测的直接目的是,通过对个体的基因组进行测序(或者对部分区域测序),获取其和参考基因组DNA水平的序列差异,然后再通过和已有知识库的比对,来预测可能的疾病、表型、药物反应的关联。由于测序的深入,目前可以获得的大量的数据信息,并利用这些数据信息来构件生物信息数据库。已知生物信息数据库种类繁多,一般划分为一次数据库和二次数据库两类。一次数据库包括例如基因组数据库、核酸和蛋白质一级结构序列数据库、以及生物大分子三维空间结构数据库。二次数据库是以一次数据库和文献资料为基础而构建。根据生命科 ...
【技术保护点】
1.一种构建生物信息分析参照数据集的方法,所述方法包括:/n获取多个参照样本的测序数据;/n将所有参照样本的测序数据组成初始参照数据集;/n对所述初始参照数据集进行分类处理,得到两个以上的参照数据子集,所述两个以上的参照数据子集组成参照数据合集;/n将所述任一个参照数据子集作为一个生物信息分析参照数据集。/n
【技术特征摘要】
20181229 CN 20181163870651.一种构建生物信息分析参照数据集的方法,所述方法包括:
获取多个参照样本的测序数据;
将所有参照样本的测序数据组成初始参照数据集;
对所述初始参照数据集进行分类处理,得到两个以上的参照数据子集,所述两个以上的参照数据子集组成参照数据合集;
将所述任一个参照数据子集作为一个生物信息分析参照数据集。
2.根据权利要求1所述的方法,对所述初始参照数据集进行分类处理,得到两个以上的参照数据子集的步骤包括:
根据测序数据影响因素选取特征因子;
根据所述特征因子提取各参照样本的特征数据;
基于各参照样本的特征数据,将具有相似特征数据的参照样本划分为一个参照数据子集,由此得到两个以上的参照数据子集,
其中,
基于所述参照样本的全部测序数据或部分测序数据,提取各参照样本的测序特征数据。
3.根据权利要求2所述的方法,其特征在于,所述特征因子选自以下一个或两个以上:
reads比对质量,GC含量,样本的碱基序列复杂度和样本的基因组局部复杂度。
4.根据权利要求2所述的方法,其特征在于,所述测序数据影响因素选自以下一个或两个以上:
样本保存条件,样本实验条件和测序平台。
5.根据权利要求2所述的方法,所述参照样本的部分测序数据的获取步骤包括:
将所述参照样本的全部测序数据进行分段处理,得到各参照样本的分段数据;
根据所述特征因子获取所述分段数据的特征系数;
判断所述分段数据的特征系数是否超出设定范围,删除特征系数超出所述设定范围的分段数据,保留特征系数在设定范围内的分段数据,从而得到所述参照样本的部分测序数据。
6.根据权利要求2所述的方法,基于各参照样本的特征数据,将具有相似特征数据的参照样本划分为一个参照数据子集的步骤采用直接划分的划分方式或基于设定的参照数据子集数目划分的划分方式。
7.一种构建生物信息分析参照数据集的方法,其对权利要求1~6中任一项所述的生物信息分析参照数据集进行扩容,所述方法包括,
获取新增参照样本的测序数据;
选取权利要求1~6中任一项所述方法构建的生物信息分析参照数据集作为希望扩容的参照数据子集,获取所述希望扩容的参照数据子集的参数,所述参数包括几何中心、数据范围和特征因子;
根据所述希望扩容的参照数据子集的数据范围和特征因子,提取所述新增参照样本对应数据范围的特征数据;
比较所述新增参照样本的特征数据与所述希望扩容的参照数据子集的几何中心的空间距离;
判断所述新增参照样本是否与所述希望扩容的参照数据子集是否存在最小空间距离,当存在最小的空间距离时,将所述新增参照样本的测序数据并入与其具有所述最小的空间距离的希望扩容的参照数据子集,形成扩容后的参考数据子集;
将所述任一个扩容后的参照数据子集作为一个生物信息分析参照数据集。
8.一种由权利要求1~7中任一项所述方法构建的生物信息分析参照数据集。
9.一种生物信息的分析方法,其特征在于,对待检测样本采用权利要求8所述的生物信息分析参照数据集进行分析。
10.一种生物信息的分析方法,其特征在于,对待检测样本采用权利要求8所述的生物信息分析参照数据集进行分析的步骤包括:
获取待检测样本的测序数据;
获取权利要求8所述生物信息分析参照数据集的几何中心;
根据所述生物信息分析参照数据集的数据范围和特征因子,提取所述待检测样本对应数据范围的特征数据;
比较所述待检测样本的特征数据与所述生物信息分析参照数据集的几何中心的空间距离;
获取与所述待检测样本具有最小空间距离的生物信息分析参照数据集,将所述具有最小空间距离的生物信息分析参照数据集作为所述待检...
【专利技术属性】
技术研发人员:王云峰,杜洋,李大为,玄兆伶,王海良,王娟,肖飞,
申请(专利权)人:北京安诺优达医学检验实验室有限公司,安诺优达基因科技北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。