A phenotype genotype correlation discrete decision tree data processing method and system based on the processing method comprises the following steps: collecting phenotypic and genotypic data; the phenotypic and genotypic data were normalized by standard data; the standard data detection and processing of discrete, discrete data the discrete decision tree algorithm; correlation processing of discrete data, get the target data; the target data visualization. The phenotype genotype correlation discrete decision tree based data processing method by phenotypic and genotypic data collected by the discrete processing and discrete data, then using discrete correlation decision tree algorithm to deal with the discrete data, can be used to obtain the target data, visual display that can overcome the traditional treatment methods because of the large sample data of single memory limit problems, and improve the efficiency of data processing and analysis.
【技术实现步骤摘要】
基于离散关联决策树的表型-基因型的数据处理方法和系统
本专利技术涉及表型-基因型的数据处理
,特别是涉及一种基于离散关联决策树的表型-基因型的数据处理方法和系统。
技术介绍
目前,随着基因测序价格越来越低,越来越多的基因数据将积累起来,基因技术对健康的影响,正演变成计算和分析的能力问题。随着基因测序技术的革新、生物医学分析技术的进步以及大数据分析工具的出现,这些正成为推动精准医疗的核心力量。而如何及时获取、结构化整合、快速分析这些数据,并与临床数据相结合,正成为当前首要解决的问题。尤其是一些采用单机形式进行工作分析工具,其通常选取小样本数据进行处理分析,较难突破大样本数据单机内存的上限,即数据处理分析效率较低。举一个例子对上述问题进行说明,Plink是一个开放且免费的全基因组关联分析工具,其分析的基础是基因型和表型数据,并进行显著性水平调解,从而选择出与疾病关联的治病基因。通过整合gplink和Haploview,即通过link-gPLINK-Haploview,使得分析结果变得可视化。然而,导致Plink无法突破大样本单机内存的上限,即数据处理分析效率较低,无法满足大数据大队列研究。
技术实现思路
基于此,有必要提供一种处理分析效率较高的基于离散关联决策树的表型-基因型的数据处理方法和系统。一种基于离散关联决策树的表型-基因型的数据处理方法,包括如下步骤:步骤S10,采集表型数据和基因型数据;步骤S20,将所述表型数据和所述基因型数据进行标准化处理,得到标准化数据;步骤S30,将所述标准化数据进行检测和离散处理,得到离散数据;步骤S40,采用离散关联决 ...
【技术保护点】
一种基于离散关联决策树的表型‑基因型的数据处理方法,其特征在于,包括如下步骤:步骤S10,采集表型数据和基因型数据;步骤S20,将所述表型数据和所述基因型数据进行标准化处理,得到标准化数据;步骤S30,将所述标准化数据进行检测和离散处理,得到离散数据;步骤S40,采用离散关联决策树算法对所述离散数据进行处理,得到目标数据;步骤S50,将所述目标数据进行可视化展示。
【技术特征摘要】
1.一种基于离散关联决策树的表型-基因型的数据处理方法,其特征在于,包括如下步骤:步骤S10,采集表型数据和基因型数据;步骤S20,将所述表型数据和所述基因型数据进行标准化处理,得到标准化数据;步骤S30,将所述标准化数据进行检测和离散处理,得到离散数据;步骤S40,采用离散关联决策树算法对所述离散数据进行处理,得到目标数据;步骤S50,将所述目标数据进行可视化展示。2.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法,其特征在于,在步骤S10中,采用接口传输方式、文件交换方式、数据上传方式和/或基因芯片方式采集所述表型数据和所述基因型数据。3.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法,其特征在于,在步骤S10中,还对采集得到的所述表型数据和所述基因型数据进行存储。4.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法,其特征在于,在步骤S20中,所述标准化处理包括对所述表型数据和所述基因型数据进行清洗处理、缺失值检测处理、缺失值补充处理、单位换算处理、与国家标准统一化处理以及与行业标准化统一处理。5.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法,其特征在于,在步骤S30中,采用离群点检测方式、聚类方式和/或自动分类方式对所述标准化数据进行检测和离散处理。6.根据权利要求1所述的基于离散关联决策树的表型-基因型...
【专利技术属性】
技术研发人员:曹诗琴,
申请(专利权)人:北京光大隆泰科技有限责任公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。