基于离散关联决策树的表型‑基因型的数据处理方法和系统技术方案

技术编号:16886020 阅读:108 留言:0更新日期:2017-12-27 03:49
一种基于离散关联决策树的表型‑基因型的数据处理方法和系统,处理方法包括如下步骤:采集表型数据和基因型数据;将表型数据和基因型数据进行标准化处理,得到标准化数据;将标准化数据进行检测和离散处理,得到离散数据;采用离散关联决策树算法对离散数据进行处理,得到目标数据;将目标数据进行可视化展示。上述基于离散关联决策树的表型‑基因型的数据处理方法,通过将采集的表型数据和基因型数据进行离散处理并得到离散数据后,再采用离散关联决策树算法对离散数据进行处理,用于得到能够进行可视化展示的目标数据,这样,能够克服传统处理方法中由于大样本数据单机内存的上限引发的问题,进而提高了数据处理分析效率。

Processing method genotype phenotype correlation discrete decision tree data and system based on

A phenotype genotype correlation discrete decision tree data processing method and system based on the processing method comprises the following steps: collecting phenotypic and genotypic data; the phenotypic and genotypic data were normalized by standard data; the standard data detection and processing of discrete, discrete data the discrete decision tree algorithm; correlation processing of discrete data, get the target data; the target data visualization. The phenotype genotype correlation discrete decision tree based data processing method by phenotypic and genotypic data collected by the discrete processing and discrete data, then using discrete correlation decision tree algorithm to deal with the discrete data, can be used to obtain the target data, visual display that can overcome the traditional treatment methods because of the large sample data of single memory limit problems, and improve the efficiency of data processing and analysis.

【技术实现步骤摘要】
基于离散关联决策树的表型-基因型的数据处理方法和系统
本专利技术涉及表型-基因型的数据处理
,特别是涉及一种基于离散关联决策树的表型-基因型的数据处理方法和系统。
技术介绍
目前,随着基因测序价格越来越低,越来越多的基因数据将积累起来,基因技术对健康的影响,正演变成计算和分析的能力问题。随着基因测序技术的革新、生物医学分析技术的进步以及大数据分析工具的出现,这些正成为推动精准医疗的核心力量。而如何及时获取、结构化整合、快速分析这些数据,并与临床数据相结合,正成为当前首要解决的问题。尤其是一些采用单机形式进行工作分析工具,其通常选取小样本数据进行处理分析,较难突破大样本数据单机内存的上限,即数据处理分析效率较低。举一个例子对上述问题进行说明,Plink是一个开放且免费的全基因组关联分析工具,其分析的基础是基因型和表型数据,并进行显著性水平调解,从而选择出与疾病关联的治病基因。通过整合gplink和Haploview,即通过link-gPLINK-Haploview,使得分析结果变得可视化。然而,导致Plink无法突破大样本单机内存的上限,即数据处理分析效率较低,无法满足大数据大队列研究。
技术实现思路
基于此,有必要提供一种处理分析效率较高的基于离散关联决策树的表型-基因型的数据处理方法和系统。一种基于离散关联决策树的表型-基因型的数据处理方法,包括如下步骤:步骤S10,采集表型数据和基因型数据;步骤S20,将所述表型数据和所述基因型数据进行标准化处理,得到标准化数据;步骤S30,将所述标准化数据进行检测和离散处理,得到离散数据;步骤S40,采用离散关联决策树算法对所述离散数据进行处理,得到目标数据;步骤S50,将所述目标数据进行可视化展示。在其中一个实施例中,在步骤S10中,采用接口传输方式、文件交换方式、数据上传方式和/或基因芯片方式采集所述表型数据和所述基因型数据。在其中一个实施例中,在步骤S10中,还对采集得到的所述表型数据和所述基因型数据进行存储。在其中一个实施例中,在步骤S20中,所述标准化处理包括对所述表型数据和所述基因型数据进行清洗处理、缺失值检测处理、缺失值补充处理、单位换算处理、与国家标准统一化处理以及与行业标准化统一处理。在其中一个实施例中,在步骤S30中,采用离群点检测方式、聚类方式和/或自动分类方式对所述标准化数据进行检测和离散处理。在其中一个实施例中,在步骤S30之前以及步骤S40之后,还包括如下步骤:采用稀疏矩阵拆分方式和/或块列矩阵拆分方式将所述离散数据拆分到Hadoop平台,并以HDFS的文件形式进行存储;采用Spark平台对存储文件进行计算。在其中一个实施例中,在步骤S40中,所述目标数据至少包括具有高风险的基因SNP、保护因素的基因SNP和表型指标。在其中一个实施例中,在步骤S50中,采用基因关联图、交互作用影响图、基因通路图、位点人种分布图、力导向图、树状决策图、类目散点图、趋势图和/或直方图将所述目标数据进行可视化展示。一种基于离散关联决策树的表型-基因型的数据处理系统,包括:数据采集模块,用于采集表型数据和基因型数据;数据标准化模块,用于将所述表型数据和所述基因型数据进行标准化处理,得到标准化数据;数据离散模块,用于将所述标准化数据进行检测和离散处理,得到离散数据;数据处理模块,用于采用离散关联决策树算法对所述离散数据进行处理,得到目标数据;数据可视化模块,用于将所述目标数据进行可视化展示。在其中一个实施例中,还包括数据存储模块,用于存储所述数据采集模块采集的所述表型数据和所述基因型数据。上述基于离散关联决策树的表型-基因型的数据处理方法,通过将采集的表型数据和基因型数据进行离散处理并得到离散数据后,再采用所述离散关联决策树算法对所述离散数据进行处理,用于得到能够进行可视化展示的目标数据,这样,能够克服传统处理方法中由于大样本数据单机内存的上限引发的问题,进而提高了数据处理分析效率。附图说明图1为本专利技术一实施方式的基于离散关联决策树的表型-基因型的数据处理方法的步骤流程图;图2为本专利技术一实施方式的基于离散关联决策树的表型-基因型的数据处理系统的功能模块图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图对本专利技术的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术。但是本专利技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况下做类似改进,因此本专利技术不受下面公开的具体实施的限制。如图1所示,本专利技术一实施方式的基于离散关联决策树的表型-基因型的数据处理方法包括如下步骤:步骤S10,采集表型数据和基因型数据。通过步骤S10,用于采集患者的表型数据和基因型数据,如,用于采集大样本的海量复杂“表型-基因型”数据,为后续的数据处理提供原始数据。例如,在步骤S10中,采用接口传输方式、文件交换方式、数据上传方式和/或基因芯片方式采集所述表型数据和所述基因型数据;又如,在步骤S10中,至少采用接口传输方式、文件交换方式、数据上传方式和/或基因芯片方式采集所述表型数据和所述基因型数据;又如,在步骤S10中,数据采集模块通过接口、文件交换、数据上传和基因芯片等多种手段收集患者表型数据和基因型数据,其中,基因测序包括芯片和高通量等多种数据。例如,在步骤S10中,还对采集得到的所述表型数据和所述基因型数据进行存储。步骤S20,将所述表型数据和所述基因型数据进行标准化处理,得到标准化数据。通过步骤S20,能够对所述表型数据和所述基因型数据进行标准化处理,用于得到标准化数据,为后续的数据处理提供标准化的数据,使得后续的数据处理能够顺利进行。例如,在步骤S20中,所述标准化处理包括对所述表型数据和所述基因型数据进行清洗处理、缺失值检测处理、缺失值补充处理、单位换算处理、与国家标准统一化处理和与行业标准化统一处理;又如,数据标准化模块用于进行数据初步处理和对各类数据进行标准化处理加工;又如,数据标准化模块用于对数据进行清洗、缺失值的检测与补充、单位的换算以及与国家标准和行业标准统一。步骤S30,将所述标准化数据进行检测和离散处理,得到离散数据。通过步骤S30,能够对所述标准化数据进行检测和离散处理,用于得到离散数据,而通过对大样本海量复杂的“表型-基因型”数据,如,标准化的“表型-基因型”数据,进行离散处理,能够起到化繁为简,逐一处理的效果,是克服传统处理方法中由于大样本数据单机内存的上限引发的问题的关键步骤之一。例如,在步骤S30中,采用离群点检测方式、聚类方式和/或自动分类方式对所述标准化数据进行检测和离散处理;又如,根据国家标准、行业标准或其他分类标准对所述标准化数据进行检测和离散;又如,运用计算机的离群点检测、聚类和自动分类等多种手段进行检测和离散;又如,按照自定义标准进行离散。例如,在步骤S30之前和/或步骤S40之后,还包括如下步骤:采用稀疏矩阵拆分方式和/或块列矩阵拆分方式将所述离散数据拆分到Hadoop平台,并以HDFS的文件形式进行存储;采用Spark平台对存储文件进行计算,这样,可以进一步加强离散效果,提高处理分析效率。又如,在步骤S30之前,还包括如下步骤:采用稀疏矩阵拆分本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201610430453.html" title="基于离散关联决策树的表型‑基因型的数据处理方法和系统原文来自X技术">基于离散关联决策树的表型‑基因型的数据处理方法和系统</a>

【技术保护点】
一种基于离散关联决策树的表型‑基因型的数据处理方法,其特征在于,包括如下步骤:步骤S10,采集表型数据和基因型数据;步骤S20,将所述表型数据和所述基因型数据进行标准化处理,得到标准化数据;步骤S30,将所述标准化数据进行检测和离散处理,得到离散数据;步骤S40,采用离散关联决策树算法对所述离散数据进行处理,得到目标数据;步骤S50,将所述目标数据进行可视化展示。

【技术特征摘要】
1.一种基于离散关联决策树的表型-基因型的数据处理方法,其特征在于,包括如下步骤:步骤S10,采集表型数据和基因型数据;步骤S20,将所述表型数据和所述基因型数据进行标准化处理,得到标准化数据;步骤S30,将所述标准化数据进行检测和离散处理,得到离散数据;步骤S40,采用离散关联决策树算法对所述离散数据进行处理,得到目标数据;步骤S50,将所述目标数据进行可视化展示。2.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法,其特征在于,在步骤S10中,采用接口传输方式、文件交换方式、数据上传方式和/或基因芯片方式采集所述表型数据和所述基因型数据。3.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法,其特征在于,在步骤S10中,还对采集得到的所述表型数据和所述基因型数据进行存储。4.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法,其特征在于,在步骤S20中,所述标准化处理包括对所述表型数据和所述基因型数据进行清洗处理、缺失值检测处理、缺失值补充处理、单位换算处理、与国家标准统一化处理以及与行业标准化统一处理。5.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法,其特征在于,在步骤S30中,采用离群点检测方式、聚类方式和/或自动分类方式对所述标准化数据进行检测和离散处理。6.根据权利要求1所述的基于离散关联决策树的表型-基因型...

【专利技术属性】
技术研发人员:曹诗琴
申请(专利权)人:北京光大隆泰科技有限责任公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1