System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 面向基因组动态交互网络的稠密子图查询挖掘方法及系统技术方案_技高网

面向基因组动态交互网络的稠密子图查询挖掘方法及系统技术方案

技术编号:40512553 阅读:8 留言:0更新日期:2024-03-01 13:28
本发明专利技术公开了一种面向基因组动态交互网络的稠密子图查询挖掘方法及系统,涉及基因组数据分析领域,该方法包括:基于置换检验的方法构建基因组动态交互网络;基于网络存储模型和网络划分策略,对基因组动态交互网络进行分布式存储;对存储后的基因组动态交互网络构建索引结构;索引结构包括:时间维度索引和层次结构索引;基于索引结构查询以及挖掘k点连通稠密子图;k点连通稠密子图用于表征未知的疾病标志位点。本发明专利技术从基因组交互网络的角度研究复杂疾病,通过构建和分析k点连通稠密子图,实现未知疾病标志位点的挖掘。

【技术实现步骤摘要】

本专利技术涉及基因组数据分析领域,特别是涉及一种面向基因组动态交互网络的稠密子图查询挖掘方法及系统


技术介绍

1、在复杂疾病研究领域,基因组测序数据是复杂疾病研究的主要依据之一,而单核苷酸多态性(singlenucleotide polymorphism,snp)是基因组测序数据的主要表现形式,即染色体序列上单个核苷酸(a、c、g和t)的突变,其在人群中广泛存在。随着高通量测序技术的发展,基因组测序的费用迅速降低,使得从基因组角度研究复杂疾病成为可能。目前主要的研究手段是全基因组关联分析(genome-wide association study,gwas),通过比较病患组和正常组,寻找与复杂疾病相关的snp位点。

2、然而,gwas存在一些问题,基于单snp位点的关联分析,会遭遇严重的遗传缺失问题。随着研究深入,现阶段主要研究snp位点交互作用与复杂疾病的关联。

3、复杂疾病基因组动态交互网络具有网络规模庞大性,位点角色多样性、交互关系协同性和局部结构易变性等特征。现已有两位点基因组关联分析技术尚不足以支持规模庞大的基因组动态交互网络精准地构建。虽然大图中稠密子图查询与挖掘技术得到了广泛研究,取得了大量优秀的研究成果,但这些成果往往没有考虑基因组动态交互网络位点角色多样和局部结构易变的特点,而且对于k点连通稠密子图的研究刚刚起步,对子图性质的理解还不够深入,导致现有大图管理技术和稠密子图查询与挖掘算法无法直接应用于面向复杂疾病基因组动态交互网络的k点连通稠密子图的查询与挖掘,影响未知的疾病标志位点的挖掘,其中,k表示稠密子图的顶点数目。


技术实现思路

1、基于此,本专利技术实施例提供一种面向基因组动态交互网络的稠密子图查询挖掘方法及系统,从基因组交互网络的角度研究复杂疾病,通过构建和分析k点连通稠密子图,挖掘未知的疾病标志位点。

2、为实现上述目的,本专利技术实施例提供了如下方案:

3、一种面向基因组动态交互网络的稠密子图查询挖掘方法,包括:

4、基于置换检验的方法构建基因组动态交互网络;所述基因组动态交互网络以snp位点作为顶点,以位点交互与疾病的关联强度作为边;

5、基于网络存储模型和网络划分策略,对所述基因组动态交互网络进行分布式存储;所述网络存储模型包括:分布式文件系统和分布式内存系统;所述网络划分策略是基于最小点割集的划分方式确定的;

6、对存储后的基因组动态交互网络构建索引结构;所述索引结构包括:时间维度索引和层次结构索引;

7、基于所述索引结构查询以及挖掘k点连通稠密子图;所述k点连通稠密子图用于表征未知的疾病标志位点;k表示稠密子图的顶点数目。

8、可选地,基于置换检验的方法构建基因组动态交互网络,具体包括:

9、获取基因组数据;

10、提取所述基因组数据的snp位点;

11、使用卡方检验的方法比较snp位点对在疾病患者和健康对照组之间的分布差异,并采用置换检验的方法来确定位点对p值;所述位点对p值表征位点交互的关联显著性;所述位点对p值作为边的权重;

12、根据所述snp位点和所述位点对p值构建初步的基因组动态交互网络;

13、基于领域知识和图嵌入技术进行位点交互预测,以在初步的基因组动态交互网络中添加边,得到精细的基因组动态交互网络;

14、将精细的基因组动态交互网络作为最终的基因组动态交互网络。

15、可选地,采用置换检验的方法来确定位点对p值,具体包括:

16、基于柔性下界的位点交互削减策略或位点交互并行计算加速策略,对每个snp位点对执行置换操作以计算位点对p值。

17、可选地,基于网络存储模型和网络划分策略,对所述基因组动态交互网络进行分布式存储,具体包括:

18、采用分布式文件系统和分布式内存系统的分级存储策略对所述基因组动态交互网络进行分级存储;

19、采用基于最小点割集的方式对所述基因组动态交互网络中的网络数据进行划分,并将分级存储后的基因组动态交互网络中连通度高于设定值的顶点存放在相同的存储节点中,以实现基因组动态交互网络的分布式存储。

20、可选地,采用分布式文件系统和分布式内存系统的分级存储策略对所述基因组动态交互网络进行分级存储,具体包括:

21、将设定时间之后的基因组动态交互网络表示成一个顶点集合和一个边集合;

22、采用哈希技术将顶点集合中的所有顶点分配到分布式内存系统中的存储节点中;

23、根据点和边的映射关系将边集合中的所有边分配到分布式内存系统中对应的存储节点中;

24、对于设定时间之前的基因组动态交互网络,按照时间先后顺序定期生成快照,并将历史快照记录存放在分布式文件系统中。

25、可选地,对存储后的基因组动态交互网络构建索引结构,具体包括:

26、采用可扩展的b+树索引结构,对与存储节点连接的主节点构建时间维度索引;

27、按照k值由小到大的顺序,对存储节点构建层次结构索引;所述k值表征存储节点的分散度。

28、可选地,基于所述索引结构查询以及挖掘k点连通稠密子图,具体包括:

29、若所述索引结构在线,则基于所述索引结构进行单查询点查询、多查询点查询或top-r查询,得到初步的k点连通稠密子图;

30、若所述索引结构离线,则采用单查询点局部扩展方法进行单查询点查询或基于k核过滤的方法进行多查询点查询,得到初步的k点连通稠密子图;

31、对初步的k点连通稠密子图进行对比子图挖掘和多层子图挖掘,得到最终的k点连通稠密子图。

32、可选地,在对存储后的基因组动态交互网络构建索引结构之后,还包括:

33、对所述索引结构进行维护。

34、可选地,对所述索引结构进行维护,具体包括:

35、采用生存周期策略对所述时间维度索引进行维护;

36、采用批处理策略对所述层次结构索引进行维护。

37、本专利技术还提供了一种面向基因组动态交互网络的稠密子图查询挖掘系统,包括:

38、交互网络构建模块,用于基于置换检验的方法构建基因组动态交互网络;所述基因组动态交互网络以snp位点作为顶点,以位点交互与疾病的关联强度作为边;

39、分布式存储模块,用于基于网络存储模型和网络划分策略,对所述基因组动态交互网络进行分布式存储;所述网络存储模型包括:分布式文件系统和分布式内存系统;所述网络划分策略是基于最小点割集的划分方式确定的;

40、索引构建模块,用于对存储后的基因组动态交互网络构建索引结构;所述索引结构包括:时间维度索引和层次结构索引;

41、子图查询及挖掘模块,用于基于所述索引结构查询以及挖掘k点连通稠密子图;所述k点连通稠密子图用于表征未知的疾病标志位点;k表示稠密子图的顶点数目。

本文档来自技高网...

【技术保护点】

1.一种面向基因组动态交互网络的稠密子图查询挖掘方法,其特征在于,包括:

2.根据权利要求1所述的面向基因组动态交互网络的稠密子图查询挖掘方法,其特征在于,基于置换检验的方法构建基因组动态交互网络,具体包括:

3.根据权利要求2所述的面向基因组动态交互网络的稠密子图查询挖掘方法,其特征在于,采用置换检验的方法来确定位点对p值,具体包括:

4.根据权利要求1所述的面向基因组动态交互网络的稠密子图查询挖掘方法,其特征在于,基于网络存储模型和网络划分策略,对所述基因组动态交互网络进行分布式存储,具体包括:

5.根据权利要求4所述的面向基因组动态交互网络的稠密子图查询挖掘方法,其特征在于,采用分布式文件系统和分布式内存系统的分级存储策略对所述基因组动态交互网络进行分级存储,具体包括:

6.根据权利要求5所述的面向基因组动态交互网络的稠密子图查询挖掘方法,其特征在于,对存储后的基因组动态交互网络构建索引结构,具体包括:

7.根据权利要求1所述的面向基因组动态交互网络的稠密子图查询挖掘方法,其特征在于,基于所述索引结构查询以及挖掘k点连通稠密子图,具体包括:

8.根据权利要求1所述的面向基因组动态交互网络的稠密子图查询挖掘方法,其特征在于,在对存储后的基因组动态交互网络构建索引结构之后,还包括:

9.根据权利要求8所述的面向基因组动态交互网络的稠密子图查询挖掘方法,其特征在于,对所述索引结构进行维护,具体包括:

10.一种面向基因组动态交互网络的稠密子图查询挖掘系统,其特征在于,包括:

...

【技术特征摘要】

1.一种面向基因组动态交互网络的稠密子图查询挖掘方法,其特征在于,包括:

2.根据权利要求1所述的面向基因组动态交互网络的稠密子图查询挖掘方法,其特征在于,基于置换检验的方法构建基因组动态交互网络,具体包括:

3.根据权利要求2所述的面向基因组动态交互网络的稠密子图查询挖掘方法,其特征在于,采用置换检验的方法来确定位点对p值,具体包括:

4.根据权利要求1所述的面向基因组动态交互网络的稠密子图查询挖掘方法,其特征在于,基于网络存储模型和网络划分策略,对所述基因组动态交互网络进行分布式存储,具体包括:

5.根据权利要求4所述的面向基因组动态交互网络的稠密子图查询挖掘方法,其特征在于,采用分布式文件系统和分布式内存系统的分级存储策略对所述基因组动态交...

【专利技术属性】
技术研发人员:李源孔庆欣
申请(专利权)人:北方工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1