一种生物关系网络信息建模方法与系统技术方案

技术编号:35774271 阅读:12 留言:0更新日期:2022-12-01 14:17
本发明专利技术公开了一种生物关系网络信息建模方法与系统。该方法包括:利用组学数据构建图结构的生物网络,该生物网络的节点反映组学数据类别,边连接反映节点之间的相关性,并且所述生物网络的节点包含有表达谱节点和无表达谱节点;基于所述生物网络计算相对关系矩阵,所述相对关系矩阵反映与正常样本的相对值;利用自编码器对所述相对关系矩阵进行降维,获得降维后的特征;根据特征表达的重要程度,对降维后的特征进行筛选,进而利用筛选出的特征进行诊断与预后分析。本发明专利技术能有效提升生物组学数据分析准确性和应用范围。数据分析准确性和应用范围。数据分析准确性和应用范围。

【技术实现步骤摘要】
一种生物关系网络信息建模方法与系统


[0001]本专利技术涉及医学组分分析
,更具体地,涉及一种生物关系网络信息建模方法与系统。

技术介绍

[0002]研究表明人类疾病不是由单个分子缺陷引起的,而是由多种分子介质之间的复杂相互作用驱动的,使用图表和/或生物网络分析人类疾病在精准肿瘤学领域中发挥着极其关键的作用。目前,研究人员普遍采用图来表示复杂网络,并以图论的方法来研究它们。对于生物分子网络而言,图中的节点表示生物分子,边表示生物分子之间的调控、相互作用等各种关系。生物分子包括基因、蛋白质等。
[0003]生物网络可以分为两大类,一类是基于证据的分析网络,依赖特定的分析相互作用的实验证据,如PPI网络、代谢网络、调控网络(转录因子

基因网络,非编码RNA

基因网络)。另一类是统计推断网络,它基于统计推断,依赖于通过统计分析建立的组件之间的相互作用,例如,一种是“共表达网络”,基因基于与感兴趣的疾病相关的统计显著相关或反相关(取决于潜在问题)表达谱连接,如WGCNA。另一种统计生成的网络是“遗传网络”。
[0004]对于网络的分析,主要是识别网络模块或重要节点,目前也有方法基于生物网络进行癌症驱动模块以及识别生物标志物,如基于生物网络和亚细胞定位数据识别癌症驱动模块方法(如专利申请公开号CN112259163)。研究者们也通常基于网络选择重要的模块或网络签名,根据网络的节点与边构成子网络,并建立这些子网络与疾病的特征建立联系,从而得到代表特定疾病的重要“模块”。然后,基于这些模块中节点的表达信息进行后续的问题分析,或者基于网络将节点相互信息转换网络转换为矩阵进行后续癌症特征分析,如预后亚型聚类。
[0005]在现有技术中,虽然生物网络分析逐渐受到重视,并常用于疾病的相关问题分析。但这些分析通常存在以下问题:
[0006](1)忽略了网络信息。大多利用生物网络进行分析的方法只是利用网络中的具有重要意义的节点或模块中的节点,而忽略了网络中节点之间的相互作用,因此,这些方法只能称为基于节点集的方法,而不是真正的基于网络分析的方法。
[0007](2)节点表达谱要求完整。对于网络分析中节点的利用要求每个节点都具有表达谱,对于个别节点若不存在表达谱会在网络忽略。所以基于一些问题以及数据完备的要求或针对公开数据进行分析时,通常会使用一些数据量大或信息完整的组学数据,而使得一些难制备的组学数据或公开数据库中收录较少的组学在研究中被忽略,如获取代谢组学数据需要高成本仪器且存在敏感性可变和高波动性,也很少在大型多组学计划中收集,如肿瘤基因组图谱(TCGA)等。
[0008](3)缺乏冗余信息考虑。在对于节点相互关系分析中,忽略了会使维数增加,使得信息量大而增加计算负担或使得信息冗余的节点相互关系分析,因为网络中通常一个节点与多个节点相互作用。然而这一点在研究中被忽略。
[0009]上述技术问题使得在分析实际临床中的方法较为局限,据目前已发表的文献来看,尚没有一个解决方案实现基于网络中部分节点表达谱缺失的关系矩阵的构建并降低冗余信息的方法。

技术实现思路

[0010]本专利技术的目的是克服上述现有技术的缺陷,提供一种生物关系网络信息建模方法与系统。
[0011]根据本专利技术的第一方面,提供一种生物关系网络信息建模方法。该方法包括以下步骤:
[0012]利用组学数据构建图结构的生物网络,该生物网络的节点反映组学数据类别,边连接反映节点之间的相关性,并且所述生物网络的节点包含有表达谱节点和无表达谱节点;
[0013]基于所述生物网络计算相对关系矩阵,所述相对关系矩阵反映与正常样本的相对值;
[0014]利用自编码器对所述相对关系矩阵进行降维,获得降维后的特征;
[0015]根据特征表达的重要程度,对降维后的特征进行筛选,进而利用筛选出的特征进行诊断与预后分析。
[0016]根据本专利技术的第二方面,提供一种生物关系网络信息建模系统。该系统包括:
[0017]生物网络构建模块:用于利用组学数据构建图结构的生物网络,该生物网络的节点反映组学数据类别,边连接反映节点之间的相关性,并且所述生物网络的节点包含有表达谱节点和无表达谱节点;
[0018]关系矩阵表征模块:用于基于所述生物网络计算相对关系矩阵,所述相对关系矩阵反映与正常样本的相对值;
[0019]特征降维模块:用于利用自编码器对所述相对关系矩阵进行降维,获得降维后的特征;
[0020]诊断与预后分析模块:用于根据特征表达的重要程度,对降维后的特征进行筛选,进而利用筛选出的特征进行诊断与预后分析。
[0021]与现有技术相比,本专利技术的优点在于,所提供的生物关系网络信息建模方法,根据网络中节点的连接,对所有节点进行相关性表征,并结合节点表达谱转换成节点相关性矩阵,进而利用机器学习方法对矩阵特征进行特征降维以较少冗余特征,利用降维后特征进行后续的临床问题分析,从而解决了生物网络信息利用以及冗余信息的去除问题。
[0022]通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。
附图说明
[0023]被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并且连同其说明一起用于解释本专利技术的原理。
[0024]图1是根据本专利技术一个实施例的生物关系网络信息建模方法的流程图;
[0025]图2是根据本专利技术一个实施例的生物关系网络信息建模的过程示意图。
具体实施方式
[0026]现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本专利技术的范围。
[0027]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。
[0028]对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
[0029]在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
[0030]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0031]结合图1和图2所示,所提供的生物关系网络信息建模方法包括以下步骤:
[0032]步骤S110,对生物组学数据进行预处理,并确定对应的表达谱信息。
[0033]根据需要分析的问题,选择组学数据,判断组学数据是否具有表达谱,如是,则进行归一化处理。通过这种方式,可将生物组学数据的类别作为网络节点,并确认各节点的表达谱信息,包括有表达谱和无表达谱两种情况。
[0034]步骤S120,构建图结构的生物网络,并确定节点类型以及节点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生物关系网络信息建模方法,包括以下步骤:利用组学数据构建图结构的生物网络,该生物网络的节点反映组学数据类别,边连接反映节点之间的相关性,并且所述生物网络的节点包含有表达谱节点和无表达谱节点;基于所述生物网络计算相对关系矩阵,所述相对关系矩阵反映节点之间的相关性与正常样本的相对值;利用自编码器对所述相对关系矩阵进行降维,获得降维后的特征;根据特征表达的重要程度,对降维后的特征进行筛选,进而利用筛选出的特征进行诊断与预后分析。2.根据权利要求1所述的方法,其特征在于,根据以下步骤构建所述相对关系矩阵:计算所述生物网络中连接的节点a及节点b的相关性分数RS,以对节点a和节点b的生物联系进行表征,表示为:RS=Log2(m+2)其中,节点a与节点b通过共同的节点c
i
直接连接,m表示所述生物网络的中间节点c
i
的个数;将所述生物网络中边的相关性与其对应的具有表达谱的节点的表达值相乘,以将节点表达谱转换成一个边关系矩阵;计算所述边关系矩阵相对于正常组织的相对关系矩阵。3.根据权利要求2所述的方法,其特征在于,计算所述边关系矩阵相对于正常组织的相对关系矩阵包括:对边关系矩阵中正常样本取均值,得到正常样本的各相连的节点构成的边的关系均值向量;将边关系矩阵中的癌症样本分别减去向量中的对应相同的边的元素;对相同的重复的边特征取行均值,得到一个相对于正常组织的网络节点相对关系矩阵。4.根据权利要求2所述的方法,其特征在于,所述生物网络包括无表达谱节点与有表达谱节点相连、有表达谱节点与有表达谱节点相连、无表达谱节点与无表达谱节点相连...

【专利技术属性】
技术研发人员:赖清佩秦文健谢耀钦
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1