一种基于向量的基因间语义相似度的计算方法技术

技术编号:15725031 阅读:42 留言:0更新日期:2017-06-29 12:08
本发明专利技术公开了一种基于向量的基因间语义相似度的计算方法,该方法在已有的基于向量方法计算基因相似度的基础上,进一步考虑了基因本体的层次结构,在构造向量的过程中,不仅考虑了基因直接注释到的术语,也考虑了这些术语在基因本体中的孩子节点和父亲节点,使所生成的向量更全面更细致地体现基因的属性。

【技术实现步骤摘要】
一种基于向量的基因间语义相似度的计算方法
本专利技术属于生物信息
,特别是涉及一种基于向量的基因间语义相似度的计算方法。
技术介绍
科学技术的发展,使得生物学数据呈指数级的增长,同时复杂性也随之增强。由于不同的生物学家对于同一种生物数据的描述不同,而造成对生物数据的理解出现偏差。比如,同一个生物学术语在不同的地方代表不同的含义,或者不同的含义用同一个术语来表示。这样语义上的混乱使得生物学家花费大量的时间和精力来搜寻所需要的生物信息。这种生物学上语义定义的混乱不仅使计算机搜寻难以找到需要的结果,即使是人工手动处理也很难达到满意的结果。将本体论应用到生物学领域可以有效地解决量生物数据命名和语法的混乱以及语义异构性等问题。基因本体联合会开发了基因本体,建立一个适用于各种物种的,并能随着研究不断深入而更新的语言词汇标准来规范化地描述所有基因和基因产物的属性。现在,基因本体已成为对基因和蛋白质功能进行限定和描述的科学标准,这有效地减少了生物学术语的混乱及不一致的现象,为生物学数据的共享和集成提供了有利条件。在生物信息学中,基因本体应用的一个重要方面就是对基因本体术语的语义相似性进行度量。通过对蛋白质序列的比对来查找与其功能相似或者相关的蛋白质,这是生物信息学中研究蛋白质的有效方法。但是由于功能相似或者相关的蛋白质在序列上并不一定具有较强的相似性,所以基于序列对比的查询方法有时并不十分准确。研究发现如果两个基因产物的功能相似,那么它们的基因表达就相近,即它们在基因本体中被注解的术语就相似。因此通过计算出基因本体中术语对的相似度,就可以比较术语注释的基因表达的相似度,从而判断两基因产物功能的相似程度。
技术实现思路
本专利技术的目的是提供一种基于向量的基因间语义相似度的计算方法,该方法能够有效的计算基因之间语义相似度,进而对基因功能进行预测以及蛋白质之间的分类和预测都具有非常大的意义。实现本专利技术目的的具体技术方案是:一种基于向量的基因间语义相似度的计算方法,该方法包括以下具体步骤:步骤1:初始化两个基因的向量,与基因直接注释到的术语相对应的分量初始化为1,其他分量均初始化为0,直接注释到的术语通过基因注释文件得到;步骤2:按照父子关系(“is_a”),找到与直接注释到的术语的父节点、祖父节点、子节点以及孙子节点,根据这些节点修正向量,具体包括:(1)、处理父节点对于每个基因直接注释到的每个术语,逐个处理其在基因本体中的父节点i,其修正过程由下面的公式描述:其中代表父节点i的值,是修正后的值,wis_a表示基因本体中父子关系(“is_a”)的语义贡献度;(2)、处理祖父节点逐个处理每个基因直接注释到的术语的祖父节点j;其修正过程由下面的公式描述:其中代表祖父节点j的值,是修正后的值,wis_a表示基因本体中父子关系(“is_a”)的语义贡献度;(3)、处理孩子节点对于每个基因直接注释到的术语的孩子节点k,其修正过程由下面的公式描述:其中代表孩子节点k的值,是修正后的值,wis_a表示基因本体中父子关系(“is_a”)的语义贡献度;(4)、处理孙子节点逐个处理每个基因直接注释到的术语的孙子节点L,其修正过程由下面的公式描述:其中代表孙子节点L的值,是修正后的值,wis_a表示基因本体中父子关系(“is_a”)的语义贡献度;步骤3:按照包含关系(“part_of”),找到与直接注释到的术语的父节点、祖父节点、子节点以及孙子节点,根据这些节点修正向量,具体包括:(1)、处理父节点对于每个基因直接注释到的每个术语,逐个处理其在基因本体中的父节点m;其修正过程由下面的公式描述:其中代表父节点m的值,是修正后的值,wpart_of表示基因本体中包含关系(“part_of”)的语义贡献度;(2)、处理祖父节点逐个处理每个基因直接注释到的术语的祖父节点n;其修正过程由下面的公式描述:其中代表祖父节点n的值,是修正后的值,wpart_of表示基因本体中包含关系(“part_of”)的语义贡献度;(3)、处理孩子节点对于每个基因直接注释到的术语的孩子节点o,这个修正过程由下面的公式描述:其中代表孩子节点o的值,是修正后的值,wpart_of表示基因本体中包含关系(“part_of”)的语义贡献度;(4)、处理孙子节点;逐个处理每个基因直接注释到的术语的孙子节点p,这个修正过程可由下面的公式描述:其中代表孙子节点p的值,是修正后的值,wpart_of表示基因本体中包含关系(“part_of”)的语义贡献度;步骤4:计算两个向量的相似度,并用置信因子加以修正向量相似度计算:引入置信因子根据基因注释到的术语的数量来调整其相似度,其中置信因子的计算公式如下:λ=ln(S1+S2)其中S1和S2分别表示基因1(G1)和基因2(G2)注释到的术语的总数;λ的作用是为了在基因注释到的术语的个数比较少的时候降低该基因的可信度;假设v1和v2分别代表基因1和基因2对应所有术语分量组成的向量,最终计算两个向量之间相似度的公式如下:所述基因本体中父子关系(“is_a”)的语义贡献度wis_a=1。所述基因本体中包含关系(“part_of”)的语义贡献度wpart_of=0.7。本专利技术的有益效果:通过术语在基因本体中的结构关系间接地引入了不同术语之间可能存在的联系,即通过基因被注释到的术语推测可能与该基因有关的其他术语及其相关程度,并将推测结果连同基因被直接注释到的术语一并注入向量,从而捕获可能被普通方法所忽略的相似性。为了进一步提高方法的有效性,在构造向量时,本专利技术同时考虑了术语之间两种不同类型的关系,即父子关系(“is_a”)和包含关系(“part_of”)。此外,本专利技术还引入了置信因子的概念,根据基因注释到的术语的数量来调整其相似度。附图说明图1为本专利技术的流程图;具体实施方式参照图1,本专利技术提出了一种基于向量的基因间语义相似度的计算方法来解决基因间语义相似度的问题。以基因1与基因2为示例,假设基因本体库中一共有术语:a,b,c,d,e,f,g,h,x,y,z,术语与节点一一对应,所述基因本体中父子关系(“is_a”)的语义贡献度wis_a=1,所述基因本体中包含关系(“part_of”)的语义贡献度wpart_of=0.7,具体实施方式共包括以下步骤:A、初始化两个基因的向量(1)、对每一个基因,与基因直接注释到的术语相对应的分量初始化为1,其他分量均初始化为0,直接注释到的术语可通过基因注释文件得到。假设基因1直接注释到的术语为术语a与术语b,则基因1对术语a和b的初始化值为1,其余为0。假设基因2直接注释到的术语为术语a、术语b,术语c,则基因2对术语a、b和c的初始化值为1,其余为0;B、按照父子关系(“is_a”),找到与直接注释到的术语的父节点、祖父节点、子节点以及孙子节点,根据这些节点修正向量,具体包括:(1)、处理父节点对于每个基因直接注释到的每个术语,逐个处理其在基因本体中的父节点i;这个修正过程可由下面的公式描述:其中代表父节点i的值,是修正后的值,wis_a表示基因本体中父子关系(“is_a”)的语义贡献度。假设术语a与术语b的共同父子关系(“is_a”)父节点为术语c,术语c的父子关系(“is_a”)父节点为术语d,则基因1本文档来自技高网
...
一种基于向量的基因间语义相似度的计算方法

【技术保护点】
一种基于向量的基因间语义相似度的计算方法,其特征在于,该方法包括以下步骤:步骤1:初始化两个基因的向量,与基因直接注释到的术语相对应的分量初始化为1,其他分量均初始化为0,直接注释到的术语通过基因注释文件得到;步骤2:按照父子关系,找到与直接注释到的术语的父节点、祖父节点、子节点以及孙子节点,根据这些节点修正向量,具体包括:(1)、处理父节点对于每个基因直接注释到的每个术语,逐个处理其在基因本体中的父节点i,其修正过程由下面的公式描述:

【技术特征摘要】
1.一种基于向量的基因间语义相似度的计算方法,其特征在于,该方法包括以下步骤:步骤1:初始化两个基因的向量,与基因直接注释到的术语相对应的分量初始化为1,其他分量均初始化为0,直接注释到的术语通过基因注释文件得到;步骤2:按照父子关系,找到与直接注释到的术语的父节点、祖父节点、子节点以及孙子节点,根据这些节点修正向量,具体包括:(1)、处理父节点对于每个基因直接注释到的每个术语,逐个处理其在基因本体中的父节点i,其修正过程由下面的公式描述:其中代表父节点i的值,是修正后的值,wis_a表示基因本体中父子关系的语义贡献度;(2)、处理祖父节点逐个处理每个基因直接注释到的术语的祖父节点j;其修正过程由下面的公式描述:其中代表祖父节点j的值,是修正后的值,wis_a表示基因本体中父子关系的语义贡献度;(3)、处理孩子节点对于每个基因直接注释到的术语的孩子节点k,其修正过程由下面的公式描述:其中代表孩子节点k的值,是修正后的值,wis_a表示基因本体中父子关系的语义贡献度;(4)、处理孙子节点逐个处理每个基因直接注释到的术语的孙子节点L,其修正过程由下面的公式描述:其中代表孙子节点L的值,是修正后的值,wis_a表示基因本体中父子关系的语义贡献度;步骤3:按照包含关系,找到与直接注释到的术语的父节点、祖父节点、子节点以及孙子节点,根据这些节点修正向量,具体包括:(1)、处理父节点对于每个基因直接注释到的每个术语,逐个处理其在基因本体中的父节点m;其修正过程由下面的公式描述:

【专利技术属性】
技术研发人员:章炯民贾柯
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1