基于大数据群体行为的疾病相似度计算方法及装置制造方法及图纸

技术编号:13825970 阅读:53 留言:0更新日期:2016-10-13 01:05
本发明专利技术公开了一种基于大数据群体行为的疾病相似度计算方法及装置,包括:计算每个患者元实例对应诊断为各个疾病的权重;所述患者元实例包括患者病例信息;根据计算所得权重的权值,对各个疾病建立疾病向量;所述权重的权值作为疾病向量的元素;根据疾病向量计算疾病相似度。本发明专利技术中提出的基于大数据群体行为的疾病相似度计算方法及装置,根据大数据群体疾病诊治行为,从疾病的社会性角度计算了疾病间的相似性,可用于识别容易误诊却没有细胞、基因等关联的疾病。

【技术实现步骤摘要】

本专利技术涉及疾病相似度的计算领域,特别涉及一种基于大数据群体行为的疾病相似度计算方法及装置
技术介绍
目前计算疾病相似度的方法通常是根据疾病的属性来计算,如疾病与疾病之间的包含关系:‘乳腺癌’包含‘男性乳腺癌’和‘女性乳腺癌’;疾病与疾病之间关联因素:共同的致病基因、共同的治疗药物、共同的代谢产物等。计算疾病相似度的方法通常可以从两个角度考虑:1、基于语义关联计算疾病相似度。生物医学领域经常利用本体计算术语的语义相似度,如:基因本体、人类表型本体等。尽管如此,这些方法中却只有很少一部分已用于计算疾病相似度。Resnik设计的方法即是其中最为常见的方法,该方法更多是应用于基因本体计算基因功能、细胞构成、生物学过程术语的相似度,而且若与其它多种方法(union-intersection、longest shared path、JC)相比,则具有明显的优势。Resnik的方法是利用本体中的‘is_a’关系计算术语相似度,该方法计算疾病对之间的相似度主要依赖于疾病对信息量最大的共同祖先节点。而Lin的方法则改进了Resnik的方法中对信息熵的比较方法,从理论角度对Resnik的方法进行了一定的完善。Resnik和Lin的方法最近已由研究人员写入R包,以方便计算疾病的相似度。Wang等人提出的方法对Resnik的方法进行了更深层的优化。该方法在计算疾病对相似度时,不仅考虑了疾病对的信息量最大的共同祖先节点,还考虑了疾病对其它的共同祖先节点。该方法的优越性在基因本体中得到了更好的体现,并且已用于计算医学主题词中的疾病术语语义相似度。2、基于疾病相关的基因计算疾病相似度。疾病的关联不仅体现在疾病相关的本体上,而且体现在共同的致病基因上。因此,研究人员同样关注如何基于疾病的致病基因计算疾病的相似度。目前存在两种基于基因计算疾病相似度的方法。(1)第一种是基于共同的疾病基因(based on overlapping gene set-BOG) 的方法。该方法比较疾病之间共同相关的基因数目,由此而获取疾病相似度。若与基于语义的角度计算相似度相比,该法从一个全新的角度发现相似的疾病对。因此,该方法能发现新的未知疾病关联。尽管如此,在计算疾病相似度时,该方法却未考虑疾病基因之间的功能关联,而显然可见的是这种关联对疾病相似度却有着一定影响。(2)第二种方法则基于过程相似性(process similarity based-PSB)计算疾病相似度,其中,过程指的是致病基因相关的基因本体的生物学过程术语。该方法考虑了疾病基因的功能关联,因此对BOG方法有了很大的提高。PSB与Resnik、Lin、LC和JC的方法相比,也呈现了良好的性能。基因间的功能关联包含很多方面,如:基因共表达、蛋白质相互作用、基因本体术语等。另外,为了提高疾病相似度方法的性能,FunSim方法利用综合加权的人类基因关联网络计算疾病相似度。因此,如果两种疾病之间的基因功能、细胞构成、生物学过程或者共同致病基因大致相同,则基于语义关联计算疾病相似度和基于疾病相关的基因计算疾病相似度这两种方法在计算疾病的相似度上就会有效,这对于疾病科学的研究来说是很有用的。但是,对于两种容易误诊却没有细胞、基因等关联的疾病,这两种方法效果就比较差。
技术实现思路
本专利技术的主要目的为提供一种基于大数据群体行为的疾病相似度计算方法及装置,根据大数据群体疾病诊治行为,从疾病的社会性角度计算了疾病间的相似性,可用于识别容易误诊却没有细胞、基因等关联的疾病。本专利技术提出一种基于大数据群体行为的疾病相似度计算方法,包括步骤:计算每个患者元实例对应诊断为各个疾病的权重;所述患者元实例包括患者病例信息;根据计算所得权重的权值,对各个疾病建立疾病向量;所述权重的权值作为疾病向量的元素;根据疾病向量计算疾病相似度。进一步地,所述计算每个患者元实例对应诊断为各个疾病的权重的步骤包括:计算每个患者元实例对应诊断为各个疾病的频数,并求出该频数在所有数 据中的频率,将所述频率作为每个患者元实例对应诊断为各个疾病的权重的权值。进一步地,所述根据疾病向量计算疾病相似度的步骤包括:根据疾病向量,利用余弦距离计算两种疾病相似度。进一步地,所述根据疾病向量,利用余弦距离计算两种疾病相似度的计算公式为: s i m ( D i → , D j → ) = cos D i → , D j → > = Σ k H ( d i k + d j k ) Σ k H d i k 2 · Σ k H d j k 2 ; ]]>其中,为两种疾病向量之间的疾病相似度;dik、djk分别为各患本文档来自技高网
...

【技术保护点】
一种基于大数据群体行为的疾病相似度计算方法,其特征在于,包括步骤:计算每个患者元实例对应诊断为各个疾病的权重;所述患者元实例包括患者病例信息;根据计算所得权重的权值,对各个疾病建立疾病向量;所述权重的权值作为疾病向量的元素;根据疾病向量计算疾病相似度。

【技术特征摘要】
1.一种基于大数据群体行为的疾病相似度计算方法,其特征在于,包括步骤:计算每个患者元实例对应诊断为各个疾病的权重;所述患者元实例包括患者病例信息;根据计算所得权重的权值,对各个疾病建立疾病向量;所述权重的权值作为疾病向量的元素;根据疾病向量计算疾病相似度。2.根据权利要求1所述的基于大数据群体行为的疾病相似度计算方法,其特征在于,所述计算每个患者元实例对应诊断为各个疾病的权重的步骤包括:计算每个患者元实例对应诊断为各个疾病的频数,并求出该频数在所有数据中的频率,将所述频率作为每个患者元实例对应诊断为各个疾病的权重的权值。3.根据权利要求1所述的基于大数据群体行为的疾病相似度计算方法,其特征在于,所述根据疾病向量计算疾病相似度的步骤包括:根据疾病向量,利用余弦距离计算两种疾病相似度。4.根据权利要求3所述的基于大数据群体行为的疾病相似度计算方法,其特征在于,所述根据疾病向量,利用余弦距离计算两种疾病相似度的计算公式为: s i m ( D i → , D j → ) = cos < D i → , D j → > = Σ k H ( d i k + d j k ) Σ k H d i k 2 · Σ k H d j k 2 ; ]]>其中,为两种疾病向量之间的疾病相似度;dik、djk分别为各患者元实例对应诊断为Di、Dj两种疾病的权值;H为患者元实例的总个数;k为自然数。5.根据权利要求3或4所述的基于大数据群体行为的疾病相似度计算方法,其特征在于,当患者元实例对应诊断为某个疾病的权值很低时,所述根据疾病向量,利用余弦距离计算两种疾病相似度的计算公式为: s i m ( D i → , D j → ) = Σ k ∈ T i j ( d i k + d j k ) Σ i ∈ T i d i k 2 · Σ i ∈ T j d j k 2 ; ]]>其中,为两种疾病向量之间的疾病相似度;dik、djk分别为各患者元实例对应诊断为Di、Dj两种疾病的权值,且其值高于设定权值;k为自然数;Ti为各患者元实例对应诊断为Di疾病的权值且高于设定权值;Tj为各患者元实例对应诊断为Dj疾病的权值且高于设定权值;Tij为各患者元实例分别对应诊断为Di、Dj两种疾病的权值且高于设...

【专利技术属性】
技术研发人员:韦辉华王界兵张伟董迪马郭宇翔宋泰然梁猛
申请(专利权)人:深圳前海信息技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1