【技术实现步骤摘要】
本专利技术涉及疾病相似度的计算领域,特别涉及一种基于大数据群体行为的疾病相似度计算方法及装置。
技术介绍
目前计算疾病相似度的方法通常是根据疾病的属性来计算,如疾病与疾病之间的包含关系:‘乳腺癌’包含‘男性乳腺癌’和‘女性乳腺癌’;疾病与疾病之间关联因素:共同的致病基因、共同的治疗药物、共同的代谢产物等。计算疾病相似度的方法通常可以从两个角度考虑:1、基于语义关联计算疾病相似度。生物医学领域经常利用本体计算术语的语义相似度,如:基因本体、人类表型本体等。尽管如此,这些方法中却只有很少一部分已用于计算疾病相似度。Resnik设计的方法即是其中最为常见的方法,该方法更多是应用于基因本体计算基因功能、细胞构成、生物学过程术语的相似度,而且若与其它多种方法(union-intersection、longest shared path、JC)相比,则具有明显的优势。Resnik的方法是利用本体中的‘is_a’关系计算术语相似度,该方法计算疾病对之间的相似度主要依赖于疾病对信息量最大的共同祖先节点。而Lin的方法则改进了Resnik的方法中对信息熵的比较方法,从理论角度对Resnik的方法进行了一定的完善。Resnik和Lin的方法最近已由研究人员写入R包,以方便计算疾病的相似度。Wang等人提出的方法对Resnik的方法进行了更深层的优化。该方法在计算疾病对相似度时,不仅考虑了疾病对的信息量最大的共同祖先节点,还考虑了疾病对其它的共同祖先节点。该方法的优越性在基因本体中得到了更好的体现,并且已用于计算医学主题词中的疾病术语语义相似度。2、基于疾病相关的基因计算疾病 ...
【技术保护点】
一种基于大数据群体行为的疾病相似度计算方法,其特征在于,包括步骤:计算每个患者元实例对应诊断为各个疾病的权重;所述患者元实例包括患者病例信息;根据计算所得权重的权值,对各个疾病建立疾病向量;所述权重的权值作为疾病向量的元素;根据疾病向量计算疾病相似度。
【技术特征摘要】
1.一种基于大数据群体行为的疾病相似度计算方法,其特征在于,包括步骤:计算每个患者元实例对应诊断为各个疾病的权重;所述患者元实例包括患者病例信息;根据计算所得权重的权值,对各个疾病建立疾病向量;所述权重的权值作为疾病向量的元素;根据疾病向量计算疾病相似度。2.根据权利要求1所述的基于大数据群体行为的疾病相似度计算方法,其特征在于,所述计算每个患者元实例对应诊断为各个疾病的权重的步骤包括:计算每个患者元实例对应诊断为各个疾病的频数,并求出该频数在所有数据中的频率,将所述频率作为每个患者元实例对应诊断为各个疾病的权重的权值。3.根据权利要求1所述的基于大数据群体行为的疾病相似度计算方法,其特征在于,所述根据疾病向量计算疾病相似度的步骤包括:根据疾病向量,利用余弦距离计算两种疾病相似度。4.根据权利要求3所述的基于大数据群体行为的疾病相似度计算方法,其特征在于,所述根据疾病向量,利用余弦距离计算两种疾病相似度的计算公式为: s i m ( D i → , D j → ) = cos < D i → , D j → > = Σ k H ( d i k + d j k ) Σ k H d i k 2 · Σ k H d j k 2 ; ]]>其中,为两种疾病向量之间的疾病相似度;dik、djk分别为各患者元实例对应诊断为Di、Dj两种疾病的权值;H为患者元实例的总个数;k为自然数。5.根据权利要求3或4所述的基于大数据群体行为的疾病相似度计算方法,其特征在于,当患者元实例对应诊断为某个疾病的权值很低时,所述根据疾病向量,利用余弦距离计算两种疾病相似度的计算公式为: s i m ( D i → , D j → ) = Σ k ∈ T i j ( d i k + d j k ) Σ i ∈ T i d i k 2 · Σ i ∈ T j d j k 2 ; ]]>其中,为两种疾病向量之间的疾病相似度;dik、djk分别为各患者元实例对应诊断为Di、Dj两种疾病的权值,且其值高于设定权值;k为自然数;Ti为各患者元实例对应诊断为Di疾病的权值且高于设定权值;Tj为各患者元实例对应诊断为Dj疾病的权值且高于设定权值;Tij为各患者元实例分别对应诊断为Di、Dj两种疾病的权值且高于设...
【专利技术属性】
技术研发人员:韦辉华,王界兵,张伟,董迪马,郭宇翔,宋泰然,梁猛,
申请(专利权)人:深圳前海信息技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。