一种表型与疾病关联性计算方法、系统及介质技术方案

技术编号:39741461 阅读:11 留言:0更新日期:2023-12-17 23:42
本发明专利技术公开了一种症状表型与疾病关联性计算方法,包括根据人类表型特征库中每一个表型之间的从属关系形成的树形结构,为每一个表型生成对应的位置编码,对应生成位置编码库;2)输入与症状相关的表型集合以及与疾病相关的表型集合,各取其中任一表型,获得对应的位置编码,并根据该位置编码计算表型间的关联性;重复步骤直到计算与症状相关的表型集合以及与疾病相关的表型集合所有表型之间的关联性,并求得平均值,从而得出症状表型与疾病之间的关联性,本发明专利技术能够更精准地展示症状表型与疾病之间的关系,便捷地帮助医生完成疾病的诊断。诊断。诊断。

【技术实现步骤摘要】
一种表型与疾病关联性计算方法、系统及介质


[0001]本专利技术涉及生物信息领域,具体涉及一种表型与疾病关联性计算方法、系统及介质,用于实现对疾病的初筛。

技术介绍

[0002]在医生的临床诊断过程中,患者往往会有多种表型,尤其是一些疑难杂症(如遗传病),医生需要通过查找大量的资料才能从患者表型定位到患者实际所患的疾病,并且由于医生自身知识储备、从医经验等因素的影响,诊断结果的准确性往往受到很大影响。
[0003]在实际诊断过程中发现,患者表型往往有以下特点:(1)常常出现非特异性表型,比如咳嗽,肌营养不良(儿童),此类表型往往很常见,单从这些表型去考虑诊断结果,往往准确性较低;(2)无法从症状精确定位到表型,比如有些有明显运动发育迟缓的患者,可能语言能力较同龄人有轻微的落后,但是一部分医生认为这种语言能力差异在正常范围内,即把患者的表型判定为“运动发育迟缓”,而另一部分医生则认为语言能力差异已经算是语言发育迟缓了,加上患者比较怕生等特点,将患者表型判定为“全面发育迟缓”,此时对患者表型的判定就有了明显的差异;(3)对于某些疑难病(如某些代谢相关遗传病)单个患者表型可能会非常多(10个或更多),医生很难短时间内利用这些表型来准确定位到疾病,因为表型多就意味着需要参考非常的多的文献资料,而且这么多表型可能一部分和疾病A关联性强,一部分和疾病B关联性强,增加了医生判定的难度。
[0004]随着表型研究的不断深入,德国柏林查理特医科大学于2008年成立人类表型本体项目(Human Phenotype Ontology,HPO),建立人类表型特征数据库HPO,各国也逐渐加入其中。HPO数据库采用本体工程学、计算机科学对来自医学文献的表型信息进行结构化归纳,提供了人类疾病中表型异常的标准词汇,并对表型相关词汇建立分层关系,更精准地描述表型。在此基础上,如何通过表型更精准、更便捷地定位到疾病,成为各国研究的课题。

技术实现思路

[0005]本专利技术要解决的技术问题:针对现有技术的上述问题,提供一种表型与疾病关联性计算方法、系统及介质,更精准、更便捷地计算出表型与疾病的关联性。
[0006]为了解决上述技术问题,本专利技术采用的技术方案为:
[0007]一种表型与疾病关联性计算方法,实施步骤包括:
[0008]1)根据人类表型特征库HPO中每一个表型hpo之间的从属关系形成的树形结构,为每一个表型hpo生成对应的位置编码treecode,对应生成位置编码库TREECODE;
[0009]2)输入与症状相关的表型集合Set1以及与疾病相关的表型集合Set2,取Set1中任一表型a,Set2中任一表型b,获得a与b对应的位置编码,并根据该位置编码计算a与b的关联性;
[0010]3)重复步骤2)直到计算出Set1与Set2中所有表型之间的关联性,并求得平均值,得到Set1与Set2的关联性,从而得出症状表型与疾病之间的关联性。
[0011]可选地,所述位置编码treecode为字符串,由数字编码和符号间隔组成,其中数字编码的个数表示该treecode对应的表型hpo在HPO树形结构中的层级,数字编码的数值表示上述hpo在HPO树形结构中对应层级的子节点位置。
[0012]可选地,所述treecode具体生成步骤为:
[0013]11)以人类表型特征库HPO的根节点做为第一个访问的节点,根节点对应的treecode为01,根节点设置为当前节点;
[0014]12)若当前节点有子节点,则第n个子节点对应的treecode为当前节点的treecode加上符号“.”和数字编码“n”,执行步骤13);若当前节点没有子节点,且树形结构中的所有节点均被访问,计算终止;
[0015]13)将步骤12)中的子节点设置为当前节点,返回步骤12)继续执行。
[0016]可选地,所述步骤2)计算a与b的关联性的方法为:
[0017][0018]其中,a和b对应的treecode集合为T1和T2,t1和t2分别为T1和T2中的任一treecode,如果t1包含的数值与t2所包含的前n个数值相等,则b为a的后代节点,反之亦然,如果a和b互相无后代节点关系,则a与b的距离公式为:
[0019]d(t1,t2)=len(t1)+len(t2)

2*common_len(t1,t2)
[0020]dist(a,b)=min(d(t1,t2)),t1∈T1,t2∈T2
[0021]其中len表示treecode中包含的数字个数,common_len(t1,t2)为两个treecode从头开始相等的编码段长度。
[0022]可选地,所述步骤3)通过以下公式计算症状表型与疾病的关联性:
[0023][0024]其中size(Set1)为Set1中元素的个数。
[0025]本专利技术还提供一种表型与疾病关联性计算系统,包括计算机设备,该计算机设备被编程或配置以执行上述表型与疾病关联性计算方法的步骤,或该计算机设备的存储器上存储有被编程或配置以执行上述表型与疾病关联性计算方法的计算机程序。
[0026]本专利技术还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行上述表型与疾病关联性计算方法的计算机程序。
[0027]和现有技术相比,本专利技术具有下述优点:本专利技术运用人类表型特征数据库HPO中的标准数据,通过计算表型与疾病之间的关联性,能够更精准地展示表型与疾病之间的关系,便捷地帮助医生完成疾病的诊断。
附图说明
[0028]图1为本实施例中所述部分HPO树形结构示意图。
具体实施方式
[0029]本实施例表型与疾病关联性计算方法的实施步骤包括:
[0030]1)根据人类表型特征库HPO中每一个表型hpo之间的从属关系形成的树形结构,为每一个表型hpo生成对应的位置编码treecode,对应生成位置编码库TREECODE;
[0031]人类表型特征数据库HPO中包含的单个人类表型特征hpo,描述了一种人类的异常表型即症状,且表型之间有从属关系,如表型“视力异常”是比较概括性的症状描述,下属又可分为“视觉异常”、“色觉异常”,而“视觉异常”又可以往下细分为更详细的症状,此种从属关系形成了一个树形结构,通过字符串编码表示表型在树形结构中的位置,能够更方便地获取表型与表型之间的关系。
[0032]2)输入与症状相关的表型集合Set1以及与疾病相关的表型集合Set2,取Set1中任一表型a,Set2中任一表型b,获得a与b对应的位置编码,并根据该位置编码计算a与b的关联性;
[0033]3)重复步骤2)直到计算出Set1与Set2中所有表型之间的关联性,并求得平均值,得到Set1与Set2的关联性,从而得出症状表型与疾病之间的关联性。
[0034]本实施例提供表型与疾病关联性计算方法通过运用人类表型特征数据库HPO中的标准数据,通过计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种症状表型与疾病关联性计算方法,其特征在于实施步骤包括:1)根据人类表型特征库HPO中每一个表型hpo之间的从属关系形成的树形结构,为每一个表型hpo生成对应的位置编码treecode,对应生成位置编码库TREECODE;2)输入与症状相关的表型集合Set1以及与疾病相关的表型集合Set2,取Set1中任一表型a,Set2中任一表型b,获得a与b对应的位置编码,并根据该位置编码计算a与b的关联性;3)重复步骤2)直到计算出Set1与Set2中所有表型之间的关联性,并求得平均值,得到Set1与Set2的关联性,从而得出症状表型与疾病之间的关联性。2.根据权利要求1所述的一种症状表型与疾病关联性计算方法,其特征在于,所述位置编码treecode为字符串,由数字编码和符号间隔组成,其中数字编码的个数表示该treecode对应的表型hpo在HPO树形结构中的层级,数字编码的数值表示上述hpo在HPO树形结构中对应层级的子节点位置。3.根据权利要求2所述的一种症状表型与疾病关联性计算方法,其特征在于,所述treecode具体生成步骤为:11)以人类表型特征库HPO的根节点做为第一个访问的节点,根节点对应的treecode为01,根节点设置为当前节点;12)若当前节点有子节点,则第n个子节点对应的treecode为当前节点的treecode加上符号“.”和数字编码“n”,执行步骤13);若当前节点没有子节点,且树形结构中的所有节点均被访问,计算终止;13)将步骤12)中的子节点设置为当前节点,返回步骤12)继续...

【专利技术属性】
技术研发人员:蒋艳凰余硕军雷鹏张少伟万斌康佳琪
申请(专利权)人:人和未来生物科技长沙有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1