【技术实现步骤摘要】
基于多层级结构相似度的单基因病名称推荐方法和系统
本专利技术涉及医学信息
,尤其涉及一种基于多层级结构相似度的单基因病名称推荐方法和系统。
技术介绍
单基因病是一种常见疾病,它是由一对等位基因突变导致的疾病,又称孟德尔式遗传病,其特点如下:1、单基因病种类繁多,目前已发现的单基因病有8000种以上;2、单基因病表型复杂,同一种单基因病表型异质性强,存在不同单基因病之间临床特征相互重叠的现象;3、单基因病遗传模式多样化,即使同一种单基因病,也可能表现为不同的遗传模式,不同的单基因病也可表现为相同的遗传模式。4、大部分单基因病发病率很低,较为罕见。这些复杂因素使得临床医生很难对所有的单基因病表型都了解,给单基因病临床诊疗带来了极大的困难。现有技术有通过建立单基因病与临床特征中文数据库,在此基础上,根据患者临床特征对可能的单基因病进行推荐,并提供便利的辅助诊断工具,为临床医生提供诊断线索,进而提高临床医生诊断的正确率,降低漏诊和误诊发生概率。具体为,基于用户输入的病例特征和标准化表型,利用Elestic相似度和Fisher精确检验富集分析方法对单基因病名称进行推荐,其中,Elestic相似度是对输入文本的相似度测量,不能考虑关键字词的含义,譬如“少汗症”和“多汗症”,可能推荐出表型相反的疾病名称排在最前面的情形,Fisher精确检验弊端在于,结果准确性严重依赖于输入的表型是否准确,由于单基因病的表型复杂性,医生很难保证输入的表型就是疾病的标准化表型,若输入的是近似表型,可能导致 ...
【技术保护点】
1.一种基于多层级结构相似度的单基因病名称推荐方法,其特征在于,包括:/n根据单基因病名称的特征关系数据库,构建单基因病的标准化临床特征表型树;/n将用户输入的特征集合I中的临床特征在标准化临床特征表型树上的节点标记;/n遍历特征关系数据库中的第n个单基因病名称,将其对应特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记,所述n的初始值为1;/n基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I每个临床特征对应的最佳标准临床特征;/n根据每个临床特征与对应的最佳标准临床特征的相似度值,计算出特征集合I与当前特征集合A的集合相似度值;/n令n=n+1重新遍历特征关系数据库中的第n个单基因病名称,直至特征关系数据库中的单基因病名称遍历完毕,将特征集合I与每个特征集合A对应的集合相似度值汇总排序,输出最高相似度值对应的单基因病名称。/n
【技术特征摘要】
1.一种基于多层级结构相似度的单基因病名称推荐方法,其特征在于,包括:
根据单基因病名称的特征关系数据库,构建单基因病的标准化临床特征表型树;
将用户输入的特征集合I中的临床特征在标准化临床特征表型树上的节点标记;
遍历特征关系数据库中的第n个单基因病名称,将其对应特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记,所述n的初始值为1;
基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I每个临床特征对应的最佳标准临床特征;
根据每个临床特征与对应的最佳标准临床特征的相似度值,计算出特征集合I与当前特征集合A的集合相似度值;
令n=n+1重新遍历特征关系数据库中的第n个单基因病名称,直至特征关系数据库中的单基因病名称遍历完毕,将特征集合I与每个特征集合A对应的集合相似度值汇总排序,输出最高相似度值对应的单基因病名称。
2.根据权利要求1所述的方法,其特征在于,根据单基因病名称的特征关系数据库的方法包括:
从单基因病的公共数据库和文献数据库,获得已知的单基因病名称及其对应的标准临床特征;
基于已知的单基因病名称及其对应的标准临床特征,建立单基因病名称与标准临床特征的特征关系数据库;
分别计算每种单基因病名称对应的各标准临床特征对该单基因病的贡献度ci。
3.根据权利要求2所述的方法,其特征在于,构建单基因病的标准化临床特征表型树的方法包括:
从特征关系数据库中获取数据,基于HPO构建单基因病的标准化临床特征表型树;
所述标准化临床特征表型树由多个干节点和与每个干节点关联的至少一个支节点组成,每个支节点用于表示一个标准化临床特征,每个干节点用于表示关联的标准化临床特征的索引。
4.根据权利要求3所述的方法,其特征在于,基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征的方法包括:
所述特征集合I包括多个临床特征,所述特征集合A包括多个标准临床特征;
遍历所述特征集合I中的第i个临床特征,从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征,作为与所述第i个临床特征对应的最佳标准临床特征,所述i的初始值为1;
令i=i+1后重新遍历所述特征集合I中的第i个临床特征,直至特征集合I中的临床特征遍历完毕,从第n个单基因病名称对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征。
5.根据权利要求4所述的方法,其特征在于,从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征的方法包括:
遍历所述特征集合A中的第j个标准临床特征,基于已建立的索引判断所述第j个标准临床特征与所述第i个临床特征是否存在相同的干节点Bt,所述j的初始值为1;
若判断结果为否,则认为所述第j个标准临床特征与所述第i个临床特征的相似度值为零;
若判断结果为是,基于多层级结构相似度算法计算所述第j个标准临床特征与所述第i个临床特征的相似度值;
令j=j+1后重新遍历所述特征集合A中的第j个标准临床特征,并继续执行所述第j个标准临床特征与所述第i个临床特征的相似度计算,直至所述特征集合A中的标准临床特...
【专利技术属性】
技术研发人员:马旭,曹宗富,陈翠霞,喻浴飞,蔡瑞琨,李乾,罗敏娜,
申请(专利权)人:国家卫生健康委科学技术研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。