基于多层级结构相似度的单基因病名称推荐方法和系统技术方案

技术编号:24690233 阅读:29 留言:0更新日期:2020-06-27 09:57
本发明专利技术公开一种基于多层级结构相似度的单基因病名称推荐方法和系统,能够智能精准的推荐出所匹配的单基因病名称。该方法包括:构建单基因病的标准化临床特征表型树;将用户输入的特征集合I中的临床特征在表型树上的节点标记;遍历特征关系数据库中的第n个单基因病名称,将其对应特征集合A中的标准临床特征在表型树上的节点标记;从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征;计算特征集合I与当前特征集合A的集合相似度值;令n=n+1重新遍历特征关系数据库,直至特征关系数据库中的单基因病名称遍历完毕,将特征集合I与每个特征集合A对应的集合相似度值汇总排序,输出最高相似度值对应的单基因病名称。

Single gene disease name recommendation method and system based on multi-level structure similarity

【技术实现步骤摘要】
基于多层级结构相似度的单基因病名称推荐方法和系统
本专利技术涉及医学信息
,尤其涉及一种基于多层级结构相似度的单基因病名称推荐方法和系统。
技术介绍
单基因病是一种常见疾病,它是由一对等位基因突变导致的疾病,又称孟德尔式遗传病,其特点如下:1、单基因病种类繁多,目前已发现的单基因病有8000种以上;2、单基因病表型复杂,同一种单基因病表型异质性强,存在不同单基因病之间临床特征相互重叠的现象;3、单基因病遗传模式多样化,即使同一种单基因病,也可能表现为不同的遗传模式,不同的单基因病也可表现为相同的遗传模式。4、大部分单基因病发病率很低,较为罕见。这些复杂因素使得临床医生很难对所有的单基因病表型都了解,给单基因病临床诊疗带来了极大的困难。现有技术有通过建立单基因病与临床特征中文数据库,在此基础上,根据患者临床特征对可能的单基因病进行推荐,并提供便利的辅助诊断工具,为临床医生提供诊断线索,进而提高临床医生诊断的正确率,降低漏诊和误诊发生概率。具体为,基于用户输入的病例特征和标准化表型,利用Elestic相似度和Fisher精确检验富集分析方法对单基因病名称进行推荐,其中,Elestic相似度是对输入文本的相似度测量,不能考虑关键字词的含义,譬如“少汗症”和“多汗症”,可能推荐出表型相反的疾病名称排在最前面的情形,Fisher精确检验弊端在于,结果准确性严重依赖于输入的表型是否准确,由于单基因病的表型复杂性,医生很难保证输入的表型就是疾病的标准化表型,若输入的是近似表型,可能导致推荐结果出现误差。
技术实现思路
本专利技术的目的在于提供一种基于多层级结构相似度的单基因病名称推荐方法和系统,减少对医生的输入限制要求,智能精准的推荐出所匹配的单基因病名称。为了实现上述目的,本专利技术的一方面提供一种基于多层级结构相似度的单基因病名称推荐方法,包括:根据单基因病名称的特征关系数据库,构建单基因病的标准化临床特征表型树;将用户输入的特征集合I中的临床特征在标准化临床特征表型树上的节点标记;遍历特征关系数据库中的第n个单基因病名称,将其对应特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记,所述n的初始值为1;基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征;根据每个临床特征与对应的最佳标准临床特征的相似度值,计算出特征集合I与当前特征集合A的集合相似度值;令n=n+1重新遍历特征关系数据库中的第n个单基因病名称,直至特征关系数据库中的单基因病名称遍历完毕,将特征集合I与每个特征集合A对应的集合相似度值汇总排序,输出最高相似度值对应的单基因病名称。优选地,根据单基因病名称的特征关系数据库的方法包括:从单基因病的公共数据库和文献数据库,获得已知的单基因病名称及其对应的标准临床特征;基于已知的单基因病名称及其对应的标准临床特征,建立单基因病名称与标准临床特征的特征关系数据库;分别计算每种单基因病名称对应的各标准临床特征对该单基因病的贡献度ci。较佳地,构建单基因病的标准化临床特征表型树的方法包括:从特征关系数据库中获取数据,基于HPO构建单基因病的标准化临床特征表型树;所述标准化临床特征表型树由多个干节点和与每个干节点关联的至少一个支节点组成,每个支节点用于表示一个标准化临床特征,每个干节点用于表示关联的标准化临床特征的索引。进一步地,基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征的方法包括:所述特征集合I包括多个临床特征,所述特征集合A包括多个标准临床特征;遍历所述特征集合I中的第i个临床特征,从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征,作为与所述第i个临床特征对应的最佳标准临床特征,所述i的初始值为1;令i=i+1后重新遍历所述特征集合I中的第i个临床特征,直至特征集合I中的临床特征遍历完毕,从第n个单基因病名称对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征。优选地,从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征的方法包括:遍历所述特征集合A中的第j个标准临床特征,基于已建立的索引判断所述第j个标准临床特征与所述第i个临床特征是否存在相同的干节点Bt,所述j的初始值为1;若判断结果为否,则认为所述第j个标准临床特征与所述第i个临床特征的相似度值为零;若判断结果为是,基于多层级结构相似度算法计算所述第j个标准临床特征与所述第i个临床特征的相似度值;令j=j+1后重新遍历所述特征集合A中的第j个标准临床特征,并继续执行所述第j个标准临床特征与所述第i个临床特征的相似度计算,直至所述特征集合A中的标准临床特征遍历完毕,对应得到与所述特征集合A中标准临床特征一一对应的多个相似度值;从多个相似度值筛中筛选出最大值对应的标准临床特征作为与第i个临床特征对应的最佳标准临床特征。优选地,基于多层级结构相似度算法计算所述第j个标准临床特征与所述第i个临床特征的相似度值的方法包括:基于标准化临床特征表型树上的节点标记,获取第i个临床特征与相同干节点Bt连接通路中所有节点的有向集合IB,以及获取第j个标准临床特征相同干节点Bt连接通路中所有节点的有向集合AB,所述有向集合IB长度的值为通路中节点的个数LIB,所述有向集合AB长度的值为通路中节点的个数LAB;提取所述有向集合IB和所述有向集合AB中节点的交集IAB,所述交集IAB长度的值为通路中共有节点的个数LIAB;采用公式SIiAj=β·SM+(1-β)·SI计算所述第j个标准临床特征与所述第i个临床特征的相似度值;其中,所述SM表示所述第j个标准临床特征与所述第i个临床特征在表型树多层次间的相似度值;所述SI表示所述第j个标准临床特征与所述第i个临床特征在表型树同层次间的相似度值,所述β为权重系数。示例地,所述SM的计算公式为SM=LIAB/max(LAB,LIB),所述SI的计算公式为SI=1/(LAB+LIB-2LIAB+1)。优选地,根据每个临床特征与对应的最佳标准临床特征的相似度值,计算出特征集合I与当前特征集合A的集合相似度值的方法包括:利用第i个临床特征的贡献度ci,对特征集合A中与之对应最佳标准临床特征的最大相似度值进行加权处理;令i=i+1,重新对特征集合A中与第i个临床特征对应的最佳标准临床特征的最大相似度值进行加权处理,直至将特征集合A中筛选出的全部最佳标准临床特征加权处理完毕,累加特征集合A中全部最佳标准临床特征对应的加权最大相似度值,得到特征集合I与当前特征集合A的集合相似度值。与现有技术相比,本专利技术提供的基于多层级结构相似度的单基因病名称推荐方法具有以下有益效果:本专利技术本文档来自技高网
...

【技术保护点】
1.一种基于多层级结构相似度的单基因病名称推荐方法,其特征在于,包括:/n根据单基因病名称的特征关系数据库,构建单基因病的标准化临床特征表型树;/n将用户输入的特征集合I中的临床特征在标准化临床特征表型树上的节点标记;/n遍历特征关系数据库中的第n个单基因病名称,将其对应特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记,所述n的初始值为1;/n基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I每个临床特征对应的最佳标准临床特征;/n根据每个临床特征与对应的最佳标准临床特征的相似度值,计算出特征集合I与当前特征集合A的集合相似度值;/n令n=n+1重新遍历特征关系数据库中的第n个单基因病名称,直至特征关系数据库中的单基因病名称遍历完毕,将特征集合I与每个特征集合A对应的集合相似度值汇总排序,输出最高相似度值对应的单基因病名称。/n

【技术特征摘要】
1.一种基于多层级结构相似度的单基因病名称推荐方法,其特征在于,包括:
根据单基因病名称的特征关系数据库,构建单基因病的标准化临床特征表型树;
将用户输入的特征集合I中的临床特征在标准化临床特征表型树上的节点标记;
遍历特征关系数据库中的第n个单基因病名称,将其对应特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记,所述n的初始值为1;
基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I每个临床特征对应的最佳标准临床特征;
根据每个临床特征与对应的最佳标准临床特征的相似度值,计算出特征集合I与当前特征集合A的集合相似度值;
令n=n+1重新遍历特征关系数据库中的第n个单基因病名称,直至特征关系数据库中的单基因病名称遍历完毕,将特征集合I与每个特征集合A对应的集合相似度值汇总排序,输出最高相似度值对应的单基因病名称。


2.根据权利要求1所述的方法,其特征在于,根据单基因病名称的特征关系数据库的方法包括:
从单基因病的公共数据库和文献数据库,获得已知的单基因病名称及其对应的标准临床特征;
基于已知的单基因病名称及其对应的标准临床特征,建立单基因病名称与标准临床特征的特征关系数据库;
分别计算每种单基因病名称对应的各标准临床特征对该单基因病的贡献度ci。


3.根据权利要求2所述的方法,其特征在于,构建单基因病的标准化临床特征表型树的方法包括:
从特征关系数据库中获取数据,基于HPO构建单基因病的标准化临床特征表型树;
所述标准化临床特征表型树由多个干节点和与每个干节点关联的至少一个支节点组成,每个支节点用于表示一个标准化临床特征,每个干节点用于表示关联的标准化临床特征的索引。


4.根据权利要求3所述的方法,其特征在于,基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征的方法包括:
所述特征集合I包括多个临床特征,所述特征集合A包括多个标准临床特征;
遍历所述特征集合I中的第i个临床特征,从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征,作为与所述第i个临床特征对应的最佳标准临床特征,所述i的初始值为1;
令i=i+1后重新遍历所述特征集合I中的第i个临床特征,直至特征集合I中的临床特征遍历完毕,从第n个单基因病名称对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征。


5.根据权利要求4所述的方法,其特征在于,从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征的方法包括:
遍历所述特征集合A中的第j个标准临床特征,基于已建立的索引判断所述第j个标准临床特征与所述第i个临床特征是否存在相同的干节点Bt,所述j的初始值为1;
若判断结果为否,则认为所述第j个标准临床特征与所述第i个临床特征的相似度值为零;
若判断结果为是,基于多层级结构相似度算法计算所述第j个标准临床特征与所述第i个临床特征的相似度值;
令j=j+1后重新遍历所述特征集合A中的第j个标准临床特征,并继续执行所述第j个标准临床特征与所述第i个临床特征的相似度计算,直至所述特征集合A中的标准临床特...

【专利技术属性】
技术研发人员:马旭曹宗富陈翠霞喻浴飞蔡瑞琨李乾罗敏娜
申请(专利权)人:国家卫生健康委科学技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1