人类表型本体的筛选方法、装置、设备及介质制造方法及图纸

技术编号:37160139 阅读:37 留言:0更新日期:2023-04-06 22:24
本申请提供一种人类表型本体的筛选方法、装置、设备及介质,将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语,将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后,根据预设的评分规则筛选出HPO筛选结果,从而提高筛选的准确性,进而提高推荐HPO的准确率。高推荐HPO的准确率。高推荐HPO的准确率。

【技术实现步骤摘要】
人类表型本体的筛选方法、装置、设备及介质


[0001]本专利技术属于医疗
,尤其涉及一种人类表型本体的筛选方法、装置、设备及介质。

技术介绍

[0002]人类遗传疾病是指由于遗传物质的改变而造成的疾病,而遗传病数量种类多且每年均有新发现的遗传疾病种类,使得遗传疾病成为危害人类健康的重要因素。
[0003]人类表型本体(HPO)是一个标准化受控的词典,它包含了基因和基因产物的表型信息。在人类在线孟德尔遗传数据库(online Mendelian Inheritance in Man)为大约8千个疾病提供了超过11万个基因注释,这些疾病被HPO术语所标注,使得HPO术语可以被用来描述所有的体征、症状和其他表型表现的特征。由于HPO包含了表型异常的关联信息,基于数据库搜索在关联人类疾病的基因表达模式的临床诊断或计算分析可以通过包含上述标注概念的HPO术语的语义相似度计算来实现。
[0004]然而HPO官方词条是英文版,对于英文临床文本的处理大致流程为:首先通过英文分词工具进行分词,然后通过统一医学系统(Unified Medic本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种人类表型本体的筛选方法,其特征在于,包括如下步骤:获取临床记录信息;将临床记录信息作为神经网络语言模型的输入,所述神经网络语言模型输出临床记录信息对应的第一表型信息;将第一表型信息作为HPO筛选模型的输入,获取HPO筛选结果;所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型,将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型,获取语义角度筛选术语及统计角度筛选术语;将语义角度筛选术语及统计角度筛选术语作为HPO层级扩充子模型的候选HPO术语,经过HPO层级扩充子模型的HPO层级关联关系扩展为召回HPO术语、HPO基因信息及HPO词对关联系数;将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语,将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后,根据预设的评分规则筛选出HPO筛选结果。2.根据权利要求1所述的人类表型本体的筛选方法,其特征在于,所述将临床记录信息作为神经网络语言模型的输入,所述神经网络语言模型输出临床记录信息对应的第一表型信息的步骤包括:将临床记录信息依据第一预设规则转换为编码序列Seq
token
(id1,id2...id
n
),将编码序列Seq
token
(id1,id2...id
n
)作为神经网络语言模型的输入,所述神经网络语言模型Seq
token
(id1,id2...id
n
)输出临床记录信息对应的第一表型信息。3.根据权利要求2所述的人类表型本体的筛选方法,其特征在于,所述神经网络语言模型输出临床记录信息对应的第一表型信息的步骤包括:所述神经网络语言模型包括概率算法模型、标签识别模型、过滤算法模型及表型位置提取模型;将编码序列Seq
token
(id1,id2...id
n
)输入至概率算法模型,获取概率矩阵M(vec1,vec2...vec
n
),其中vec为高维向量;将概率矩阵M(vec1,vec2...vec
n
)输入至标签识别模型,所述标签识别模型自概率矩阵中筛选出标签序列Seq
label
(t1,t2...t
n
)Seq
label
(t1,t2...t
n
);将标签序列Seq
label
(t1,t2...t
n
)输入至过滤算法模型,所述过滤算法模型对标签序列进行纠正,获得过滤后的标签序列Seq
label
(t1,t2...t
n
);将过滤后的标签序列输入至表型位置提取模型,获取表型位置标记的三元集合G,{[idx
start
,idx
end
,p
start
+p
end
]∈G

0<start<end<n},其中p
x
=max(vec
x
),Score1=p
start
+p
end
p
x
=max(vec
x
),Score1=p
start
+p
end
,p为表型的置信值,Score1为置信值得分,p
start
为标签序列中的最高的置信值;将表型位置标记的三元集合G输入至HPO筛选算法模型,获取三元集合G的得分Score2=HPO(x),x∈GScore2=HPO(x),x∈G;将Score1Score1与第一阈值进行比较,将Score2Score2与第二阈值进行比较,获得第一表型集合,所述第一表型集合为第一表型信息,第一阈值和第二阈值为人工预设参考值。
4.根据权利要求1所述的人类表型本体的筛选方法,其特征在于,所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型,将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型,获取语义角度筛选术语及统计角度筛选术语,将语义角度筛选术语及统计角度筛选术语作为HPO层级扩充子模型的候选HPO术语的步骤包括:将召回HPO术语复制后输入至表型语义角度子模型,对所述第一表型信息依据第二预设规则对第一表型信息进行分词,获得分词结果P
c
(w1,w2...w
n
)P
c...

【专利技术属性】
技术研发人员:林志鹏牟文博田昊方萍
申请(专利权)人:广州金域医学检验集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1