一种临床信息文本标准化的方法、装置、设备及介质制造方法及图纸

技术编号:40180913 阅读:26 留言:0更新日期:2024-01-26 23:47
本申请公开了一种临床信息文本标准化的方法、装置、设备及介质,涉及高通量测序与变异检测技术领域,包括:将待转换临床信息中文文本进行中英文转换和文本处理,得到医疗英文词汇集合;利用目标哈希表检索医疗英文词汇集合,得到字符串匹配成功的第一目标医疗英文词汇与对应第一标准人类表型本体论术语以及第二目标医疗英文词汇;将第二目标医疗英文词汇、总标准人类表型本体论术语文件输入至预训练语言模型,以便预训练语言模型输出与第二目标医疗英文词汇对应的第二标准人类表型本体论术语;基于第一标准人类表型本体论术语、第二标准人类表型本体论术语确定待转换临床信息中文文本的标准人类表型本体论术语。实现临床信息中文文本的标准化。

【技术实现步骤摘要】

本专利技术涉及高通量测序与变异检测,特别涉及一种临床信息文本标准化的方法、装置、设备及介质


技术介绍

1、人类表型本体hpo(human phenotype ontology,人类表型本体论)词条的提取方法主要有如下两种:基于规则的方法和基于深度学习的方法。基于规则的方法主要通过构建词汇表+编写正则表达式等规则,根据规则去匹配识别文本中的hpo术语。这类方法通常适用于简单的人类表型本体hpo词条转换场景。但是常规的临床信息文本存在着语言表达本体众多难以穷举规则、无法考虑上下文语意导致错误识别等问题。目前的主要hpo术语提取方法是基于深度学习的方法。基于深度学习的方法常规使用标注好的数据训练序列标注模型,通过训练完成的模型对hpo术语标注预测结果,能够有效利用文本的语义对hpo术语进行提取。

2、目前基于深度学习的方法存在着如下的技术局限性:标注训练数据短缺、上下文语义建模能力不足以及端到端系统耗时长的问题。目前公开的标注hpo数据集还比较小,大多在几万条左右,小数据集会导致模型学习不充分,对low frequency(低频特征)的长尾现象学习本文档来自技高网...

【技术保护点】

1.一种临床信息文本标准化方法,其特征在于,包括:

2.根据权利要求1所述的临床信息文本标准化方法,其特征在于,所述对所述临床信息英文文本进行文本切分处理和文本识别处理,以得到医疗英文词汇构建的医疗英文词汇集合,包括:

3.根据权利要求1所述的临床信息文本标准化方法,其特征在于,所述利用基于标准人类表型本体论术语编号与医疗英文词汇构建的目标哈希表检索所述医疗英文词汇集合,以得到字符串匹配成功的第一目标医疗英文词汇与对应的第一标准人类表型本体论术语以及未匹配成功的第二目标医疗英文词汇之前,还包括:

4.根据权利要求3所述的临床信息文本标准化方法,其特征在...

【技术特征摘要】

1.一种临床信息文本标准化方法,其特征在于,包括:

2.根据权利要求1所述的临床信息文本标准化方法,其特征在于,所述对所述临床信息英文文本进行文本切分处理和文本识别处理,以得到医疗英文词汇构建的医疗英文词汇集合,包括:

3.根据权利要求1所述的临床信息文本标准化方法,其特征在于,所述利用基于标准人类表型本体论术语编号与医疗英文词汇构建的目标哈希表检索所述医疗英文词汇集合,以得到字符串匹配成功的第一目标医疗英文词汇与对应的第一标准人类表型本体论术语以及未匹配成功的第二目标医疗英文词汇之前,还包括:

4.根据权利要求3所述的临床信息文本标准化方法,其特征在于,所述将所述第二目标医疗英文词汇以及总标准人类表型本体论术语文件输入至预训练语言模型,以便所述预训练语言模型输出与所述第二目标医疗英文词汇对应的第二标准人类表型本体论术语,包括:

5.根据权利要求4所述的临床信息文本标准化方法,其特征在于...

【专利技术属性】
技术研发人员:尹泽宇姜玥栗海波
申请(专利权)人:苏州赛美科基因科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1