融合自监督和主动学习的医学术语自动标准化系统及方法技术方案

技术编号：30180204 阅读：34 留言：0更新日期：2021-09-25 15:42

本发明专利技术公开了一种融合自监督和主动学习的医学术语自动标准化系统及方法，该系统包括候选集生成模块、训练术语标准化模型的自监督学习模块、主动学习模块、用于对术语标准化模型预测结果从文本和语义维度进行全面评估的精准排序模块等基础模块，还包括半监督学习模块、直系上级术语检索模块等优选模块；本发明专利技术可在标注数据较少的情况下实现自动化的医学术语标准化模型，并且使模型保持快速更新升级的能力，确保输出结果准确性的同时大幅减少人工干预的工作量；对于新增的临床概念能够匹配到直系上级术语，在标准术语表中找到准确的位置，从而保证标准化结果的完整性和统一性。从而保证标准化结果的完整性和统一性。从而保证标准化结果的完整性和统一性。

全部详细技术资料下载

【技术实现步骤摘要】
融合自监督和主动学习的医学术语自动标准化系统及方法

[0001]本专利技术属于中文医学术语标准化及多中心医学信息平台
，尤其涉及一种融合自监督和主动学习的医学术语自动标准化系统及方法。

技术介绍

[0002]随着电子病历系统的普及，大量医疗相关的重要信息以电子形式存储于各种各样的医疗信息系统中，这些数据为临床辅助诊断、药物研发、公共卫生监测评估、传染病疫情预警、个性化精准医疗等创造了巨大价值。医疗数据标准化是推动国内医疗系统一体化，实现医疗数据协同研究、大规模分析的关键步骤。实现医学术语的标准化是医疗数据标准化进程中首先要解决的难题。国际上对于不同类型的医学术语分别有对应的标准术语体系，包括疾病术语集ICD
‑
10、手术操作编码ICD
‑9‑
CM
‑
3、医学检验术语集LONIC等。但是医院或其他医疗机构在实际操作过程中不能很好地利用国际通用的标准术语集，主要原因在于：(1)不同医院经常采用不同的医疗信息系统，而这些信息系统采用的数据标准也会各不相同，导致产出的医疗术...

【技术保护点】

【技术特征摘要】
1.一种融合自监督和主动学习的医学术语自动标准化系统，其特征在于，该系统包括：(1)候选集生成模块：基于文本相关性模型和标准术语表的层级结构进行负样本采样生成训练候选集，基于文本相关性模型进行可能的正样本采样生成预测候选集；(2)自监督学习模块：用于训练术语标准化模型，包括：通过自适应方法训练中文医学语言模型，获取原始临床概念和标准术语的语义向量；通过语义匹配模型，分别计算带标签的原始临床概念与其标签和训练候选集的负样本的语义相似度；采用自监督学习方式，根据语义相似度计算术语标准化模型的损失函数；(3)主动学习模块：利用无标签的原始临床概念与预测候选集的标准术语计算语义相似度分数；根据主动学习的标准筛选出当前术语标准化模型最不确定的一组样本，确定它们的标签后融入训练候选集；(4)精准排序模块：获取原始临床概念与自监督学习模块输出的标准术语的语义相似度分数作为语义特征，并计算文本特征，基于语义和文本特征训练基于回归决策树的精准排序模型，用于计算医学术语标准化结果的置信分数；使用训练完成的精准排序模型对预测候选集中的标准术语正样本计算置信分数，得到置信分数最大的标准术语。2.根据权利要求1所述的一种融合自监督和主动学习的医学术语自动标准化系统，其特征在于，所述医学术语自动标准化系统还包括半监督学习模块，所述半监督学习模块将精准排序模块输出医学术语标准化结果的置信分数满足条件的样本融合到训练候选集。3.根据权利要求1所述的一种融合自监督和主动学习的医学术语自动标准化系统，其特征在于，所述医学术语自动标准化系统还包括直系上级术语检索模块，所述直系上级术语检索模块包括：对原始临床概念获取精准排序模型预测的置信分数最高的一组标准术语，生成它们在标准术语表的层级结构中向上级回溯的路径；基于多数投票的原则确定原始临床概念对应的直系上级术语。4.一种融合自监督和主动学习的医学术语自动标准化方法，其特征在于，该方法包括：(1)生成负样本和正样本，分别构建训练候选集和预测候选集：基于文本相关性模型和标准术语表的层级结构进行负样本采样生成训练候选集，基于文本相关性模型进行可能的正样本采样生成预测候选集；(2)通过自监督学习训练术语标准化模型：通过自适应方法训练中文医学语言模型，获取原始临床概念和标准术语的语义向量；通过语义匹配模型，分别计算带标签的原始临床概念与其标签和训练候选集的负样本的语义相似度；采用自监督学习方式，根据语义相似度计算术语标准化模型的损失函数；(3)通过主动学习实现术语标准化模型快速升级：利用无标签的原始临床概念与预测候选集的标准术语计算语义相似度分数；根据主动学习的标准筛选出当前术语标准化模型最不确定的一组样本，确定它们的标签后融入训练候选集；(4)训练精准排序模型，对术语标准化模型预测结果从文本和语义维度进行全面评估：获取原始临床概念与步骤二自监督学习输出的标准术语的语义相似度分数作为语义特征，并计算文本特征；基于语义和文本特征训练基于回归决策树的精准排序模型，用于计算医学术语标准化结果的置信分数；(5)预测最终的术语标准化结果：使用训练完成的精准排序模型对预测候选集中的标
准术语正样本计算置信分数，取置信分数最大的标准术语作为术语标准化结果。5.根据权利要求4所述的一种融合自监督...

【专利技术属性】
技术研发人员：李劲松，杨宗峰，辛然，李玉格，史黎鑫，田雨，周天舒，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人