【技术实现步骤摘要】
远程医疗实体链接的方法、装置、设备及存储介质
本专利技术涉及机器学习
,具体涉及远程医疗实体链接的方法、装置、设备及存储介质。
技术介绍
标准的医学实体在现实世界常常有不规范的表述,比如症状“痉挛”,在病历中会被表述成“突发全身抽筋”。我们需要将表述不规范的实体链接到标准实体,以将医疗术语进行规范。现有技术中,使用Google发布的BERT中文语言模型,通过在其fine-tuning微调阶段设置参数,获取输出层的倒数第二层获得实体词向量;然后,根据获得的实体词向量计算不同实体之间的余弦距离,即语义相似度;最后,通过设置阈值,依据语义相似度进行实体对齐。仅基于相似度计算的实体链接方法,在面对候选相近的情况时,通常很难处理,实体链接结果不理想。
技术实现思路
有鉴于此,本专利技术为了在至少一定程度上克服相关技术中存在的问题,提供一种远程医疗实体链接的方法、装置、设备及存储介质。基于上述目的,本专利技术提供了一种远程医疗实体链接的方法包括:获取待链接实体的文本中各词的词嵌入向量;根据各所述词嵌入向量,确定所述文本中不规范实体的第一特征表示;确定医疗知识图谱中与所述不规范实体的相似度达到预设相似度值的候选实体集合;获取医疗知识图谱中所述候选实体集合中各候选实体的第二特征表示;计算所述第一特征表示与各所述第二特征表示之间的差异分数,根据各所述差异分数确定出所述第二特征表示对应的候选实体中的标准实体;将所述不规范实体与所述标准实体链接。r>进一步地,上述所述的远程医疗实体链接的方法中,所述获取待链接实体的文本中各词的词嵌入向量,包括:将所述待链接实体的文本输入预先训练的bert模型,得到所述词嵌入向量。进一步地,上述所述的远程医疗实体链接的方法中,所述根据各所述词嵌入向量,确定所述文本中不规范实体的第一特征表示,包括将所述词嵌入向量输入预先训练的bilstm模型;确定所述文本中的不规范实体;将所述不规范实体的前一个词和所述不规范实体中的最后一个词的输出,作为所述第一特征表示。进一步地,上述所述的远程医疗实体链接的方法中,所述确定医疗知识图谱中与所述不规范实体的相似度达到预设相似度值的候选实体集合,包括:基于BM25算法,检索医疗知识图谱中与所述不规范实体的相似度达到预设相似度值的候选实体集合。进一步地,上述所述的远程医疗实体链接的方法中,获取医疗知识图谱中所述候选实体集合中各候选实体的第二特征表示,包括:基于GNN网络模型,计算所述医疗知识图谱中各实体的第三特征表示;确定所述第三特征表示中,属于所述候选实体的第二特征表示。进一步地,上述所述的远程医疗实体链接的方法中,计算所述第一特征表示与各所述第二特征表示之间的差异分数,根据各所述差异分数确定出所述第二特征表示对应的候选实体中的标准实体,包括:将所述第一特征表示与各所述第二特征表示输入预先训练的标准实体预测模型中;通过所述标准实体预测模型计算所述差异分数,并根据各所述差异分数确定出所述第二特征表示对应的候选实体中的标准实体。进一步地,上述所述的远程医疗实体链接的方法中,所述预先训练的标准实体预测模型的训练过程包括:获取训练集,所述训练集中包括N个不规范实体样本的第一样本特征表示,以及与各所述不规范样本对应的各候选样本实体的第二样本特征表示;将所述训练集中的第一样本特征表示和第二样本特征表示输入初始前馈神经网络模型中,以通过所述初始前馈神经网络模型计算所述第一样本特征表示与各所述第二样本特征表示之间的样本差异分数;根据所述样本差异分数计算损失函数;若所述损失函数大于或等于预设阈值,调整所述初始前馈神经网络模型中隐藏层的权重参数,并再次执行所述将所述训练集中的第一样本特征表示和第二样本特征表示输入初始前馈神经网络模型中的步骤,直至所述损失函数小于所述预设阈值;将所述损失函数小于预设阈值时的所述初始前馈神经网络模型作为所述标准实体预测模型。本专利技术还提供一种远程医疗实体链接的装置,包括:第一获取模块,用于获取待链接实体的文本中各词的词嵌入向量;第一确定模块,用于根据各所述词嵌入向量,确定所述文本中不规范实体的第一特征表示;第二确定模块,用于确定医疗知识图谱中与所述不规范实体的相似度达到预设相似度值的候选实体集合;第二获取模块,用于获取医疗知识图谱中所述候选实体集合中各候选实体的第二特征表示;计算模块,用于计算所述第一特征表示与各所述第二特征表示之间的差异分数,根据各所述差异分数确定出所述第二特征表示对应的候选实体中的标准实体;实体链接模块,用于将所述不规范实体与所述标准实体链接。本专利技术还提供一种远程医疗实体链接的设备,包括:处理器,以及与所述处理器相连接的存储器;所述存储器用于存储计算机程序;所述处理器用于调用并执行所述存储器中的所述计算机程序,以执行如上任一项所述的远程医疗实体链接的方法。本专利技术还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的远程医疗实体链接方法。从上面所述可以看出,本专利技术提供的远程医疗实体链接的方法、装置、设备及存储介质,获取待链接实体的文本中各词的词嵌入向量;根据各所述词嵌入向量,确定所述文本中不规范实体的第一特征表示;确定医疗知识图谱中与所述不规范实体的相似度达到预设相似度值的候选实体集合;获取医疗知识图谱中所述候选实体集合中各候选实体的第二特征表示;计算所述第一特征表示与各所述第二特征表示之间的差异分数,根据各所述差异分数确定出所述第二特征表示对应的候选实体中的标准实体;将所述不规范实体与所述标准实体链接。如此,不再采用计算不同实体间的语义相似度,而是根据特征表示计算候选实体与不规范实体间的差异分数,确定出标准实体,使得实体链接的结果更加准确。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例提供的远程医疗实体链接的方法的流程示意图;图2是本专利技术一实施例提供的远程医疗实体链接中FNN的训练过程的方法的流程示意图;图3是本专利技术一实施例提供的远程医疗实体链接的装置的结构示意图;图4是本专利技术一实施例提供的一种远程医疗实体链接的设备的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。需要说明的是,除非另外定义,本专利技术实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“本文档来自技高网...
【技术保护点】
1.一种远程医疗实体链接的方法,其特征在于,包括:/n获取待链接实体的文本中各词的词嵌入向量;/n根据各所述词嵌入向量,确定所述文本中不规范实体的第一特征表示;/n确定医疗知识图谱中与所述不规范实体的相似度达到预设相似度值的候选实体集合;/n获取医疗知识图谱中所述候选实体集合中各候选实体的第二特征表示;/n计算所述第一特征表示与各所述第二特征表示之间的差异分数,根据各所述差异分数确定出所述第二特征表示对应的候选实体中的标准实体;/n将所述不规范实体与所述标准实体链接。/n
【技术特征摘要】
1.一种远程医疗实体链接的方法,其特征在于,包括:
获取待链接实体的文本中各词的词嵌入向量;
根据各所述词嵌入向量,确定所述文本中不规范实体的第一特征表示;
确定医疗知识图谱中与所述不规范实体的相似度达到预设相似度值的候选实体集合;
获取医疗知识图谱中所述候选实体集合中各候选实体的第二特征表示;
计算所述第一特征表示与各所述第二特征表示之间的差异分数,根据各所述差异分数确定出所述第二特征表示对应的候选实体中的标准实体;
将所述不规范实体与所述标准实体链接。
2.根据权利要求1所述的远程医疗实体链接的方法,其特征在于,所述获取待链接实体的文本中各词的词嵌入向量,包括:
将所述待链接实体的文本输入预先训练的bert模型,得到所述词嵌入向量。
3.根据权利要求1所述的远程医疗实体链接的方法,其特征在于,所述根据各所述词嵌入向量,确定所述文本中不规范实体的第一特征表示,包括
将所述词嵌入向量输入预先训练的bilstm模型;
确定所述文本中的不规范实体;
将所述不规范实体的前一个词和所述不规范实体中的最后一个词的输出,作为所述第一特征表示。
4.根据权利要求1所述的远程医疗实体链接的方法,其特征在于,所述确定医疗知识图谱中与所述不规范实体的相似度达到预设相似度值的候选实体集合,包括:
基于BM25算法,检索医疗知识图谱中与所述不规范实体的相似度达到预设相似度值的候选实体集合。
5.根据权利要求1所述的远程医疗实体链接的方法,其特征在于,获取医疗知识图谱中所述候选实体集合中各候选实体的第二特征表示,包括:
基于GNN网络模型,计算所述医疗知识图谱中各实体的第三特征表示;
确定所述第三特征表示中,属于所述候选实体的第二特征表示。
6.根据权利要求1所述的远程医疗实体链接的方法,其特征在于,计算所述第一特征表示与各所述第二特征表示之间的差异分数,根据各所述差异分数确定出所述第二特征表示对应的候选实体中的标准实体,包括:
将所述第一特征表示与各所述第二特征表示输入预先训练的标准实体预测模型中;
通过所述标准实体预测模型计算所述差异分...
【专利技术属性】
技术研发人员:史亚飞,
申请(专利权)人:云知声智能科技股份有限公司,厦门云知芯智能科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。