电子病历中实体的识别制造技术

技术编号:24522182 阅读:28 留言:0更新日期:2020-06-17 08:19
本文公开了用于实体预测的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。方法之一包括对要被预测的文本执行词语划分以获得多个词语。对于多个词语中的每个词语,就所述词语是否具有预训练词语向量进行确定。响应于确定词语具有预训练词语向量,获得该词语的预训练词语向量。响应于确定词语不具有预训练词语向量,基于预训练笔划向量来确定所述词语的词语向量。所述词语向量和所述预训练笔划向量是基于文本样本和词语向量模型训练的。通过将多个词语的词语向量输入到实体预测模型中来预测与所述文本相关联的实体。

Entity recognition in EMR

【技术实现步骤摘要】
【国外来华专利技术】电子病历中实体的识别
本文涉及病历中实体的识别。
技术介绍
许多病历已被转换为电子病历(EMR),合作医院的电子病历是可获得的。传统纸质病历中的信息可以通过诸如光学字符识别(OCR)等图像字符识别技术来提取。常规OCR技术基于对笔划的位置和长度的误解或者由于诸如医学诊断等原始手册文档的作者的不完美书写会产生错误。传统病历分析是基于医生的经验以人工理解和分析病历中的信息。在一些简单的情况下,病历的初步分析可以使用人工智能(AI)技术、自动化智能操作或由医生提供的输入来进行。例如,分析可以确定病历中的术语诸如“直肠”与解剖部位相关联,而术语诸如“肿瘤”是症状描述。应用于病历中医疗诊断描述的这些类型的关联可以被用于识别相对应的实体(例如,乙状结肠),并对实体进行分类或划分(例如,作为解剖部位)。医疗实体识别和分类(或划分)可以是被用于病历数据的实体识别处理的一部分。然而,一些病历可能包括与数据有关的典型问题,诸如打字错误(打印错误)、新术语或未知词语的存在。在基于笔划的语言诸如汉语中识别关联是期望的,尤其是在常规OCR技术产生错误结果本文档来自技高网...

【技术保护点】
1.一种计算机实现的用于实体预测的方法,所述方法包括:/n对要被预测的文本执行词语划分以获得多个词语;/n对于所述多个词语中的每个词语,/n确定所述词语是否具有预训练词语向量;/n响应于确定所述词语具有预训练词语向量,获得所述词语的所述预训练词语向量;以及/n响应于确定所述词语不具有预训练词语向量,基于预训练笔划向量确定所述词语的词语向量,其中所述词语向量和所述预训练笔划向量是基于文本样本和词语向量模型来训练的,以及/n通过将所述多个词语的词语向量输入到实体预测模型来预测与所述要被预测的文本相关联的实体。/n

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的用于实体预测的方法,所述方法包括:
对要被预测的文本执行词语划分以获得多个词语;
对于所述多个词语中的每个词语,
确定所述词语是否具有预训练词语向量;
响应于确定所述词语具有预训练词语向量,获得所述词语的所述预训练词语向量;以及
响应于确定所述词语不具有预训练词语向量,基于预训练笔划向量确定所述词语的词语向量,其中所述词语向量和所述预训练笔划向量是基于文本样本和词语向量模型来训练的,以及
通过将所述多个词语的词语向量输入到实体预测模型来预测与所述要被预测的文本相关联的实体。


2.根据权利要求1所述的计算机实现的方法,其中,所述词语向量模型包括cw2vec模型。


3.根据权利要求1或2所述的计算机实现的方法,其中,所述实体预测模型包括双向长短期记忆、条件随机场BiLSTM-CRF模型。


4.根据前述任一项权利要求...

【专利技术属性】
技术研发人员:曹绍升周俊
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1