【技术实现步骤摘要】
医学实体的分类提取方法、装置、电子设备及存储介质
[0001]本申请涉及数据处理
,具体而言,涉及一种医学实体的分类提取方法、装置、电子设备及存储介质。
技术介绍
[0002]医学领域中的电子病历包含丰富的医疗数据,为了更好的使用电子病历,需要从电子病历的医疗数据中提取出不同类别的医学实体。
[0003]医学实体分类提取是指从电子病历中提取解剖部位、诊断、肿瘤分期和药品名称等医学实体。目前常用的电子病历医学实体分类提取方法主要是基于深度学习方法,常用模型是BERT
‑
CRF和BiLSTM
‑
CRF。如果选择BiLSTM
‑
CRF模型,则需要大量的标记数据,但是缺少中文电子病历的公开语料,且医学标注需要专业性较强的专家进行数据标注,需要投入的人力物力太大;如果选择BERT
‑
CRF模型,虽然可以减轻标注的任务,但是模型太大,很难在医院里部署。
技术实现思路
[0004]有鉴于此,本申请的目的在于提供一种医学实体的分类提取方法、 ...
【技术保护点】
【技术特征摘要】
1.一种医学实体的分类提取方法,其特征在于,所述分类提取方法包括:获取医疗数据中的待识别文本;确定所述待识别文本的实体特征,所述实体特征包括单字向量、双字位置、双字频率、切词特征和小粒度特征;将确定出的实体特征输入至预先训练好的分类提取模型中,得到所述待识别文本中的医学实体对应的至少一个标签,以从所述待识别文本中提取出所述至少一个标签对应的医学实体;其中,所述分类提取模型是通过文本样本的标注数据、伪标签数据、小粒度词典和字向量词典训练得到的,所述伪标签数据、所述小粒度词典和所述字向量词典是通过将文本样本输入至预先训练好的特征提取模型而确定出的,所述特征提取模型是通过所述文本样本的标注数据训练得到的。2.根据权利要求1所述的分类提取方法,其特征在于,通过以下步骤训练所述特征提取模型:从医疗数据中确定未标注的文本样本和所述文本样本的标注数据;将所述未标注的文本样本输入至预先构建好的特征提取模型中,输出多组实体位置,其中,每组实体位置依次包括一个实体开始位置和一个实体结束位置;将输出的实体开始位置和实体结束位置之间的字符组成一个医学实体;将得到的每个医学实体与所述文本样本的标注数据中对应标注的医学实体进行比对,在比对结果均一致的情况下,得到训练好的特征提取模型。3.根据权利要求1所述的分类提取方法,其特征在于,所述伪标签数据、所述小粒度词典和所述字向量词典是通过将文本样本输入至预先训练好的特征提取模型而确定出的步骤,包括:将所述文本样本输入至预先训练好的特征提取模型中,输出多组实体位置,其中,每组实体位置依次包括一个实体开始位置和一个实体结束位置,将所述实体开始位置和所述实体结束位置之间的字符组成一个医学实体;基于预先标注好的字符与标签之间的映射关系,确定所述医学实体对应的伪标签数据;将所述医学实体经过校正得出小粒度词以及该小粒度词对应的标签,确定得到的小粒度词以及其对应的标签组成小粒度词典;将预先构建好的单字医学字典输入至预先训练好的特征提取模型中,获取多个单字对应的高维单字向量,并对高维单字向量进行降维,得到由单字以及与每个单字对应的低维单字向量组成的字向量词典。4.根据权利要求1所述的分类提取方法,其特征在于,通过以下步骤训练所述分类提取模型:根据所述文本样本的标注数据确定第一实体特征,以及根据所述伪标签数据确定第二实体特征,其中,所述第一实体特征和所述第二实体特征中均包括的小粒度特征要结合所述小粒度词典确定得出,所述第一实体特征和所述第二实体特征中均包括的单字向量要结合所述字向量词典确定得出;将所述第一实体特征和所述第二实体特征分别输入至预先构建好的分类提取模型中,分别得到所述文本样本中的医学实体对应的多个第一标签和多个第二标签;
针对所述多个第一标签,将所述多个第一标签中的每个第一标签与所述文本样本的标注数据中对应的标签进行比对,若比对结果不一致,则调节所述分类提取模型的模型参数,直至更新后的多个第一标签中的每个第一标签均与所述文本样本的标注数据中对应的标签进行比对的比对结果一致;针对所述多个第二标签,将所述多个第二标签中的每个第二标签与所述文本样本的伪标签数据中对应的标签进行比对,若比对结果不一致,则调节所述分类提取模型的模型参数,直至更新后的多个第二标签中的每个第二标...
【专利技术属性】
技术研发人员:史鹏涛,刘娇,张奇,
申请(专利权)人:北京惠每云科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。