一种基于BERT增加词法信息的医疗实体识别方法技术

技术编号:41230000 阅读:22 留言:0更新日期:2024-05-09 23:46
本发明专利技术公开了一种基于BERT增加词法信息的医疗实体识别方法的相关研究与技术方案。为了解决当前预训练模型无法充分适应医疗领域的命名实体识别任务和在微调时易发生的灾难性遗忘问题,提出了一种基于BERT的预训练模型架构:在BERT预训练模型基础上增加额外的词法信息,从而构建了注入词法信息的BERT模型,通过多头注意力机制将分词和词性序列与字序列进行语义融合,模型相比其他实体识别模型拥有更好的语义表征能力,在医疗实体识别任务的效果上有更好的表现。

【技术实现步骤摘要】

本专利技术涉及基于bert表征增加词法信息的边界片段识别模型,多头注意力机制以及医疗实体识别的相关研究与技术方案。


技术介绍

1、随着医疗系统信息化程度不断提高,国家对医疗系统中的数字化过程越来越重视。电子病历(emrs)收集了医务人员在医疗过程中使用医疗机构信息系统生成的数字化信息。有研究已经说明电子病历不仅可以挖掘和患者相关的医疗知识,还可以用来解释或者推断一些有用的信息。自电子病历产生至今,已经积累了大量电子病历数据,提取电子病历中的结构化数据可以用于构建个性化医疗服务体系和临床决策支持,而抽取电子病历中的信息的基础在于准确识别出电子病历中的相关实体。

2、命名实体识别是自然语言处理中的基础任务之一,也是信息抽取中的重要环节。该任务旨在识别文本中属于预先定义的类别的实体并判断其所属类别,一般分为通用命名实体识别和领域命名实体识别。其中通用命名实体识别通常识别人名、地名和日期等一般实体,领域命名实体识别通常识别本专业领域内涉及的实体类型。例如在医学领域中,药物类型、身体部位、疾病类型和症状类型一般是电子病历中经常出现的实体类型,这些实体类型本文档来自技高网...

【技术保护点】

1.一种基于BERT增加词法信息的医疗实体识别方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种基于BERT增加词法信息的医疗实体识别方法,其特征在于,步骤一的对输入文本的词序列和词性序列分别进行编码序列化,使用BERT中文映射表对字序列进行编码序列化包括以下步骤:

3.根据权利要求1所述的一种基于BERT增加词法信息的医疗实体识别方法,其特征在于,步骤二的使用基于CBOW模型预训练对基于词的输入序列和基于词性的输入序列进行表征,使用预训练模型BERT对基于字的输入序列进行表征包括以下步骤:

4.根据权利要求1所述的一种基于BERT...

【技术特征摘要】

1.一种基于bert增加词法信息的医疗实体识别方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种基于bert增加词法信息的医疗实体识别方法,其特征在于,步骤一的对输入文本的词序列和词性序列分别进行编码序列化,使用bert中文映射表对字序列进行编码序列化包括以下步骤:

3.根据权利要求1所述的一种基于bert增加词法信息的医疗实体识别方法,其特征在于,步骤二的使用基于cbow模型预训练对基于词的输入序列和基于词性的输入序列进行表征...

【专利技术属性】
技术研发人员:秦岭詹新颖杨小健
申请(专利权)人:南京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1