医学文本命名实体识别方法及系统技术方案

技术编号:44432971 阅读:15 留言:0更新日期:2025-02-28 18:44
本发明专利技术属于电子病历技术领域,具体公开了一种医学文本命名实体识别方法及系统,该方法采集原始医学文本并作为DLBC的输入,将预训练语言模型作为DLBC的嵌入层对原始医学文本分词处理,将文本转换为字符序列,再将字符序列送入预训练语言模型,生成对应的字符向量表示;使用语料库提取医学名词和类别,构建包含多类别医学名词的领域词典;使用多头注意力机制,得到特征序列;利用双向长短期记忆网络Bi LSTM,对特征序列进行特征提取,上下文信息建模;使用线性层将Bi LSTM的输出转换为每个字符对应的NER标签概率分布,应用联合解码策略CRF得到最终的识别结果。采用本技术方案,利用领域词典提供的外部信息,进行实体嵌入增强,提升医学实体识别准确率。

【技术实现步骤摘要】

本专利技术属于电子病历,涉及一种医学文本命名实体识别方法及系统


技术介绍

1、电子病历(emr)是医疗保健领域中重要的信息来源,旨在提供患者的医疗信息,以支持医疗决策和治疗过程。其中蕴含着丰富的医学专业知识,但大部分以非结构化数据的形式存在,难以自动化地提取和利用。

2、信息抽取是自然语言处理中的关键步骤,其主要包括了命名实体识别和关系抽取。命名实体识别的主要任务是识别句子中有特定意义的实体,并按照给定的类别进行分类。

3、在目前医院信息化建设和医疗信息快速发展的大背景下,每天将产生海量的电子病历。这些病历中包含了大量潜在的知识(包括人口统计学、临床数据、实验室和检查和数据、随访和预后情况等),使得电子病历成为分析和研究健康信息的重要来源,对这些数据进行信息抽取能更好的应用于医学知识图谱构建和发展循证医学等下游任务。能够为临床医务人员提供精准的决策支持,还能够为患者提供更好质量和更高水平的医疗服务。但这些数据目前大多以半结构化或非结构化文本的形式进行存储,计算机无法对其直接进行加工和利用,如何高效和准确的从电子病历中提取医学知识是本文档来自技高网...

【技术保护点】

1.一种医学文本命名实体识别方法,其特征在于,包括如下步骤:

2.如权利要求1所述的医学文本命名实体识别方法,其特征在于,将对应的词典嵌入向量与预训练语言模型生成的字符向量根据其重要程度动态的调整注意力的方法为:

3.如权利要求1所述的医学文本命名实体识别方法,其特征在于,利用双向长短期记忆网络BiLSTM,对特征序列进行特征提取,上下文信息建模,具体方法为:

4.如权利要求1所述的医学文本命名实体识别方法,其特征在于,在线性层后引入条件随机场CRF,设原始医学文本经过分词和特征提取后得到的输入序列X=(x1,x2,…,xn)和通过人工标注生成的对应标...

【技术特征摘要】

1.一种医学文本命名实体识别方法,其特征在于,包括如下步骤:

2.如权利要求1所述的医学文本命名实体识别方法,其特征在于,将对应的词典嵌入向量与预训练语言模型生成的字符向量根据其重要程度动态的调整注意力的方法为:

3.如权利要求1所述的医学文本命名实体识别方法,其特征在于,利用双向长短期记忆网络bilstm,对特征序列进行特征提取,上下文信息建模,具体方法为:

4.如权利要求1所述的医学文本命名实体识别方法,其特征在于,在线性层后引入条件随机场crf,设原始医学文本经过分词和特征提取后得到的输入序列x=(x1,x2,…,xn)和通过人工标注生成的对应...

【专利技术属性】
技术研发人员:杜志银吕飞龙张堂川常少璁
申请(专利权)人:重庆医科大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1