【技术实现步骤摘要】
医疗命名实体识别模型训练方法、识别方法及联邦学习系统
[0001]本专利技术涉及自然语言处理
,尤其涉及一种医疗命名实体识别模型训练方法、医疗命名实体识别方法及联邦学习系统。
技术介绍
[0002]医疗领域的命名实体识别(MNER)是构建医学知识图谱构建、医学大数据的基础,是实现病历智能解析、实现医学智能化的重要基础,也是病历结构化、医疗知识图谱构建、病历检索等应用的关键技术,对于医疗智能化、辅助诊断等应用具有重要价值。
[0003]现有的医疗命名实体识别技术主要通常依赖于大规模的标注数据,然而由于医疗数据的隐私性,获取大量的医疗命名实体标注数据的难度大、成本高,目前能够生产高质量标注医疗专业人员非常稀缺;而且在数据传递过程中可能产生数据隐私风险,因此医疗机构并不希望将数据传输到外部服务器中与其他机构共享。此外,医疗数据有还有个性化较强的特点,不同地区、医院对于部分的疾病、症状的描述不同统一的模型不能很好地解决本地化的问题。综上所述,传统的深度学习方法在医疗命名实体识别任务上难以取得理想的性能。
专利技 ...
【技术保护点】
【技术特征摘要】
1.一种医疗命名实体识别模型训练方法,其特征在于,包括:接收中心服务器发送的用于识别医疗命名实体的全局模型;基于本地的医疗文本标注数据训练所述全局模型,并计算得到对应的梯度数据;将所述梯度数据发送至所述中心服务器,以使所述中心服务器基于联邦学习系统接收的各个梯度数据对所述全局模型进行训练以得到新的全局模型,若该新的全局模型当前已收敛,则分发已收敛的全局模型;从所述联邦学习系统中的所述中心服务器接收所述已收敛的全局模型;基于本地prompt模板对所述已收敛的全局模型进行本地化微调处理,以形成本地化医疗命名实体识别模型。2.根据权利要求1所述的方法,其特征在于,在所述基于本地prompt模板对所述已收敛的全局模型进行本地化微调处理之前,还包括:接收本地化医疗例句;基于预设的模板生成模型自动生成所述本地化医疗例句对应的prompt模板。3.根据权利要求1所述的方法,其特征在于,所述将所述梯度数据发送至所述中心服务器,包括:通过预设加密算法对所述梯度数据进行加密,将加密后的梯度数据发送至所述中心服务器。4.一种医疗命名实体识别模型训练方法,其特征在于,包括:将用于识别医疗命名实体的全局模型分发至联邦学习系统中的各个医疗机构节点,以使各个所述医疗机构节点分别基于各自本地的医疗文本标注数据训练所述全局模型,并计算得到各自对应的梯度数据;接收各个所述医疗机构节点分别发送的梯度数据,并基于各个所述梯度数据对所述全局模型进行训练以得到新的全局模型;若所述新的全局模型当前已收敛,则将已收敛的全局模型分发至所述联邦学习系统中的各个所述医疗机构节点,以使各个所述医疗机构节点分别基于各自对应的本地prompt模板对所述已收敛的全局模型进行本地化微调处理,以形成分别适用于各个所述医疗机构节点的本地化医疗命名实体识别模型。5.根据权利要求4所述的医疗命名实体识别模型训练方法,其特征在于,还包括:若所述新的全局模型当前未收敛,则将未收...
【专利技术属性】
技术研发人员:安波,
申请(专利权)人:北京智源人工智能研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。