基于数据增强的小样本康复医疗命名实体识别方法与装置制造方法及图纸

技术编号:37983334 阅读:18 留言:0更新日期:2023-06-30 09:58
本发明专利技术公开了一种基于数据增强的小样本康复医疗命名实体识别方法与装置,所述方法包括:获取初始的康复医疗病例数据并进行命名实体划分,对命名实体划分后的康复医疗病例数据进行BIOS标注;对命名实体划分后的康复医疗病例数据进行数据增强,得到具有新标签的康复医疗病例数据;包括:分析命名实体划分后的康复医疗病例数据中各个命名实体的长度,对康复医疗病例数据中不同的命名实体进行随机掩码;和/或,在同类型的命名实体类型之间对康复医疗病例数据中的命名实体进行随机替换;将初始的康复医疗病例数据和具有新标签的康复医疗病例数据输入至命名实体识别网络中,得到康复医疗命名实体识别结果。医疗命名实体识别结果。医疗命名实体识别结果。

【技术实现步骤摘要】
基于数据增强的小样本康复医疗命名实体识别方法与装置


[0001]本专利技术涉及数据增强、命名实体识别、BIOS标注等
,尤其涉及一种基于数据增强的小样本康复医疗命名实体识别方法与装置。

技术介绍

[0002]在医学日益发达的现代社会,仍然有许多疾病在严重威胁人类的生命安全,其中,脑卒中以发病率高、致残率高、死亡率高和复发率高的“四高”特点已成为我国第一位死亡原因,也是中国成年人残疾的首要原因。因此,针对脑卒中患者四肢运动功能的恢复是患者康复的一个重要环节。伴随着人工智能的快速发展,以深度学习方法辅助康复医学诊断、方案制定或辅助治疗过程的技术随之诞生。然而,深度模型的训练过程往往需要大量标定数据,而现实获取数据通常是结构化、半结构化、非结构化数据,在数据结构与数据质量上制约了深度模型的训练过程。结构化的数据一般是指可以用二维表来逻辑表达实现的数据;半结构化数据不符合二维表的形式,但包含相关标记;非结构化数据没有固定结构的数据,例如病例文本。
[0003]在实际应用中,结构化数据相较于其他两种,数量稀少,获取成本更高,在康复医学领域等本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于数据增强的小样本康复医疗命名实体识别方法,其特征在于,所述方法包括:获取初始的康复医疗病例数据并进行命名实体划分,对命名实体划分后的康复医疗病例数据进行BIOS标注;对命名实体划分后的康复医疗病例数据进行数据增强,得到具有新标签的康复医疗病例数据;包括:分析命名实体划分后的康复医疗病例数据中各个命名实体的长度,对康复医疗病例数据中不同的命名实体进行随机掩码;和/或,在同类型的命名实体类型之间对康复医疗病例数据中的命名实体进行随机替换;将初始的康复医疗病例数据和具有新标签的康复医疗病例数据输入至命名实体识别网络中,得到康复医疗命名实体识别结果。2.根据权利要求1所述的基于数据增强的小样本康复医疗命名实体识别方法,其特征在于,康复医疗病例数据对应的命名实体类型包括:姓名、性别、年龄、诊断疾病名称、病程、影响肢体、基础疾病/其他疾病、临床表现、量化值、康复设备、治疗时间、其他设备/治疗、使用前、使用后。3.根据权利要求1或2所述的基于数据增强的小样本康复医疗命名实体识别方法,其特征在于,对命名实体划分后的康复医疗病例数据进行BIOS标注包括:对命名实体划分后的康复医疗病例数据进行BIOS标注,以构建词表和标签表,将命名实体划分后的康复医疗病例数据中的字符和标签分别映射成词表和标签表中的索引位置;其中,B表示组成实体的第一个字符,I表示组成实体除第一个字符以外的其他的字符,O表示非实体的字符,S表示单个实体字符。4.根据权利要求1所述的基于数据增强的小样本康复医疗命名实体识别方法,其特征在于,分析命名实体划分后的康复医疗病例数据中各个命名实体的长度,对康复医疗病例数据中不同的命名实体进行随机掩码包括:分析命名实体划分后的康复医疗病例数据中各个命名实体的长度,设定实体平均掩盖率,利用符号对康复医疗病例数据中不同命名实体的内容进行随机掩码。5.根据权利要求1所述的基于数据增强的小样本康复医疗命名实体识别方法,其特征在于,在同类型的命名实体类...

【专利技术属性】
技术研发人员:陈博孟过刘炯王剑斌沈怡俊
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1