医学数据标注方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:24996834 阅读:44 留言:0更新日期:2020-07-24 17:59
本申请涉及一种医学数据标注方法、装置、存储介质及计算机设备,在进行医学数据标注时,在通过对医学数据进行编码处理得到最低粒度的数据对应的字向量之后,还包括对具备医学相关性的相邻数据对应的相邻字向量进行组合处理的步骤,从而可以得到不同粒度任务级别的字向量组合,然后通过标注模型对字向量以及字向量组合进行标注,可以使得得到的医学属性类别标注结果包含不同粒度数据的标注结果,从而使得标注结果更全面,有利于电子病历的数据挖掘分析。

【技术实现步骤摘要】
医学数据标注方法、装置、存储介质及计算机设备
本申请涉及数据处理
,特别是涉及一种医学数据标注方法、装置、存储介质及计算机设备。
技术介绍
随着电子技术的发展,电子病历在各大医院的应用越来越普及,不同于传统的纸质病历,电子病历便于储存和管理。电子病历一般存储有病患的疾病症状、诊断经过等与临床治疗相关的重要信息,它与病患的健康有着紧密的联系,因此对电子病历的数据挖掘和分析在近年来受到了广泛的关注,而命名实体识别(即识别电子病历中的数据的医学属性类别,如发病部位、发病症状、治疗手段等)的研究作为自然语言处理的一个重要的基础任务,有着重要的意义。现有技术中,通常使用网络模型进行命名实体识别工作。用户通过样本数据对初始模型进行训练,得到可以用于进行命名实体识别的网络模型,然后通过该网络模型对新的电子病历进行识别标注。然而,现有技术在模型训练时都只是针对命名实体识别任务进行训练,得到的模型只能提取样本实体粒度的信息,而无法有效提取样本其他粒度的信息,如字符粒度,句子粒度,或者文本粒度的信息,从而使得标注结果不全面,不利于电子病历的数本文档来自技高网...

【技术保护点】
1.一种医学数据标注方法,其特征在于,包括:/n获取待标注的医学数据以及预先训练的标注模型;/n对所述医学数据进行编码处理,得到所述医学数据中最低粒度的数据对应的字向量,并对具备医学相关性的相邻数据对应的相邻字向量进行组合处理,得到不同粒度的字向量组合;/n通过所述标注模型对各所述字向量以及各所述字向量组合进行数据属性类别标注,得到所述医学数据的医学属性类别标注结果。/n

【技术特征摘要】
1.一种医学数据标注方法,其特征在于,包括:
获取待标注的医学数据以及预先训练的标注模型;
对所述医学数据进行编码处理,得到所述医学数据中最低粒度的数据对应的字向量,并对具备医学相关性的相邻数据对应的相邻字向量进行组合处理,得到不同粒度的字向量组合;
通过所述标注模型对各所述字向量以及各所述字向量组合进行数据属性类别标注,得到所述医学数据的医学属性类别标注结果。


2.根据权利要求1所述的方法,其特征在于,所述标注模型的训练过程包括以下步骤:
从第一数据中选择预设数量的第二数据,通过所述第二数据进行模型训练,得到初步训练模型;
通过所述初步训练模型对剩余的第一数据进行数据处理,基于数据处理结果从所述剩余的第一数据中选择满足预设要求的第三数据;
通过所述第三数据对所述初步训练模型进行模型优化处理,得到所述标注模型。


3.根据权利要求2所述的方法,其特征在于,所述通过所述第二数据进行模型训练,得到初步训练模型包括:
获取预设的标注词库,所述标注词库包含需要进行标注的关键医学数据以及各所述关键医学数据对应的医学属性类别标注;
根据所述标注词库对所述第二数据中与所述关键医学数据匹配的数据添加对应的医学属性类别标注,得到所述第二数据的医学属性类别标注结果;
通过所述第二数据以及所述第二数据的医学属性类别标注结果对初始模型进行模型训练,得到所述初步训练模型。


4.根据权利要求3所述的方法,其特征在于,所述通过所述第二数据进行模型训练,得到初步训练模型之前,还包括:
获取所述初始模型对应的标注任务;
基于所述标注任务,确定需要进行标注的医学数据的医学属性类别,并确定各所述医学属性类别对应的关键医学数据;
根据所述标注任务对应的医学属性类别以及关键医学数据建立所述标注词库。


5.根据权利要求2所述的方法,其特征在于,所述数据处理结果包括所述剩余的第一数据对应的医学属性类别以及置信度;
所述基于数据处理结果从所述剩余的第一数据中选择满足预设要求的第三数据包括:
基于所述医学属性类别以及所述置信度确定所述剩余的第一数据的不确定度,从所述剩余的第一数据中筛选不确定度达到预设指标的数据作为所述...

【专利技术属性】
技术研发人员:李然沈宏李蕊
申请(专利权)人:上海联影智能医疗科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1