【技术实现步骤摘要】
确定待标注医疗数据的方法及装置
[0001]本专利技术涉及信息处理
,特别涉及一种确定待标注医疗数据的方法及装置。
技术介绍
[0002]医疗命名实体识别是从医疗文本中识别出如疾病、症状、药物、检查检验、手术以及解剖部位等类型的医疗命名实体。目前的医疗命名实体识别的主流做法为:首先通过人工进行大量的医疗数据标注,然后基于深度学习构建抽取模型,最后使用标注好的医疗数据进行模型训练和测试。
[0003]基于深度学习的医疗命名实体识别无需人工提取特征、抽取效果较好。但是该方法往往需要大量的医疗的待标注数据,现有技术中将标注系统中所有未标注的数据都确定待标注数据让用户来进行标注,所以导致医疗数据的标注效率较低。
技术实现思路
[0004]本公开示例性的实施方式中提供一种确定待标注医疗数据的方法及装置,用于筛选未标注数据,提高医疗数据的标注效率。
[0005]本公开的第一方面提供一种确定待标注医疗数据的方法,所述方法包括:
[0006]响应于用户发送的获取指令,获取医疗数据集合;
...
【技术保护点】
【技术特征摘要】
1.一种确定待标注医疗数据的方法,其特征在于,所述方法包括:响应于用户发送的获取指令,获取医疗数据集合;针对所述医疗数据集合中的任意一个医疗数据,利用词频
‑
逆文档频率tf
‑
idf模型确定所述医疗数据中各词语对应的权重;并基于所述各词语对应的权重以及所述医疗数据,得到所述医疗数据的向量;其中,所述医疗数据集合包括多个未标注医疗数据和多个已标注医疗数据,且所述多个已标注医疗数据为医疗数据预测模型进行训练时所使用的医疗数据训练样本;针对任意一个未标注医疗数据,根据所述未标注医疗数据的向量以及所述多个已标注医疗数据的向量,得到所述未标注医疗数据的多个目标相似度,其中,所述目标相似度为所述未标注医疗数据与各已标注医疗数据之间的各相似度;通过所述多个未标注医疗数据的多个目标相似度对所述多个未标注医疗数据进行筛选,得到待标注医疗数据。2.根据权利要求1所述的方法,其特征在于,所述通过所述多个未标注医疗数据的多个目标相似度对所述多个未标注医疗数据进行筛选,得到待标注医疗数据之后,所述方法还包括:针对任意一个待标注医疗数据,将所述待标注医疗数据输入至预先训练好的医疗数据预测模型中,得到所述待标注医疗数据中的每个字分别属于各预设类别的概率;以及,基于所述待标注医疗数据中的每个字分别属于各预设类别的概率,得到所述每个字对应的程度值;其中,所述程度值用于表示识别的困难程度;通过所述每个字的程度值,得到所述待标注医疗数据的程度值;根据各待标注医疗数据的程度值,得到目标待标注医疗数据。3.根据权利要求2所述的方法,其特征在于,通过以下公式确定任意一个字的程度值:其中,w为字的程度值,p
i
为该字属于预设的第i个类别的概率,T为预设类别的数量;通过以下方式确定所述待标注医疗数据的程度值:将所述待标注医疗数据中每个字的程度值相加,得到所述待标注医疗数据的程度值。4.根据权利要求2所述的方法,其特征在于,所述根据各待标注医疗数据的程度值,得到目标待标注医疗数据之后,所述方法还包括:针对任意一个目标待标注医疗数据,按照指定顺序对所述目标待标注医疗数据中的各字进行遍历,当遍历结束后将所述目标待标注医疗数据确定为需要被标注的医疗数据;针对任意一个遍历到的字,执行下列过程:将所述字与预设字典树中的各子字典树的根节点进行匹配,判断所述字是否存在对应的目标节点;若确定所述字存在对应的目标节点,且所述子字典树的根节点存在下一节点,则将在所述目标待标注医疗数据中位于所述遍历到的字的下一个字确定为所述遍历到的字,以及将所述子字典树的目标节点对应的各下一节点确定为所述子字典树的根节点后,返回将所述字与预设字典树中的各子字典树的根节点进行匹配,判断所述字是否存在对应的目标节点的步骤,直至所述子字典树的根节点不存在下一节点,并基于得到的各根节点确定此次
遍历到的各字所对应的标签;若确定所述字不存在对应的目标节点,则结束对该字的遍历。5.根据权利要求1或2所述的方法,其特征在于,通过以下方式训练所述医疗数据预测模型:获取医疗数据标注训练样本和医疗数据标注测试样本,其中,所述医疗数据...
【专利技术属性】
技术研发人员:程龙龙,葛乐,崔丙剑,袁丁,田野,
申请(专利权)人:天津市环湖医院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。