本申请涉及一种医学数据标注方法、装置、存储介质及计算机设备,在进行医学数据标注时,在通过对医学数据进行编码处理得到最低粒度的数据对应的字向量之后,还包括对具备医学相关性的相邻数据对应的相邻字向量进行组合处理的步骤,从而可以得到不同粒度任务级别的字向量组合,然后通过标注模型对字向量以及字向量组合进行标注,可以使得得到的医学属性类别标注结果包含不同粒度数据的标注结果,从而使得标注结果更全面,有利于电子病历的数据挖掘分析。
【技术实现步骤摘要】
医学数据标注方法、装置、存储介质及计算机设备
本申请涉及数据处理
,特别是涉及一种医学数据标注方法、装置、存储介质及计算机设备。
技术介绍
随着电子技术的发展,电子病历在各大医院的应用越来越普及,不同于传统的纸质病历,电子病历便于储存和管理。电子病历一般存储有病患的疾病症状、诊断经过等与临床治疗相关的重要信息,它与病患的健康有着紧密的联系,因此对电子病历的数据挖掘和分析在近年来受到了广泛的关注,而命名实体识别(即识别电子病历中的数据的医学属性类别,如发病部位、发病症状、治疗手段等)的研究作为自然语言处理的一个重要的基础任务,有着重要的意义。现有技术中,通常使用网络模型进行命名实体识别工作。用户通过样本数据对初始模型进行训练,得到可以用于进行命名实体识别的网络模型,然后通过该网络模型对新的电子病历进行识别标注。然而,现有技术在模型训练时都只是针对命名实体识别任务进行训练,得到的模型只能提取样本实体粒度的信息,而无法有效提取样本其他粒度的信息,如字符粒度,句子粒度,或者文本粒度的信息,从而使得标注结果不全面,不利于电子病历的数据挖掘分析。
技术实现思路
基于此,有必要针对现有技术存在的问题,提供一种有助于提高标注结果的全面性的医学数据标注方法、装置、存储介质及计算机设备。一种医学数据标注方法,包括:获取待标注的医学数据以及预先训练的标注模型;对所述医学数据进行编码处理,得到所述医学数据中最低粒度的数据对应的字向量,并对具备医学相关性的相邻数据对应的相邻字向量进行组合处理,得到不同粒度的字向量组合;通过所述标注模型对各所述字向量以及各所述字向量组合进行数据属性类别标注,得到所述医学数据的医学属性类别标注结果。一种医学数据标注装置,包括:获取模块,用于获取待标注的医学数据以及预先训练的标注模型;编码模块,用于对所述医学数据进行编码处理,得到所述医学数据中最低粒度的数据对应的字向量,并对具备医学相关性的相邻数据对应的相邻字向量进行组合处理,得到不同粒度的字向量组合;标注模块,用于通过所述标注模型对各所述字向量以及各所述字向量组合进行数据属性类别标注,得到所述医学数据的医学属性类别标注结果。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。上述医学数据标注方法、装置、存储介质及计算机设备,获取待标注的医学数据以及预先训练的标注模型;对医学数据进行编码处理,得到医学数据中最低粒度的数据对应的字向量,并对具备医学相关性的相邻数据对应的相邻字向量进行组合处理,得到不同粒度的字向量组合;通过标注模型对各字向量以及各字向量组合进行数据属性类别标注,得到医学数据的医学属性类别标注结果。在进行医学数据标注时,在通过对医学数据进行编码处理得到最低粒度的数据对应的字向量之后,还包括对具备医学相关性的相邻数据对应的相邻字向量进行组合处理的步骤,从而可以得到不同粒度任务级别的字向量组合,然后通过标注模型对字向量以及字向量组合进行标注,可以使得得到的医学属性类别标注结果包含不同粒度数据的标注结果,从而使得标注结果更全面,有利于电子病历的数据挖掘分析。附图说明图1为一个实施例中医学数据标注方法的流程示意图;图2为一个实施例中标注模型的训练过程的流程示意图;图3为一个实施例中通过第二数据进行模型训练,得到初步训练模型的流程示例图;图4为一个实施例中建立标注词库的流程示意图;图5为一个实施例中根据标注词库对第二数据中与关键医学数据匹配的数据添加对应的医学属性类别标注,得到第二数据的医学属性类别标注结果的流程示意图;图6为一个实施例中通过第二数据以及第二数据的医学属性类别标注结果对初始模型进行模型训练,得到初步训练模型的流程示意图;图7为一个实施例中训练标注模型的实例图;图8为一个实施例中医学数据标注装置的结构示意图;图9为另一个实施例中医学数据标注装置的结构示意图;图10为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。在一个实施例中,如图1所示,提供一种医学数据标注方法,以该方法应用于可以进行医学数据标注的处理器为例进行解释说明,该方法主要包括以下步骤:步骤S100,获取待标注的医学数据以及预先训练的标注模型。其中,待标注的医学数据具体可以是电子病历等,电子病历保存有医学诊断目标对象的疾病症状、医学诊断经过等信息,标注处理可以是对电子病历中的数据进行医学属性类别的标注处理,具体可以是医学命名实体识别标注处理,医学命名实体例如身体部位、治疗方式、检查手段、异常症状、疾病种类等。预先训练的标注模型是指通过对初始模型进行医学属性类别标注训练得到的模型。步骤S200,对医学数据进行编码处理,得到医学数据中最低粒度的数据对应的字向量,并对具备医学相关性的相邻数据对应的相邻字向量进行组合处理,得到不同粒度的字向量组合。处理器在得到待标注的医学数据之后,可以对医学数据进行编码处理,即将文本形式的医学数据转换为其他编码形式的字向量,例如,可以是转换为数值等。对于具有相关性的相邻字向量,则可以组成相应的字向量组合,不同粒度的字向量组合具体可以是字向量组合的长度不同,不同粒度的字向量组合可以用于表示词语、句子、段落等。不同的字向量和不同粒度的字向量组合可以用于表示不同类别的数据或者不同的对象。例如,某医学数据具体包括以下内容:“腹软,无压痛,无反跳痛,肝右肋下未触及,脾左肋下未触及,肠鸣音正常,双下肢无水肿”。在该医学数据中,“肝”为字向量,“脾左肋”、“肠鸣音”为字向量组合,“肝”和“脾左肋”表示相同的数据类别,即身体部位,但是具体表示的对象不同;“脾左肋”、“肠鸣音”则表示不同的数据类别,具体地,“脾左肋”表示身体部位,而“肠鸣音”表示检查方式。另外,也可以是将上述医学数据整个作为一个字向量组合,即该整个医学数据所对应的字向量组合可以用于表示某一种具体的疾病症状。步骤S300,通过标注模型对各字向量以及各字向量组合进行数据属性类别标注,得到医学数据的医学属性类别标注结果。处理器在对医学数据进行编码处理,得到字向量以及字向量组合以后,通过预先训练好的标注模型对各字向量以及各字向量组合进行数据属性类别标注,从而得到各字向量以及各字向量组合对应的标注结果,进而可以得到医学数据的医学属性类别标注结果。例如,对于数据“心脏”,其对应的标注可以是身体部位;对于数据“化疗”,其对应的标注可以是治疗方式;对于数据“磁共振扫描”,其对应的标注可以是检查手段;对于数据“肿块”,其对应的标注可以是本文档来自技高网...
【技术保护点】
1.一种医学数据标注方法,其特征在于,包括:/n获取待标注的医学数据以及预先训练的标注模型;/n对所述医学数据进行编码处理,得到所述医学数据中最低粒度的数据对应的字向量,并对具备医学相关性的相邻数据对应的相邻字向量进行组合处理,得到不同粒度的字向量组合;/n通过所述标注模型对各所述字向量以及各所述字向量组合进行数据属性类别标注,得到所述医学数据的医学属性类别标注结果。/n
【技术特征摘要】
1.一种医学数据标注方法,其特征在于,包括:
获取待标注的医学数据以及预先训练的标注模型;
对所述医学数据进行编码处理,得到所述医学数据中最低粒度的数据对应的字向量,并对具备医学相关性的相邻数据对应的相邻字向量进行组合处理,得到不同粒度的字向量组合;
通过所述标注模型对各所述字向量以及各所述字向量组合进行数据属性类别标注,得到所述医学数据的医学属性类别标注结果。
2.根据权利要求1所述的方法,其特征在于,所述标注模型的训练过程包括以下步骤:
从第一数据中选择预设数量的第二数据,通过所述第二数据进行模型训练,得到初步训练模型;
通过所述初步训练模型对剩余的第一数据进行数据处理,基于数据处理结果从所述剩余的第一数据中选择满足预设要求的第三数据;
通过所述第三数据对所述初步训练模型进行模型优化处理,得到所述标注模型。
3.根据权利要求2所述的方法,其特征在于,所述通过所述第二数据进行模型训练,得到初步训练模型包括:
获取预设的标注词库,所述标注词库包含需要进行标注的关键医学数据以及各所述关键医学数据对应的医学属性类别标注;
根据所述标注词库对所述第二数据中与所述关键医学数据匹配的数据添加对应的医学属性类别标注,得到所述第二数据的医学属性类别标注结果;
通过所述第二数据以及所述第二数据的医学属性类别标注结果对初始模型进行模型训练,得到所述初步训练模型。
4.根据权利要求3所述的方法,其特征在于,所述通过所述第二数据进行模型训练,得到初步训练模型之前,还包括:
获取所述初始模型对应的标注任务;
基于所述标注任务,确定需要进行标注的医学数据的医学属性类别,并确定各所述医学属性类别对应的关键医学数据;
根据所述标注任务对应的医学属性类别以及关键医学数据建立所述标注词库。
5.根据权利要求2所述的方法,其特征在于,所述数据处理结果包括所述剩余的第一数据对应的医学属性类别以及置信度;
所述基于数据处理结果从所述剩余的第一数据中选择满足预设要求的第三数据包括:
基于所述医学属性类别以及所述置信度确定所述剩余的第一数据的不确定度,从所述剩余的第一数据中筛选不确定度达到预设指标的数据作为所述...
【专利技术属性】
技术研发人员:李然,沈宏,李蕊,
申请(专利权)人:上海联影智能医疗科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。