【技术实现步骤摘要】
医疗命名实体识别模型的训练方法、装置、设备及介质
[0001]本申请涉及人工智能及数字医疗
,具体而言,本申请涉及一种医疗命名实体识别模型的训练方法、装置、设备及介质。
技术介绍
[0002]命名实体识别技术是自然语言处理的重要领域之一,命名实体识别技术是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中实体的边界和类别。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。
[0003]随着神经网络的发展,可通过医疗命名实体识别模型对电子病历的实体进行识别,但现有对医疗命名实体识别模型进行训练时,一般都要通过人工标注电子病历的实体,以生成训练集,利用训练集对医疗命名实体识别模型进行训练,训练效率较低。
技术实现思路
[0004]本申请的主要目的为提供一种医疗命名实体识别模型的训练方法、装置、设备及介质,以提高医疗命名实体识别模型的 ...
【技术保护点】
【技术特征摘要】
1.一种医疗命名实体识别模型的训练方法,所述医疗命名实体识别模型包括CRF层,其特征在于,训练方法包括:获取电子病历的文本信息,利用预先生成的词典对所述文本信息进行实体标注,得到所述词典标注的第一实体及所述第一实体对应的第一实体类别,并根据所述第一实体及第一实体类别生成参考标注结果;将所述文本信息及参考标注结果发送给审核端,并接收所述审核端对所述第一实体及第一实体类别进行修订后的第二实体及所述第二实体对应的第二实体类别;根据所述第二实体及第二实体类别生成训练集;将所述文本信息及训练集输入医疗命名实体识别模型中进行训练;获取所述医疗命名实体识别模型每次训练后的目标训练结果;其中,所述CRF层用于根据预设筛选规则对所述医疗命名实体识别模型每次训练后的训练结果进行筛选,得到目标训练结果;判断所述目标训练结果是否满足要求;当确定所述目标训练结果满足要求时,完成所述医疗命名实体识别模型的训练。2.根据权利要求1所述的方法,其特征在于,所述利用预先生成的词典对所述文本信息进行实体标注,包括:将所述文本信息按照不同划分方式划分为多个词;利用所述词典对所述多个词进行筛选,从所述多个词中筛选出所述词典中含有的目标实体,并计算所述目标实体的字符串长度;在确定所述文本信息同一位置的第一实体时,将不同划分方式下对应字符串长度最长的目标实体作为所述文本信息的第一实体。3.根据权利要求1所述的方法,其特征在于,所述医疗命名实体识别模型还包括BERT层及BiLSTM层,所述将所述文本信息及训练集输入医疗命名实体识别模型中进行训练,包括:将所述文本信息按照语句顺序切分成多个字,将所述多个字分别转换成第一向量;将所述第一向量输入所述BERT层中,得到第一向量对应的第二向量;将所述第二向量输入所述BiLSTM层中,输出所述第二向量对应的类别及每个类别对应的分数;将所述第二向量对应的类别及每个类别对应的分数输入所述CRF层中,筛选出分数最高的类别作为所述第二向量对应的目标类别,将所述目标类别作为目标训练结果。4.根据权利要求3所述的方法,其特征在于,所述判断所述目标训练结果是否满足要求,包括:查询所述第二向量在所述训练集中对应的第二实体类别,得到第二目标实体类别;逐一比较第二实体类别与第二目标实体类别,计算所述第二实体类别与所述第二目标实体类别相一致的比例,判断所述比例是否大于预设比例;若是,则判定所述目标训练结果满足要求。5.根据权利要求4所述的方法,其特...
【专利技术属性】
技术研发人员:莫智文,
申请(专利权)人:平安国际智慧城市科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。