一种医疗文本命名实体识别方法及系统技术方案

技术编号:32279703 阅读:38 留言:0更新日期:2022-02-12 19:46
本发明专利技术公开了一种医疗文本命名实体识别方法及系统,所述方法包括以下步骤:获取待识别医疗文本;基于预训练的命名实体识别模型,对所述待识别医疗文本进行命名实体识别;其中,所述命名实体识别模型训练方法包括:获取已进行实体标注的医疗文本训练数据集,对每个训练数据均进行字符级编码、实体位置编码和实体类别编码;根据选定中文预训练模型,根据所述字符级编码及相应的实体位置编码和实体类别编码,训练得到所述命名实体识别模型。本发明专利技术通过改进实体位置编码和实体类别编码方法,能够快速高效的进行命名实体预测。能够快速高效的进行命名实体预测。能够快速高效的进行命名实体预测。

【技术实现步骤摘要】
一种医疗文本命名实体识别方法及系统


[0001]本专利技术属于医学文本处理
,尤其涉及一种医疗文本命名实体识别方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]命名实体识别任务主要为识别文本中的实体,目前所采用的主流模型包括softmax逻辑回归模型、条件随机场(ConditionalRandom Field,CRF)、span等几种模式。其中,softmax与CRF的数据输入格式一致,一般采用BIO、BIEO等格式对文本输出进行编码。softmax将标签预测当作传统分类问题,将归一化后概率最高的输出对应的类别作为分类器输出。CRF则加入相邻字符之间的类别转移概率,与softmax相比准确率更高,但是因其不能并行,故效率较softmax低。前两者往往擅长处理实体较短的文本,因其对实体的正确判断需要依赖于实体中每个字符均判断正确,当实体较长时,其正确率显著下降。
[0004]基于span模式的命名实体识别,主要是通过模型预测实体的起止位置。这种模式下本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种医疗文本命名实体识别方法,其特征在于,包括以下步骤:获取待识别医疗文本;基于预训练的命名实体识别模型,对所述待识别医疗文本进行命名实体识别;其中,所述命名实体识别模型训练方法包括:获取已进行实体标注的医疗文本训练数据集,对每个训练数据均进行字符级编码、实体位置编码和实体类别编码;根据选定中文预训练模型,根据所述字符级编码及相应的实体位置编码和实体类别编码,训练得到所述命名实体识别模型。2.如权利要求1所述的一种医疗文本命名实体识别方法,其特征在于,对训练数据进行字符级别编码包括:对每个字符进行编码,得到相应编码ID;基于预设最大长度,对每个编码ID进行截断或补全操作,得到所述训练数据的字符编码序列。3.如权利要求1所述的一种医疗文本命名实体识别方法,其特征在于,对训练数据进行实体位置编码包括:对于每个实体,均获取该实体的起始字符所在位置和长度,将所述起始字符编码为该实体的长度,其他字符均编码为0,得到所述训练数据的位置编码序列。4.如权利要求3所述的一种医疗文本命名实体识别方法,其特征在于,对训练数据进行进行实体类别编码包括:对于每个实体,均获取该实体的起始字符所在位置,并根据预设的实体类别映射关系获取该实体相应的类别编码,将所述起始字符编码为该实体的类别编码,其他字符均编码为0,得到所述训练数据的类别编码序列。5.如权利要求3或4所述的一种医疗文本命名实体识别方法,其特征在于,得到位置编码序列和类别编码序列后,对位置编码序列和类别编码序列中每个字符对应的编码长度通过填补0进行扩充,使得长度与字符编码序列一致。6.如权利要求1所述的一种医疗文本命名实体识别方法,其特征在于,所述中文预训练模型为RoBERTa模型,训练过程包括:以字符编码序列为输入,取模型最后一层输...

【专利技术属性】
技术研发人员:薛付忠胡锡峰季晓康陈耀祖张琪王永超仉率杰潘威张健
申请(专利权)人:济南兴腾信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1