一种医学文本命名实体识别方法、装置、设备及存储介质制造方法及图纸

技术编号:35901613 阅读:33 留言:0更新日期:2022-12-10 10:37
本发明专利技术涉及一种医学文本命名实体识别方法,包括以下步骤:获取医学文本数据并进行预处理,医学文本数据包括字符和对应的标签;对预处理的医学文本数据进行词嵌入得到字符向量,并将字符向量与词典库进行标签匹配,得到字符向量对应的标签词语集;将标签词语集与字符向量拼接,得到包含医学文本数据的词汇信息的输入向量;将输入向量输入至训练好的BI GRU模型中,提取深度特征和长距离依赖,得到输入向量对应的序列编码;将序列编码输入至训练好的CRF模型中,得到序列编码对应的标签,即命名实体识别的结果。本申请克服了词级别输入由于分词错误导致的错误传播问题,也改进了单纯字符级别输入缺少词汇信息的缺陷,进一步提高了实体划分能力和实体边界检测能力。实体划分能力和实体边界检测能力。实体划分能力和实体边界检测能力。

【技术实现步骤摘要】
一种医学文本命名实体识别方法、装置、设备及存储介质


[0001]本专利技术涉及信息抽取
,尤其涉及一种医学文本命名实体识别方法、装置、设备及存储介质。

技术介绍

[0002]命名实体识别是一种自然语言处理的基础任务,它是指从原始文本数据中提取具有特定意义的实体,例如人物、地点、机构等。将医学文本与命名实体识别结合,并配合深度学习的训练模式,其目的就是通过命名实体识别方法,抽取出医学文本中关于疾病、药物、症状、手术、检验等医学实体。
[0003]当前通用领域对于医疗领域,上下文关联性较小,数据集内部知识信息对于特定名词识别远远不够。

技术实现思路

[0004]基于此,本专利技术提供一种医学文本命名实体识别方法、装置、设备及存储介质。本申请克服了词级别输入由于分词错误导致的错误传播问题,也改进了单纯字符级别输入缺少词汇信息的缺陷,进一步提高了实体划分能力和实体边界检测能力。
[0005]根据本申请的一些实施例的第一方面,提供了一种医学文本命名实体识别方法,包括以下步骤:
[0006]获取医学文本数据并进本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种医学文本命名实体识别方法,包括以下步骤:获取医学文本数据并进行预处理,所述医学文本数据包括字符和对应的标签;对预处理的所述医学文本数据进行词嵌入得到字符向量,并将所述字符向量与词典库进行标签匹配,得到所述字符向量对应的标签词语集;将所述标签词语集与所述字符向量拼接,得到包含所述医学文本数据的词汇信息的输入向量;将所述输入向量输入至训练好的BIGRU模型中,提取深度特征和长距离依赖,得到所述输入向量对应的序列编码;将所述序列编码输入至训练好的CRF模型中,得到所述序列编码对应的标签,即为命名实体识别的结果。2.根据权利要求1所述的一种医学文本命名实体识别方法,其特征在于,得到所述字符向量对应的标签词语集后,还包括:利用BEMS四位序列标注法对所述标签词语集进行分段,得到四个子集,所述子集的构造公式如下:造公式如下:造公式如下:造公式如下:其中,C
i
表示字符向量、L表示词典集、B(C
i
)表示字符向量在词典集中词语的起始字的子集,M(C
i
)表示字符向量在词典集中词语的中间字的子集,E(C
i
)表示字符向量在词典集中词语的结束字的子集,S(C
i
)表示字符向量在词典集中单独成词的子集。3.根据权利要求2所述的一种医学文本命名实体识别方法,其特征在于,将所述标签词语集与所述字符向量拼接,得到包含所述医学文本数据的词汇信息的输入向量,包括:使用权重归一化方法,计算四个所述子集的所有单词:将四个所述子集合并得到子集向量,并与所述字符向量拼接,得到输入向量。4.根据权利要求3所述的一种医学文本命名实体识别方法,其特征在于:所述权重归一化方法为基于统计的静态加权法,计算公式如下:其中,S为标签词语集,z(w)为单词w在标签词语集中出现的频率,Z为标签单词集中所有词语出现的频率之和,e
w
为词向量矩阵;输入向量的拼接计算公式如下:e
s
(B,M,E,S)=[v
s
(B);v
s
(M);v
s
(E);v
s
(S)]其中,表示字符c拼接前的对应的字符向量,X
c
代表字符c拼接之后对应的字符向量,e
s
(B,M,E,S)表示字符c根据词典集匹配得到的子集静态加权后合并而成的子集向量。
5.根据权利要求1所述的一种医学文本命名实体识别方法,其特征在于,将所述输入向量输入至训练好的BIGRU模型中,提取深度特...

【专利技术属性】
技术研发人员:冼广铭李楚彬梅灏洋
申请(专利权)人:华南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1