命名实体识别模型建立方法及命名实体识别方法技术

技术编号:31482637 阅读:25 留言:0更新日期:2021-12-18 12:16
本公开提供一种命名实体识别模型建立方法,其包括:获取目标领域的训练文本集;基于目标领域的领域特征构建命名实体种类集以及文本段落类别集;基于文本段落类别集以及命名实体种类集构建“文本段落类别

【技术实现步骤摘要】
命名实体识别模型建立方法及命名实体识别方法


[0001]本公开属于自然语言处理/信息化
,本公开尤其涉及一种命名实体识别模型建立方法、命名实体识别方法、实体识别模型建立装置、命名实体识别装置、电子设备及存储介质。

技术介绍

[0002]各个专业领域的专业文本存在大量的专业技术术语,例如医疗领域,电子病历文本中包含大量医疗专业术语,术语词典作为一个非常重要的资源,对于命名实体的识别有着重要作用。然而,现有技术中的基于词典的方法无法穷举所有的实体。现有技术中的编写匹配规则仅基于出现的语境、上下文编写,无法对未出现的上下文进行规则总结。
[0003]在一些专业领域,尤其是一些标注语料稀缺的专业领域,基于现有技术中的方法的命名实体识别的效果较差,容易出现实体识别错误、不准确的问题。

技术实现思路

[0004]为了解决上述技术问题中的至少一个,本公开提供了一种命名实体识别模型建立方法、命名实体识别方法、实体识别模型建立装置、命名实体识别装置、电子设备及存储介质。
[0005]根据本公开的一个方面,提供一种命名实体识别本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别模型建立方法,其特征在于,包括:S1、获取目标领域的训练文本集;S2、基于所述目标领域的领域特征构建命名实体种类集以及文本段落类别集;S3、基于所述文本段落类别集以及所述命名实体种类集构建“文本段落类别

命名实体种类”映射字典;S4、使用所述“文本段落类别

命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注,获得每个训练文本的标注序列集,对每个训练文本的标注序列集进行修正,获得修正后的标注序列集;以及S5、至少基于所述训练文本集的所有训练文本的修正后的标注序列集进行命名实体识别模型训练,获得命名实体识别模型。2.根据权利要求1所述的命名实体识别模型建立方法,其特征在于,步骤S4中,使用所述“文本段落类别

命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注,获得每个训练文本的标注序列集,包括:S41、基于所述文本段落类别集以及所述训练文本集的每个所述训练文本的各个自然段落的段落特征对每个所述训练文本进行段落类别划分,获得每个所述训练文本的至少一个类别段落;S42、使用所述“文本段落类别

命名实体种类”映射字典确定所述训练文本集的每个所述训练文本的各个类别段落所对应的命名实体种类;以及S43、基于每个训练文本的各个类别段落所对应的命名实体种类,对各个类别段落进行标注,获得每个类别段落的标注序列,进而获得每个训练文本的标注序列集。3.根据权利要求1或2所述的命名实体识别模型建立方法,其特征在于,所述修正包括以下步骤:逐个字符地读取所述标注序列集的每个标注序列的字符以及字符所对应的标签,将读取的每个标注序列的字符以及字符对应的标签分别存放至字符记录队列以及标签记录队列,直至读取到句间分隔符,获得当前语句的语句字符序列以及语句标签序列,进而获得每个标注序列的所有语句的语句字符序列以及语句标签序列;以及基于每个标注序列的每个语句的至少一个实体种类,对每个语句的语句字符序列以及语句标签序列进行修正,更新每个语句的语句字符序列以及语句标签序列。4.一种命名实体识别方法,使用权利要求1至3所述的方法建立的命名实体识别模型进行命名实体识别,其特征在于,包括:SS1、对输入的目标领域的目标文本进行段落类别划分,获得目标文本的至少一个类别段落;确定所述目标文本的各个类别段落所对应的命名实体种类;以及SS2、基于各个类别段落所对应的命名实体种类,使用所述命名实体识别模型识别所述目标文本中的命名实体。5.一种命名实体识别方法,使用权利要求1至3所述的方法建立的命名实体识别模型进行命名实体识别,其特征在于,包括:SZ1、使用所述命名实体识别模型对输入的目标领域的目标文本...

【专利技术属性】
技术研发人员:周玉
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1