命名实体识别方法、装置、设备及介质制造方法及图纸

技术编号:30342245 阅读:13 留言:0更新日期:2021-10-12 23:14
本发明专利技术实施例提供一种命名实体识别方法、装置、设备及介质。该方法包括:获取第一训练数据集和第二训练数据集;对第一训练数据集进行字符级预处理、实体级预处理、短语级预处理,得到第三训练数据集,基于第一训练数据集构建句子正样本和句子负样本,得到第四训练数据集;利用第三训练数据集和第四训练数据集进行训练,得到Transformer语言模型;对第二训练数据集进行字符级预处理,得到第五训练数据集;将第五训练数据集中的文本语料数据输入到Transformer语言模型,得到标注序列,根据标注序列训练条件随机场CRF模型,得到命名实体识别模型;利用命名实体识别模型识别待识别数据,得到命名实体识别结果。通过本发明专利技术实施例能够提高实体识别准确率。能够提高实体识别准确率。能够提高实体识别准确率。

【技术实现步骤摘要】
命名实体识别方法、装置、设备及介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种命名实体识别方法、装置、设备和计算机可读存储介质。

技术介绍

[0002]命名实体识别(Named Entity Recognition,NER)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,为关系抽取、问答系统、句法分析、机器翻译、信息检索等任务做铺垫,在自然语言处理技术中占有重要地位。
[0003]但是,目前的技术对语料库的依赖比较大,而可以用来建设和评估命名实体识别系统的大规模通用语料库又比较少,特征抽取能力不够强,未考虑先验知识,不能有效的提升句法和语义的表达信息。

技术实现思路

[0004]本专利技术实施例提供了一种命名实体识别方法、装置、设备和计算机可读存储介质,能够基于命名实体识别模型进行命名实体识别,更有效的利用上下文内容识别出实体标签,提高实体识别准确率。
[0005]第一方面,本专利技术实施例提供一种命名实体识别模型训练方法,命名实体识别模型用于识别目标领域的文本语料数据的命名实体,该方法包括:获取第一训练数据集和第二训练数据集,其中,第一训练数据集包括至少一种领域的文本语料数据,第二训练数据集包括目标领域的文本语料数据;对第一训练数据集进行字符级预处理、实体级预处理、短语级预处理,得到第三训练数据集,以及基于第一训练数据集构建句子正样本和句子负样本,得到第四训练数据集;利用第三训练数据集和第四训练数据集进行训练,得到Transformer语言模型;对第二训练数据集进行字符级预处理,得到第五训练数据集;将第五训练数据集中的文本语料数据输入到Transformer语言模型,得到标注序列,根据标注序列训练条件随机场(Conditional Random Fields,CRF)模型,得到命名实体识别模型。
[0006]在第一方面的一些可实现方式中,对第一训练数据集进行字符级预处理、实体级预处理、短语级预处理,得到第三训练数据集,包括:对第一训练数据集中的文本语料数据进行字符级、实体级、短语级三种不同层级的切分;当不同层级切分后的文本语料数据的字符数不满足预设字符数时,调整不同层级切分后的文本语料数据的字符数满足预设字符数;随机选择字符级、实体级、短语级对应层级中满足预设字符数的文本语料数据中预设比例的字符数,并将选中的字符数通过掩码(Mask)进行遮盖,得到第三训练数据集。
[0007]在第一方面的一些可实现方式中,基于第一训练数据集构建句子正样本和句子负样本,得到第四训练数据集,包括:根据第一训练数据集中的文本语料数据构建句子对正样本和句子对负样本,其中,句子对正样本包括具有上下文关系的两个句子,句子对负样本包括不具有上下文关系的两个句子;当句子对正样本和句子对负样本中句子的字符数不满足预设字符数时,调整句子对正样本和句子对负样本中句子的字符数满足预设字符数;连接
满足预设字符数的句子对正样本中的两个句子,得到句子正样本,以及连接满足预设字符数的句子对负样本中的两个句子,得到句子负样本。
[0008]在第一方面的一些可实现方式中,利用第三训练数据集和第四训练数据集进行训练,包括:基于第三训练数据集中遮盖后的字符级的文本语料数据、遮盖后的实体级的文本语料数据、遮盖后的短语级的文本语料数据以及第四训练数据集中的句子正样本和句子负样本进行训练。
[0009]在第一方面的一些可实现方式中,对第二训练数据集进行字符级预处理,得到第五训练数据集,包括:标注第二训练数据集中的文本语料数据;对标注后的文本语料数据进行字符级的切分,得到第五训练数据集。
[0010]在第一方面的一些可实现方式中,在得到命名实体识别模型之后,该方法还包括:利用命名实体识别模型识别待识别数据,得到命名实体识别结果。
[0011]第二方面,本专利技术实施例提供一种命名实体识别方法,该方法包括:获取待识别数据;利用命名实体识别模型识别待识别数据,得到命名实体识别结果,其中,命名实体识别模型基于第一方面或者第一方面任一可实现方式中所述的命名实体识别模型训练方法得到。
[0012]第三方面,本专利技术实施例提供一种命名实体识别模型训练装置,命名实体识别模型用于识别目标领域的文本语料数据的命名实体,该装置包括:获取模块,用于获取第一训练数据集和第二训练数据集,其中,第一训练数据集包括至少一种领域的文本语料数据,第二训练数据集包括目标领域的文本语料数据;预处理模块,用于对第一训练数据集进行字符级预处理、实体级预处理、短语级预处理,得到第三训练数据集,以及基于第一训练数据集构建句子正样本和句子负样本,得到第四训练数据集;训练模块,用于利用第三训练数据集和第四训练数据集进行训练,得到Transformer语言模型;预处理模块还用于对第二训练数据集进行字符级预处理,得到第五训练数据集;训练模块还用于将第五训练数据集中的文本语料数据输入到Transformer语言模型,得到标注序列,根据标注序列训练条件随机场CRF模型,得到命名实体识别模型。
[0013]在第三方面的一些可实现方式中,预处理模块具体用于:对第一训练数据集中的文本语料数据进行字符级、实体级、短语级三种不同层级的切分;当不同层级切分后的文本语料数据的字符数不满足预设字符数时,调整不同层级切分后的文本语料数据的字符数满足预设字符数;随机选择字符级、实体级、短语级对应层级中满足预设字符数的文本语料数据中预设比例的字符数,并将选中的字符数通过掩码Mask进行遮盖,得到第三训练数据集。
[0014]在第三方面的一些可实现方式中,预处理模块具体用于:根据第一训练数据集中的文本语料数据构建句子对正样本和句子对负样本,其中,句子对正样本包括具有上下文关系的两个句子,句子对负样本包括不具有上下文关系的两个句子;当句子对正样本和句子对负样本中句子的字符数不满足预设字符数时,调整句子对正样本和句子对负样本中句子的字符数满足预设字符数;连接满足预设字符数的句子对正样本中的两个句子,得到句子正样本,以及连接满足预设字符数的句子对负样本中的两个句子,得到句子负样本。
[0015]在第三方面的一些可实现方式中,训练模块具体用于:基于第三训练数据集中遮盖后的字符级的文本语料数据、遮盖后的实体级的文本语料数据、遮盖后的短语级的文本语料数据以及第四训练数据集中的句子正样本和句子负样本进行训练。
[0016]在第三方面的一些可实现方式中,预处理模块具体用于:标注第二训练数据集中的文本语料数据;对标注后的文本语料数据进行字符级的切分,得到第五训练数据集。
[0017]在第三方面的一些可实现方式中,该装置还包括:识别模块,用于在得到命名实体识别模型之后,利用命名实体识别模型识别待识别数据,得到命名实体识别结果。
[0018]第四方面,本专利技术实施例提供一种命名实体识别装置,该装置包括:获取模块,用于获取待识别数据;识别模块,用于利用命名实体识别模型识别待识别数据,得到命名实体识别结果,其中,命名实体识别模型基于第一方面或者第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别模型训练方法,其特征在于,所述命名实体识别模型用于识别目标领域的文本语料数据的命名实体,所述方法包括:获取第一训练数据集和第二训练数据集,其中,所述第一训练数据集包括至少一种领域的文本语料数据,所述第二训练数据集包括所述目标领域的文本语料数据;对所述第一训练数据集进行字符级预处理、实体级预处理、短语级预处理,得到第三训练数据集,以及基于所述第一训练数据集构建句子正样本和句子负样本,得到第四训练数据集;利用所述第三训练数据集和所述第四训练数据集进行训练,得到Transformer语言模型;对所述第二训练数据集进行字符级预处理,得到第五训练数据集;将所述第五训练数据集中的文本语料数据输入到所述Transformer语言模型,得到标注序列,根据所述标注序列训练条件随机场CRF模型,得到所述命名实体识别模型。2.根据权利要求1所述的方法,其特征在于,所述对所述第一训练数据集进行字符级预处理、实体级预处理、短语级预处理,得到第三训练数据集,包括:对所述第一训练数据集中的文本语料数据进行字符级、实体级、短语级三种不同层级的切分;当不同层级切分后的文本语料数据的字符数不满足预设字符数时,调整不同层级切分后的文本语料数据的字符数满足所述预设字符数;随机选择字符级、实体级、短语级对应层级中满足所述预设字符数的文本语料数据中预设比例的字符数,并将选中的字符数通过掩码Mask进行遮盖,得到所述第三训练数据集。3.根据权利要求1所述的方法,其特征在于,所述基于所述第一训练数据集构建句子正样本和句子负样本,得到第四训练数据集,包括:根据所述第一训练数据集中的文本语料数据构建句子对正样本和句子对负样本,其中,所述句子对正样本包括具有上下文关系的两个句子,所述句子对负样本包括不具有上下文关系的两个句子;当所述句子对正样本和所述句子对负样本中句子的字符数不满足预设字符数时,调整所述句子对正样本和所述句子对负样本中句子的字符数满足所述预设字符数;连接满足所述预设字符数的句子对正样本中的两个句子,得到所述句子正样本,以及连接满足所述预设字符数的句子对负样本中的两个句子,得到所述句子负样本。4.根据权利要求2所述的方法,其特征在于,所述利用所述第三训练数据集和所述第四训练数据集进行训练,包括:基于所述第三训练数据集中遮盖后的字符级的文本语料数据、遮盖后的实体级的文本语料数据、遮盖后的短语级的文本语料数据以及所述第四训练数据集中的句子正样本和句子负样本进行训练。5.根据权利要求1所述的方法,其特征在于,所述对所述第二训练...

【专利技术属性】
技术研发人员:刘思蒙干小丹
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1