实体识别模型生成方法及装置、实体提取方法及装置制造方法及图纸

技术编号:28978648 阅读:13 留言:0更新日期:2021-06-23 09:24
本公开的实施例提供了实体识别模型生成方法及装置、实体提取方法及装置、计算机可读存储介质、电子设备和计算机程序。该方法包括:获取第一样本语句集;基于第一样本语句集中的样本语句和对应的实体标注信息,训练初始目标类型实体识别模型,得到目标类型实体识别模型;获取第二样本语句集;基于第二样本语句集中的正样本语句和对应的正样本标注信息,以及负样本语句和对应的负样本标注信息,训练初始实体分类模型,得到实体分类模型。本公开技术方案可以实现对目标类型实体的自动提取,并且可以准确而全面地得到文本中的目标类型实体及目标类型实体的类别。

【技术实现步骤摘要】
实体识别模型生成方法及装置、实体提取方法及装置
本公开涉及计算机
,特别涉及实体识别模型生成方法及装置、实体提取方法及装置、电子设备、计算机可读存储介质和计算机程序。
技术介绍
命名实体识别(NamedEntityRecognition,NER)是指从文本中识别出特定对象事务名称或者符号的过程。命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理任务中必不可少的组成部分。目前在很多领域,需要从已有的文本中提取特定类型的实体,为用户提供各种服务。例如,解析招投标网站的公示信息,可以为企业和用户提供有价值的信息。招投标领域信息复杂,目前广泛采用的抽取方法是通过构建相应的正则表达式模版实现信息抽取。还有些自动化抽取技术如基于网页结构特征的网页信息抽取技术、基于包装器归纳方式的网页信息抽取技术等。
技术实现思路
本公开的目的在于提供一种实体识别模型生成方法及装置、实体提取方法及装置、电子设备、计算机可读存储介质和计算机程序,进而至少在一定程度上解决上述
技术介绍
中描述的技术问题。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开的第一方面,提供实体识别模型生成方法,包括:获取第一样本语句集,其中,第一样本语句集中的样本语句包括目标类型实体,且具有对应的表征目标类型实体的实体标注信息;基于第一样本语句集中的样本语句和对应的实体标注信息,训练初始目标类型实体识别模型,得到目标类型实体识别模型;获取第二样本语句集,其中,第二样本语句集包括正样本语句和负样本语句,正样本语句包括预设类别的目标类型实体,且具有对应的正样本标注信息,负样本语句包括非预设类别的目标类型实体,且具有对应的负样本标注信息;基于第二样本语句集中的正样本语句和对应的正样本标注信息,以及负样本语句和对应的负样本标注信息,训练初始实体分类模型,得到实体分类模型。在本公开的示例性实施例中,获取第一样本语句集,包括:从预设样本文本中提取第一样本语句集,并从第一样本语句集包括的样本语句中确定目标类型实体;基于目标类型实体在样本语句中的位置,生成样本语句子集包括的样本语句对应的实体标注信息。在本公开的示例性实施例中,获取第二样本语句集,包括:从预设样本文本中提取初始样本语句集;从初始样本语句集中确定包括预设类别的目标类型实体的样本语句,以及确定包括非预设类别的目标类型实体的样本语句;将预设类别的目标类型实体所在的样本语句和预设类别的目标类型实体组成的语句对确定为正样本语句,并生成表征预设类别的目标类型实体的正样本标注信息;将非预设类别的目标类型实体所在的样本语句和非预设类别的目标类型实体组成的语句对确定为负样本语句,并生成表征非预设类别的目标类型实体的负样本标注信息。在本公开的示例性实施例中,确定包括非预设类别的目标类型实体的样本语句,包括:利用目标类型实体识别模型,从初始样本语句集中的样本语句中确定目标类型实体;将确定出的各个目标类型实体与预设类别的目标类型实体进行比对,得到非预设类型的目标类型实体;将非预设类型的目标类型实体所在的样本语句确定为包括非预设类别的目标类型实体的样本语句。在本公开的示例性实施例中,从第一样本语句集包括的样本语句中确定目标类型实体,包括:利用如下至少一种方式从第一样本语句集包括的样本语句中确定目标类型实体:方式一,基于预设的正则表达式,从第一样本语句集包括的样本语句中确定目标类型实体;方式二,基于预设的由目标类型实体构建的前缀字典树,从第一样本语句集包括的样本语句中查找目标类型实体。在本公开的示例性实施例中,在从预设样本文本中提取第一样本语句集之前,方法还包括:对预设初始文本进行预处理,得到符合预设格式的预设样本文本。根据本公开的第二方面,提供了实体提取方法,包括:获取待识别文本;将待识别文本输入预先训练的目标类型实体识别模型,得到目标类型实体,其中,目标类型实体识别模型预先基于第一方面的方法训练得到;基于目标类型实体,从待识别文本中确定待分类语句;将待分类语句输入预先训练的实体分类模型,得到表征目标类型实体的类别的实体类别信息,其中,实体分类模型预先基于第一方面的方法训练得到。在本公开的示例性实施例中,获取待识别文本,包括:获取原始文本;对原始文本进行预处理,得到符合预设格式的待识别文本。在本公开的示例性实施例中,基于目标类型实体,从待识别文本中确定待分类语句,包括:将目标类型实体所在的语句和目标类型实体组成语句对,并将语句对确定为待分类语句。根据本公开的第三方面,提供实体识别模型生成装置,包括:第一获取模块,用于获取第一样本语句集,其中,第一样本语句集中的样本语句包括目标类型实体,且具有对应的表征目标类型实体的实体标注信息;第一训练模块,用于基于第一样本语句集中的样本语句和对应的实体标注信息,训练初始目标类型实体识别模型,得到目标类型实体识别模型;第二获取模块,用于获取第二样本语句集,其中,第二样本语句集包括正样本语句和负样本语句,正样本语句包括预设类别的目标类型实体,且具有对应的正样本标注信息,负样本语句包括非预设类别的目标类型实体,且具有对应的负样本标注信息;第二训练模块,用于基于第二样本语句集中的正样本语句和对应的正样本标注信息,以及负样本语句和对应的负样本标注信息,训练初始实体分类模型,得到实体分类模型。在本公开的示例性实施例中,第一获取模块包括:第一提取单元,用于从预设样本文本中提取第一样本语句集,并从第一样本语句集包括的样本语句中确定目标类型实体;生成单元,用于基于目标类型实体在样本语句中的位置,生成样本语句子集包括的样本语句对应的实体标注信息。在本公开的示例性实施例中,第二获取模块包括:第二提取单元,用于从预设样本文本中提取初始样本语句集;第一确定单元,用于从初始样本语句集中确定包括预设类别的目标类型实体的样本语句,以及确定包括非预设类别的目标类型实体的样本语句;第二确定单元,用于将预设类别的目标类型实体所在的样本语句和预设类别的目标类型实体组成的语句对确定为正样本语句,并生成表征预设类别的目标类型实体的正样本标注信息;第三确定单元,用于将非预设类别的目标类型实体所在的样本语句和非预设类别的目标类型实体组成的语句对确定为负样本语句,并生成表征非预设类别的目标类型实体的负样本标注信息。在本公开的示例性实施例中,第一确定单元包括:第一确定子单元,用于利用目标类型实体识别模型,从初始样本语句集中的样本语句中确定目标类型实体;比对子单元,用于将确定出的各个目标类型实体与预设类别的目标类型实体进行比对,得到非预设类型的目标类型实体;第二确定子单元,用于将非预设类型的目标类型实体所在的样本语句确定为包括非预设类别的目标类型实体的样本语句。在本公开的示例性实施例中,第一提取单元进一步用于:利用如下至少一种方式从第一样本语句集包括的样本语句中确定目标类型实体:方式一,基于预设的正则表达式,从第一样本语句集包括的样本语句中确定目标类型实体;方式二,基于预设的由目标本文档来自技高网...

【技术保护点】
1.一种实体识别模型生成方法,其特征在于,包括:/n获取第一样本语句集,其中,所述第一样本语句集中的样本语句包括目标类型实体,且具有对应的表征所述目标类型实体的实体标注信息;/n基于所述第一样本语句集中的样本语句和对应的实体标注信息,训练初始目标类型实体识别模型,得到目标类型实体识别模型;/n获取第二样本语句集,其中,所述第二样本语句集包括正样本语句和负样本语句,所述正样本语句包括预设类别的目标类型实体,且具有对应的正样本标注信息,所述负样本语句包括非预设类别的目标类型实体,且具有对应的负样本标注信息;/n基于所述第二样本语句集中的正样本语句和对应的正样本标注信息,以及负样本语句和对应的负样本标注信息,训练初始实体分类模型,得到实体分类模型。/n

【技术特征摘要】
1.一种实体识别模型生成方法,其特征在于,包括:
获取第一样本语句集,其中,所述第一样本语句集中的样本语句包括目标类型实体,且具有对应的表征所述目标类型实体的实体标注信息;
基于所述第一样本语句集中的样本语句和对应的实体标注信息,训练初始目标类型实体识别模型,得到目标类型实体识别模型;
获取第二样本语句集,其中,所述第二样本语句集包括正样本语句和负样本语句,所述正样本语句包括预设类别的目标类型实体,且具有对应的正样本标注信息,所述负样本语句包括非预设类别的目标类型实体,且具有对应的负样本标注信息;
基于所述第二样本语句集中的正样本语句和对应的正样本标注信息,以及负样本语句和对应的负样本标注信息,训练初始实体分类模型,得到实体分类模型。


2.根据权利要求1所述的方法,其特征在于,所述获取第一样本语句集,包括:
从预设样本文本中提取第一样本语句集,并从所述第一样本语句集包括的样本语句中确定目标类型实体;
基于所述目标类型实体在样本语句中的位置,生成所述样本语句子集包括的样本语句对应的实体标注信息。


3.根据权利要求1所述的方法,其特征在于,所述获取第二样本语句集,包括:
从预设样本文本中提取初始样本语句集;
从所述初始样本语句集中确定包括预设类别的目标类型实体的样本语句,以及确定包括非预设类别的目标类型实体的样本语句;
将所述预设类别的目标类型实体所在的样本语句和所述预设类别的目标类型实体组成的语句对确定为正样本语句,并生成表征所述预设类别的目标类型实体的正样本标注信息;
将所述非预设类别的目标类型实体所在的样本语句和所述非预设类别的目标类型实体组成的语句对确定为负样本语句,并生成表征所述非预设类别的目标类型实体的负样本标注信息。


4.根据权利要求3所述的方法,其特征在于,所述确定包括非预设类别的目标类型实体的样本语句,包括:
利用所述目标类型实体识别模型,从所述初始样本语句集中的样本语句中确定目标类型实体;
将确定出的各个目标类型实体与所述预设类别的目标类型实体进行比对,得到非预设类型的目标类型实体;
将所述非预设类型的目标类型实体所在的样本语句确定为所述包括非预设类别的目标类型实体的样本语句。


5.根据权利要求2所述的方法,其特征在于,所述从所述第一样本语句集包括的样本语句中确定目标类型实体,包括:
利用如下至少一种方式从所述第一样本语句集包括的样本语句中确定目标类型实体:
方式一,基于预设的正则表达式,从所述第一样本语句集包括的样本语句中确定目标类型实体;
方式二,基于预设的由目标类型实体构建的前缀字典树,从所述第一样本语句集包括的样本语句中查找目标类型实体。


6.根据权利要求2-5之一所述的方法,其特征在于,在所述从预设样本文本中提取第一样本语句集之前,所述方法还包括:
对预设初始文本进行预处理,得到符合预设格式的预设样本文本。


7.一种实体提取方法,其特征在于,包括:
获取待识...

【专利技术属性】
技术研发人员:李凯周晗
申请(专利权)人:北京金堤征信服务有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1