一种识别文件中的命名实体的方法和装置制造方法及图纸

技术编号:35936610 阅读:11 留言:0更新日期:2022-12-14 10:23
本公开实施例提供了一种识别文件中的命名实体的方法和装置。该方法的一具体实施方式包括:获取第一文件;基于预先构建的命名实体词典,获取对于第一文件中的命名实体的第一预测结果;基于预先训练的第一预测模型,获取对于第一文件中的命名实体的第二预测结果;所述命名实体词典,通过结合多个预训练模型对于包括实体词的样本语句进行命名实体识别的识别结果生成;结合第一和第二预测结果,确定对于第一文件中的命名实体的第三预测结果。利用该方法,可以提高对于文件中的命名实体进行识别的准确率。的准确率。的准确率。

【技术实现步骤摘要】
一种识别文件中的命名实体的方法和装置


[0001]本公开实施例涉及机器学习
和自然语言处理领域,尤其涉及一种识别文件中的命名实体的方法和装置。

技术介绍

[0002]目前,在很多行业中,企业或机构希望通过命名实体识别(Named Entity Recognition,简称NER)技术,对其业务文件中的例如地名、机构名等命名实体(Named Entity)进行自动识别,并将识别结果在业务文件允许的应用范围内用于其业务流程中。例如,一些企业在招聘中会从各种渠道收集简历,为了更好的管理数据,通常希望对简历进行解析得到结构化的数据,如工作经历等,通过命名实体识别技术(Named Entity Recognition,NER),则能够自动化的对简历中的命名实体进行提取。
[0003]相关的命名实体识别技术,通常基于经过训练的神经网络识别模型来进行命名实体的识别。而在神经网络识别模型的训练中,通常依赖于高质量的标注数据,以取得较好的识别效果。但是,大量的高质量标注数据通常是难以获取的、或者获取的代价较高,这往往限制了通过神经网络识别模型进行命名实体识别的效果。

技术实现思路

[0004]本公开实施例描述了一种识别文件中的命名实体的方法和装置。
[0005]根据第一方面,提供了一种识别文件中的命名实体的方法,包括:获取第一文件;基于预先训练的第一预测模型,获取对于第一文件中的命名实体的第一预测结果;基于预先构建的命名实体词典,获取对于第一文件中的命名实体的第二预测结果;所述命名实体词典,通过结合多个预训练模型对于包括实体词的样本语句进行命名实体识别的识别结果生成;结合第一和第二预测结果,确定对于第一文件中的命名实体的第三预测结果。
[0006]根据第一方面,提供了一种命名实体词典的构建方法,包括:获取多种语言的实体词,构建包含所述实体词的样本语句;将所述样本语句输入多个预训练模型中,获取对于所述样本语句中的命名实体的多个识别结果;根据所述多个识别结果,确定所述样本语句中的命名实体;将所述命名实体加入所述命名实体词典。
[0007]根据第三方面,提供了一种识别文件中的命名实体的装置,所述装置包括:
[0008]文件获取单元,配置为,获取第一文件;第一预测单元,配置为,基于预先训练的第一预测模型,获取对于第一文件中的命名实体的第一预测结果;第二预测单元,配置为,基于预先构建的命名实体词典,获取对于第一文件中的命名实体的第二预测结果;所述命名实体词典,通过结合多个预训练模型对于包括实体词的样本语句进行命名实体识别的识别结果生成;预测结果确定单元,配置为,结合第一和第二预测结果,确定对于第一文件中的命名实体的第三预测结果。
[0009]根据第四方面,提供了一种命名实体词典的构建装置,所述装置包括:
[0010]样本构建单元,配置为,获取多种语言的实体词,构建包含所述实体词的样本语
句;识别单元,配置为,将所述样本语句输入多个预训练模型中,获取对于所述样本语句中的命名实体的多个识别结果;词典添加单元,配置为,根据所述多个识别结果,确定所述样本语句中的命名实体;将所述命名实体加入所述命名实体词典。
[0011]根据第五方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序被处理器执行时实现如第一方面中任一项上述的方法。
[0012]根据第六方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当上述计算机程序在计算机中执行时,令上述计算机执行第一方面中任一项上述的方法。
[0013]根据第七方面,提供了一种电子设备,包括存储器和处理器,上述存储器中存储有可执行代码,上述处理器执行上述可执行代码时,实现第一方面中任一项上述的方法。
[0014]根据本公开实施例提供一种识别文件中的命名实体的方法和装置。首先,获取待识别的第一文件。然后,基于预先训练的第一预测模型,获取对于第一文件中的命名实体的第一预测结果,以及,基于预先构建的命名实体词典,获取对于第一文件中的命名实体的第二预测结果。其中,命名实体词典,通过结合多个预训练模型对于包括实体词的样本语句进行命名实体识别的识别结果生成。此后,结合第一和第二预测结果,确定对于第一文件中的命名实体的第三预测结果。利用该方法和装置,可以提高对于文件中的命名实体的识别准确率。
附图说明
[0015]图1示出了本公开实施例的一种识别文件中的命名实体的方法的原理示意图;
[0016]图2示出了根据一个实施例的一种识别文件中的命名实体的方法的流程示意图;
[0017]图3示出了一份英文简历的示意图;
[0018]图4示出了根据另一个实施例的一种识别文件中的命名实体的方法的流程示意图;
[0019]图5示出了根据另一个实施例的一种识别文件中的命名实体的方法的原理示意图;
[0020]图6示出了根据一个实施例的一种命名实体词典的构建方法的流程示意图;
[0021]图7示出了根据一个实施例的一种识别文件中的命名实体的装置的示意性框图;
[0022]图8示出了根据一个实施例的一种命名实体词典的构建装置的示意性框图;
[0023]图9示出了适于用来实现本申请实施例的电子设备的结构示意图;
[0024]图10示出了适于用来实现本申请实施例的存储介质的结构示意图。
具体实施方式
[0025]下面结合附图和实施例,对本说明书提供的技术方案做进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
[0026]如前所述,目前很多企业或机构希望通过命名实体识别(Named Entity Recognition,简称NER)技术,对其业务流程中获取的业务文件中的例如人名、地名、机构名等命名实体(Named Entity)进行自动识别。例如一些企业希望对于接收的简历,通过命名
实体识别技术(Named Entity Recognition,NER),自动识别和提取其中的例如人名、机构名、公司名等命名实体。
[0027]但是,相关的命名实体识别方案均存在着技术上的不足。例如,一种常规的命名实体识别方案,通过训练的基于神经网络的识别模型来进行命名实体的识别。但是,识别模型的训练,通常依赖于大量的高质量的标注数据(训练样本),而大量的高质量标注数据获取的成本通常较高。因此,大量的高质量标注数据在很多训练场景下可能是不充足的,这限制了通过训练后的识别模型进行命名实体识别的效果。
[0028]另一种命名实体识别方案,通过从各种公开的信息渠道或媒介,获取各种领域的实体词,构建实体词典。并根据构建的实体词典,对于文件中的命名实体进行识别。但是,在实际应用中,由于不同来源的实体词往往存在着差异或错误,导致构造的实体词典不够准确,进而使得利用实体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别文件中的命名实体的方法,包括:获取第一文件;基于预先构建的命名实体词典,获取对于第一文件中的命名实体的第一预测结果;所述命名实体词典,通过结合多个预训练模型对于包括实体词的样本语句进行命名实体识别的识别结果生成。2.根据权利要求1所述的方法,还包括:基于预先训练的第一预测模型,获取对于第一文件中的命名实体的第二预测结果;结合第一和第二预测结果,确定对于第一文件中的命名实体的第三预测结果。3.根据权利要求2所述的方法,还包括:根据预先制定的正则表达式,确定对于第一文件中的命名实体的第四预测结果;结合第一和第二预测结果,确定对于第一文件中的命名实体的第三预测结果,包括:结合第一、第二和第四预测结果,确定对于第一文件中的命名实体的第三预测结果。4.根据权利要求3所述的方法,其中,所述命名实体包括第一类命名实体和第二类命名实体,基于预先构建的命名实体词典,获取对于第一文件中的命名实体的第一预测结果,所述基于预先训练的第一预测模型,获取对于第一文件中的命名实体的第二预测结果,包括:基于预先构建的命名实体词典,获取对于第一类命名实体的第一预测结果;基于预先训练的第一预测模型,获取对于第一类命名实体的第二预测结果;所述根据预先制定的正则表达式,确定对于第一文件中的命名实体的第四预测结果,包括:根据预先制定的正则表达式,确定对于第二类命名实体的第四预测结果。5.根据权利要求4所述的方法,其中,所述第一类命名实体包括预定种类实体的名称;所述第二类命名实体包括具有预定文本模式的实体词。6.根据权利要求2所述的方法,其中,所述第一预测模型,包括BERT子模型和条件随机场子模型;基于预先训练的第一预测模型,获取对于第一文件中的命名实体的第二预测结果,包括:对所述第一文件进行分词,获取词序列;将所述词序列输入BERT子模型,获取词序列中各个词的语义向量;将所述语义向量输入条件随机场子模型,获取第一识别结果,所述第一识别结果用于确定所述语义向量对应的词是否用于表示命名实体。7.根据权利要求1所述的方法,其中,所述命名实体词典,通过结合多个预训练模型对于包括实体词的样本语句进行命名实体识别的识别结果生成,包括,所述命名实体词典通过如下步骤生成:获取多种语言的实体词,构建包含所述实体词的样本语句;将所述样本语句输入多个预训练模型中,获取对于所述样本语句中的命名实体的多个识别结果;根据所述多个识别结果,确定所述样本语句中的命名实体;将所述命名实体加入所述命名实体词典。

【专利技术属性】
技术研发人员:罗玉杰
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1