一种识别文件中的命名实体的方法和装置制造方法及图纸

技术编号：35936610 阅读：11 留言：0更新日期：2022-12-14 10:23

本公开实施例提供了一种识别文件中的命名实体的方法和装置。该方法的一具体实施方式包括：获取第一文件；基于预先构建的命名实体词典,获取对于第一文件中的命名实体的第一预测结果；基于预先训练的第一预测模型,获取对于第一文件中的命名实体的第二预测结果；所述命名实体词典，通过结合多个预训练模型对于包括实体词的样本语句进行命名实体识别的识别结果生成；结合第一和第二预测结果,确定对于第一文件中的命名实体的第三预测结果。利用该方法，可以提高对于文件中的命名实体进行识别的准确率。的准确率。的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种识别文件中的命名实体的方法和装置

[0001]本公开实施例涉及机器学习
和自然语言处理领域，尤其涉及一种识别文件中的命名实体的方法和装置。

技术介绍

[0002]目前，在很多行业中，企业或机构希望通过命名实体识别(Named Entity Recognition，简称NER)技术，对其业务文件中的例如地名、机构名等命名实体(Named Entity)进行自动识别，并将识别结果在业务文件允许的应用范围内用于其业务流程中。例如，一些企业在招聘中会从各种渠道收集简历，为了更好的管理数据，通常希望对简历进行解析得到结构化的数据，如工作经历等，通过命名实体识别技术(Named Entity Recognition,NER)，则能够自动化的对简历中的命名实体进行提取。
[0003]相关的命名实体识别技术，通常基于经过训练的神经网络识别模型来进行命名实体的识别。而在神经网络识别模型的训练中，通常依赖于高质量的标注数据，以取得较好的识别效果。但是，大量的高质量标注数据通常是难以获取的、或者获取的代价较高，这往往限制了通过神经网络识别模型进行命名实体识别的效果。

技术实现思路

[0004]本公开实施例描述了一种识别文件中的命名实体的方法和装置。
[0005]根据第一方面，提供了一种识别文件中的命名实体的方法，包括：获取第一文件；基于预先训练的第一预测模型,获取对于第一文件中的命名实体的第一预测结果；基于预先构建的命名实体词典,获取对于第一文件中的命名实体的第二预测结果；所述命名实体词典，通过结...

【技术保护点】

【技术特征摘要】
1.一种识别文件中的命名实体的方法，包括：获取第一文件；基于预先构建的命名实体词典,获取对于第一文件中的命名实体的第一预测结果；所述命名实体词典，通过结合多个预训练模型对于包括实体词的样本语句进行命名实体识别的识别结果生成。2.根据权利要求1所述的方法，还包括：基于预先训练的第一预测模型,获取对于第一文件中的命名实体的第二预测结果；结合第一和第二预测结果,确定对于第一文件中的命名实体的第三预测结果。3.根据权利要求2所述的方法，还包括：根据预先制定的正则表达式，确定对于第一文件中的命名实体的第四预测结果；结合第一和第二预测结果,确定对于第一文件中的命名实体的第三预测结果，包括：结合第一、第二和第四预测结果,确定对于第一文件中的命名实体的第三预测结果。4.根据权利要求3所述的方法，其中，所述命名实体包括第一类命名实体和第二类命名实体，基于预先构建的命名实体词典,获取对于第一文件中的命名实体的第一预测结果，所述基于预先训练的第一预测模型,获取对于第一文件中的命名实体的第二预测结果，包括：基于预先构建的命名实体词典,获取对于第一类命名实体的第一预测结果；基于预先训练的第一预测模型,获取对于第一类命名实体的第二预测结果；所述根据预先制定的正则表达式，确定对于第一文件中的命名实体的第四预测结果，包括：根据预先制定的正则表达式，确定对于第二类命名实体的第四预测结果。5.根据权利要求4所述的方法，其中，所述第一类命名实体包括预定种类实体的名称；所述第二类命名实体包括具有预定文本模式的实体词。6.根据权利要求2所述的方法，其中，所述第一预测模型，包括BERT子模型和条件随机场子模型；基于预先训练的第一预测模型,获取对于第一文件中的命名实体的第二预测结果，包括：对所述第一文件进行分词，获取词序列；将所述词序列输入BERT子模型，获取词序列中各个词的语义向量；将所述语义向量输入条件随机场子模型，获取第一识别结果，所述第一识别结果用于确定所述语义向量对应的词是否用于表示命名实体。7.根据权利要求1所述的方法，其中，所述命名实体词典，通过结合多个预训练模型对于包括实体词的样本语句进行命名实体识别的识别结果生成，包括，所述命名实体词典通过如下步骤生成：获取多种语言的实体词，构建包含所述实体词的样本语句；将所述样本语句输入多个预训练模型中，获取对于所述样本语句中的命名实体的多个识别结果；根据所述多个识别结果，确定所述样本语句中的命名实体；将所述命名实体加入所述命名实体词典。

【专利技术属性】
技术研发人员：罗玉杰，
申请(专利权)人：北京字跳网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人