实体识别方法及装置制造方法及图纸

技术编号:29134068 阅读:12 留言:0更新日期:2021-07-02 22:29
本公开的实施例提供了实体识别方法及装置,该方法包括:基于预设文本语料,构建实体字典,实体字典包括第一实体字典和第二实体字典;根据第一实体字典和第二实体字典训练实体识别模型,基于训练文本语料通过预设算法对实体识别模型进行校正;在接收到新的文本语料时,基于校正后的实体识别模型对新的文本语料中的实体进行识别。本公开技术方案可以大幅提高实体识别的准确率。

【技术实现步骤摘要】
实体识别方法及装置
本公开涉及计算机
,特别涉及实体识别方法及装置、电子设备和计算机可读存储介质。
技术介绍
随着互联网的发展,各个领域中每天都会产生大量不同形式的互联网数据,如何准确、高效地挖掘出互联网数据中的重要信息,以提升该领域中的服务效率是一个关键问题。进一步的,在信息挖掘中,实体关系提取是其中一项核心任务。目前,常用的实体关系抽取方法包括基于规则的实体关系抽取方法、基于机器学习的实体关系抽取方法。其中,基于规则的实体关系抽取方法重点在于规则的制定,而规则的制定强依赖于人为经验,这就导致在人为经验不足时,无法制定出合理有效的规则,进而导致基于规则所抽取到的实体不够全面,不够准确;基于机器学习的实体关系抽取方法的准确性和召回率对标注语料的依赖性很高,且需要较强的人工干预,而语料标注耗时耗力,这就导致基于机器学习的实体关系抽取方法的整体开发周期很长,且需要耗费较高的人力物力,时效性和泛化能力差。
技术实现思路
本公开的目的在于提供实体识别方法及装置、电子设备和计算机可读存储介质,提高了实体识别的召回率和准确率。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开的第一方面,提供实体识别方法,包括:基于预设文本语料,构建实体字典,所述实体字典包括第一实体字典和第二实体字典;根据所述第一实体字典和第二实体字典训练实体识别模型,基于训练文本语料通过预设算法对所述实体识别模型进行校正;在接收到新的文本语料时,基于校正后的实体识别模型对所述新的文本语料中的实体进行识别。在本公开的示例性实施例中,所述根据所述第一实体字典和第二实体字典训练实体识别模型,基于训练文本语料,通过预设算法对所述实体识别模型进行校正,包括:查询所述训练文本语料中是否有与所述第一实体字典中的实体或第二实体字典中的实体相匹配的待确定实体;对所述训练文本语料中待确定实体打实体内链;若所述待确定实体为出现在所述第一实体字典中的实体,则不对所述实体识别模型进行校正;若所述待确定实体为出现在所述第二实体字典中的实体且所述待确定实体已打实体内链,则基于语义窗口对所述待确定实体所在的文本语料进行分段;判断每一分段中的待确定实体是否预测为实体,若每一分段中的待确定实体均未预测为实体,则将所述待确定实体的实体内链删除。在本公开的示例性实施例中,在将所述待确定实体的实体内链删除后,所述方法还包括:将删除实体内链后的待确定实体所在的文本语料作为负文本语料,将预测为实体所在的语料作为正文本语料;提取同一实体的正文本语料、负文本语料、正文本语料的关键词以及负文本语料关键词;若删除后的待确定实体所在的文本语料中包含正文本语料的关键词,且不包含负文本预料的关键词,则将所述待确定实体所在的文本语料作为正文本语料;若删除后的待确定实体所在的文本语料中包含负文本语料的关键词,则将所述待确定实体所在的文本语料作为负文本语料。在本公开的示例性实施例中,所述方法还包括:更新所述第二实体字典中的正文本语料和/或负文本语料。在本公开的示例性实施例中,所述方法还包括:更新所述第一实体字典;具体包括,将所述第二实体字典中的正文本语料中的实体与所述第一实体字典中的实体进行对比,确定待添加的实体;若存在待添加的实体,则将所述待添加实体添加至第一字典实体中,更新所述第一实体字典根据本公开的第二方面,提供一种实体识别装置,包括:实体字典构建模块,用于基于预设文本语料,构建实体字典,所述实体字典包括第一实体字典和第二实体字典;实体字典校正模块,用于根据所述第一实体字典和第二实体字典训练实体识别模型,基于训练文本语料通过预设算法对所述实体识别模型进行校正;实体识别模块,用于在接收到新的文本语料时,基于校正后的实体识别模型对所述新的文本语料中的实体进行识别。在本公开的示例性实施例中,所述实体字典校正模块,用于:查询所述训练文本语料中是否有与所述第一实体字典中的实体或第二实体字典中的实体相匹配的待确定实体;对所述训练文本语料中的待确定实体打实体内链;若所述待确定实体为出现在所述第一实体字典中的实体,则不对所述实体识别模型进行校正;若所述待确定实体为出现在所述第二实体字典中的实体且所述待确定实体已打实体内敛,则基于语义窗口对所述待确定实体所在的文本语料进行分段;判断每一分段中的待确定实体是否预测为实体,若每一分段中的待确定实体均未预测为实体,则将所述待确定实体的实体内链删除。在本公开的示例性实施例中,所述实体字典校正模块,还用于:将删除实体内敛后的待确定实体所在的文本语料作为负文本语料,将预测为实体所在的语料作为正文本语料;提取同一实体的正文本语料、负文本语料、正文本语料的关键词以及负文本语料关键词;若删除后的待确定实体所在的文本语料中包含正文本语料的关键词,且不包含负文本预料的关键词,则将所述待确定实体所在的文本语料作为正文本语料;若删除后的待确定实体所在的文本语料中包含负文本语料的关键词,则将所述待确定实体所在的文本语料作为负文本语料。根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述的实体识别方法。根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的实体识别方法。由上述技术方案可知,本公开示例性实施例中的实体识别方法及装置、计算机可读存储介质、电子设备至少具备以下优点和积极效果:本公开实施例中的实体识别方法首先基于现有的大量文本语料,构建实体字典,得到初步准确的实体字典;根据第一实体字典和第二实体字典训练实体识别模型,并通过预设算法对实体识别模型进行校正,通过构建正负文本语料,在校正时将通过语义环境判断为非实体的实体以及实体所在的文本作为负文本语料,并通过正文本语料中的关键词再次对负样本语料实行回捞策略,提高了实体识别的准确率召回率。本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了可以应用本公开实施例的实体识别方法的示例性应用场景的示意图;图2示出本公开示例性实施例中实体识别方法的流程示意图;图3示出本公开另一示例性实施例中实体识别方法的流程示意图图4示出本公开示例性实施例中实体识别装置的结构示意本文档来自技高网...

【技术保护点】
1.一种实体识别方法,其特征在于,包括:/n基于预设文本语料,构建实体字典,所述实体字典包括第一实体字典和第二实体字典;/n根据所述第一实体字典和第二实体字典训练实体识别模型,基于训练文本语料通过预设算法对所述实体识别模型进行校正;/n在接收到新的文本语料时,基于校正后的实体识别模型对所述新的文本语料中的实体进行识别。/n

【技术特征摘要】
1.一种实体识别方法,其特征在于,包括:
基于预设文本语料,构建实体字典,所述实体字典包括第一实体字典和第二实体字典;
根据所述第一实体字典和第二实体字典训练实体识别模型,基于训练文本语料通过预设算法对所述实体识别模型进行校正;
在接收到新的文本语料时,基于校正后的实体识别模型对所述新的文本语料中的实体进行识别。


2.根据权利要求1所述的方法,其特征在于,根据所述第一实体字典和第二实体字典训练实体识别模型,基于训练文本语料,通过预设算法对所述实体识别模型进行校正,包括:
查询所述训练文本语料中是否有与所述第一实体字典中的实体或第二实体字典中的实体相匹配的待确定实体;
对所述训练文本语料中待确定实体打实体内链;
若所述待确定实体为出现在所述第一实体字典中的实体,则不对所述实体识别模型进行校正;
若所述待确定实体为出现在所述第二实体字典中的实体且所述待确定实体已打实体内链,则基于语义窗口对所述待确定实体所在的文本语料进行分段;
判断每一分段中的待确定实体是否预测为实体,若每一分段中的待确定实体均未预测为实体,则将所述待确定实体的实体内链删除。


3.根据权利要求2所述的方法,其特征在于,在将所述待确定实体的实体内链删除后,所述方法还包括:
将删除实体内链后的待确定实体所在的文本语料作为负文本语料,将预测为实体所在的语料作为正文本语料;
提取同一实体的正文本语料、负文本语料、正文本语料的关键词以及负文本语料关键词;
若删除后的待确定实体所在的文本语料中包含正文本语料的关键词,且不包含负文本预料的关键词,则将所述待确定实体所在的文本语料作为正文本语料;
若删除后的待确定实体所在的文本语料中包含负文本语料的关键词,则将所述待确定实体所在的文本语料作为负文本语料。


4.根据权利要求3所述的方法,其特征在于,所述方法还包括:更新所述第二实体字典中的正文本语料和/或负文本语料。


5.根据权利要求1所述的方法,其特征在于,所述方法还包括:更新所述第一实体字典;
具体包括,
将所述第二实体字典中的正文本语料中的实体与所述第一实体字典中的实体进行对比,确定待添加的实体;
若存在待添加的实体,则将所述待添加实体添加至...

【专利技术属性】
技术研发人员:刘文强
申请(专利权)人:北京金堤征信服务有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1