【技术实现步骤摘要】
实体识别方法及装置
本公开涉及计算机
,特别涉及实体识别方法及装置、电子设备和计算机可读存储介质。
技术介绍
随着互联网的发展,各个领域中每天都会产生大量不同形式的互联网数据,如何准确、高效地挖掘出互联网数据中的重要信息,以提升该领域中的服务效率是一个关键问题。进一步的,在信息挖掘中,实体关系提取是其中一项核心任务。目前,常用的实体关系抽取方法包括基于规则的实体关系抽取方法、基于机器学习的实体关系抽取方法。其中,基于规则的实体关系抽取方法重点在于规则的制定,而规则的制定强依赖于人为经验,这就导致在人为经验不足时,无法制定出合理有效的规则,进而导致基于规则所抽取到的实体不够全面,不够准确;基于机器学习的实体关系抽取方法的准确性和召回率对标注语料的依赖性很高,且需要较强的人工干预,而语料标注耗时耗力,这就导致基于机器学习的实体关系抽取方法的整体开发周期很长,且需要耗费较高的人力物力,时效性和泛化能力差。
技术实现思路
本公开的目的在于提供实体识别方法及装置、电子设备和计算机可读存储介质,提高了实体识别的召回率和准确率。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开的第一方面,提供实体识别方法,包括:基于预设文本语料,构建实体字典,所述实体字典包括第一实体字典和第二实体字典;根据所述第一实体字典和第二实体字典训练实体识别模型,基于训练文本语料通过预设算法对所述实体识别模型进行校正;在接收到新的文本语料时 ...
【技术保护点】
1.一种实体识别方法,其特征在于,包括:/n基于预设文本语料,构建实体字典,所述实体字典包括第一实体字典和第二实体字典;/n根据所述第一实体字典和第二实体字典训练实体识别模型,基于训练文本语料通过预设算法对所述实体识别模型进行校正;/n在接收到新的文本语料时,基于校正后的实体识别模型对所述新的文本语料中的实体进行识别。/n
【技术特征摘要】
1.一种实体识别方法,其特征在于,包括:
基于预设文本语料,构建实体字典,所述实体字典包括第一实体字典和第二实体字典;
根据所述第一实体字典和第二实体字典训练实体识别模型,基于训练文本语料通过预设算法对所述实体识别模型进行校正;
在接收到新的文本语料时,基于校正后的实体识别模型对所述新的文本语料中的实体进行识别。
2.根据权利要求1所述的方法,其特征在于,根据所述第一实体字典和第二实体字典训练实体识别模型,基于训练文本语料,通过预设算法对所述实体识别模型进行校正,包括:
查询所述训练文本语料中是否有与所述第一实体字典中的实体或第二实体字典中的实体相匹配的待确定实体;
对所述训练文本语料中待确定实体打实体内链;
若所述待确定实体为出现在所述第一实体字典中的实体,则不对所述实体识别模型进行校正;
若所述待确定实体为出现在所述第二实体字典中的实体且所述待确定实体已打实体内链,则基于语义窗口对所述待确定实体所在的文本语料进行分段;
判断每一分段中的待确定实体是否预测为实体,若每一分段中的待确定实体均未预测为实体,则将所述待确定实体的实体内链删除。
3.根据权利要求2所述的方法,其特征在于,在将所述待确定实体的实体内链删除后,所述方法还包括:
将删除实体内链后的待确定实体所在的文本语料作为负文本语料,将预测为实体所在的语料作为正文本语料;
提取同一实体的正文本语料、负文本语料、正文本语料的关键词以及负文本语料关键词;
若删除后的待确定实体所在的文本语料中包含正文本语料的关键词,且不包含负文本预料的关键词,则将所述待确定实体所在的文本语料作为正文本语料;
若删除后的待确定实体所在的文本语料中包含负文本语料的关键词,则将所述待确定实体所在的文本语料作为负文本语料。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:更新所述第二实体字典中的正文本语料和/或负文本语料。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:更新所述第一实体字典;
具体包括,
将所述第二实体字典中的正文本语料中的实体与所述第一实体字典中的实体进行对比,确定待添加的实体;
若存在待添加的实体,则将所述待添加实体添加至...
【专利技术属性】
技术研发人员:刘文强,
申请(专利权)人:北京金堤征信服务有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。