一种命名实体识别中的实体标注方法及智能设备技术

技术编号:26377643 阅读:34 留言:0更新日期:2020-11-19 23:46
本发明专利技术公开一种命名实体识别中的实体标注方法及智能设备,在识别文本中的目标实体后,将所述目标实体输入至联合模型;所述联合模型包括用于相似度查询的语义索引模型以及词义分类模型;根据约束函数,对所述联合模型输出的词义类别和知识图谱的实体链接进行约束后,最终输出所述目标实体的高频词义类别。本发明专利技术能够解决实体标注结果不可控的问题,降低实体标注结果的偏差,进而提高命名实体识别的准确性。

【技术实现步骤摘要】
一种命名实体识别中的实体标注方法及智能设备
本专利技术涉及自然语言处理
,尤其涉及一种命名实体识别中的实体标注方法及智能设备。
技术介绍
命名实体识别(NamedEntitiesRecognition,NER)是自然语言处理(NaturalLanguageProcessing,NLP)中的一个基础环节,目的在于识别文本语料中的人名、地名和组织机构等命名实体,是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。目前主要通过两方面评估NER:一方面是实体边界识别的准确性,另一方面是实体标注的准确性,实体标注主要标注实体的词义类别。由于命名实体数量的无穷性、构词的灵活性和语义的歧义性等因素,导致实体标注成为本领域的技术难题之一。目前命名实体识别主要包括基于字典和规则的方法、基于传统机器学习方法以及基于深度学习方法。其中,基于字典和规则的方法主要依赖于词典和人工规则,人工规则构建消耗大量人工,且泛化性差,基于词典也无法处理未登录词的问题;基于传统机器学习的方法虽克服了基于字典和规则的局限性,但同时也存在过度依赖特征构建本文档来自技高网...

【技术保护点】
1.一种命名实体识别中的实体标注方法,其特征在于,包括:/n在识别文本中的目标实体后,将所述目标实体输入至联合模型;所述联合模型包括用于相似度查询的语义索引模型以及词义分类模型;/n根据约束函数,对所述联合模型输出的词义类别和知识图谱的实体链接进行约束后,确定所述目标实体的高频词义类别并进行标注。/n

【技术特征摘要】
1.一种命名实体识别中的实体标注方法,其特征在于,包括:
在识别文本中的目标实体后,将所述目标实体输入至联合模型;所述联合模型包括用于相似度查询的语义索引模型以及词义分类模型;
根据约束函数,对所述联合模型输出的词义类别和知识图谱的实体链接进行约束后,确定所述目标实体的高频词义类别并进行标注。


2.根据权利要求1所述的方法,其特征在于,所述联合模型被配置为:
在所述语义索引模型中查询与所述目标实体的词义相似度最高的M个目标词语及其词义类别;
将M个目标词语及其词义类别,以及所述目标实体输入至所述词义分类模型进行处理,并输出第一集合,所述第一集合包括所述词义分类模型的计算结果中概率排序最高的T个词语及其词义类别。


3.根据权利要求2所述的方法,其特征在于,所述对所述联合模型输出的词义类别和知识图谱的实体链接进行约束,包括:
根据所述目标实体在所述知识图谱中进行实体链接,得到候选实体集合;
接收所述实体链接反馈的第二集合,所述第二集合包括所述候选实体集合中概率排序最高的J个候选实体及其词义类别;
根据所述约束函数、所述第一集合和所述第二集合,筛选出约束函数值满足阈值条件的F个高频词义类别。


4.根据权利要求3所述的方法,其特征在于,所述约束函数表示为:
cost=epα
其中,
式中,cost表示约束函数;e为自然常数;α为约束项,i表示第二集合中各词义类别的排序序号,1≤i≤J;k表示第一集合中各词义类别的排序序号,1≤k≤T;p为惩罚项,p=-|T+J|,J表示所述第二集合包括的词义类别的数量,T表示所述第一集合包括的词义类别的数量。


5.根据权利要求1~4任一项所述的方法,其特征在于,按照如下方式构建所述语义索引模型:
根据所述知识图谱中的实体数据以及AILab词向量数据库,利用Annoy算法构建并保存具有若干二叉树数据结构的语义索引模型。


6.根据权利要求1~4任一项所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:张桐桐殷腾龙
申请(专利权)人:海信视像科技股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1