实体识别方法、装置、计算机设备和介质制造方法及图纸

技术编号:39294807 阅读:8 留言:0更新日期:2023-11-07 11:02
本申请公开了一种实体识别方法、装置、计算机设备和介质,该方法包括:获取待识别文本以及待识别图像,待识别图像与待识别文本相关联;利用实体识别模型对待识别文本以及待识别图像进行处理,得到待识别文本的第一模态特征以及待识别图像的第二模态特征;其中,实体识别模型是基于样本文本、与样本文本相关联的样本图像、样本图像包括的图像实体以及标签数据训练得到的,标签数据包括图像实体的图像实体标签以及样本文本包括的文本实体的文本实体参考标签;利用实体识别模型对第一模态特征以及第二模态特征进行处理,得到待识别文本的实体识别结果。采用本申请,可以提升实体识别的准确性。准确性。准确性。

【技术实现步骤摘要】
实体识别方法、装置、计算机设备和介质


[0001]本申请涉及计算机
,尤其涉及一种实体识别方法、装置、计算机设备和介质。

技术介绍

[0002]随着计算机与人工智能技术的不断发展,自然语言处理(Nature Language Processing,NLP)成为计算机科学与人工智能领域中的一个重要方向。作为NLP领域中的一项基础任务,命名实体识别(Named Entity Recognition,NER)能够提取文本中的实体标签,在文本搜索、文本推荐、知识图谱构建等领域都起着至关重要的作用,是热点研究方向之一。由于文本信息中实体常常存在歧义,传统NER无法准确识别,因此,多模态NER应运而生。多模态NER在传统NER基础上额外引入了图像,可以为文本补充语义信息来进行歧义消除,近些年来受到人们广泛的关注。然而,图像信息并非总能准确辅助文本信息进行歧义消除。
[0003]因此,如何准确消除文本信息的歧义,提升实体识别的性能成为亟待解决的问题。

技术实现思路

[0004]本申请提供了一种实体识别方法、装置、计算机设备和介质,可提很好地消除文本信息的歧义,提升NER的性能和效果。
[0005]本申请一方面提供了一种实体识别方法,包括:获取待识别文本以及待识别图像,待识别图像与待识别文本相关联;利用实体识别模型对待识别文本以及待识别图像进行处理,得到待识别文本的第一模态特征以及待识别图像的第二模态特征;其中,实体识别模型是基于样本文本、与样本文本相关联的样本图像、样本图像包括的图像实体以及标签数据训练得到的,标签数据包括图像实体的图像实体标签以及样本文本包括的文本实体的文本实体参考标签;利用实体识别模型对第一模态特征以及第二模态特征进行处理,得到待识别文本的实体识别结果。
[0006]本申请一方面提供了一种实体识别装置,包括:获取模块,用于获取待识别文本以及待识别图像,待识别图像与待识别文本相关联;处理模块,用于利用实体识别模型对待识别文本以及待识别图像进行处理,得到待识别文本的第一模态特征以及待识别图像的第二模态特征;其中,实体识别模型是基于样本文本、与样本文本相关联的样本图像、样本图像包括的图像实体以及标签数据训练得到的,标签数据包括图像实体的图像实体标签以及样本文本包括的样本文本实体参考标签;该处理模块,还用于利用实体识别模型对第一模态特征以及第二模态特征进行处理,得到待识别文本的实体识别结果。
[0007]可选地,获取模块还用于获取样本文本、与样本文本相关联的样本图像、样本图像包括的图像实体以及标签数据,标签数据包括图像实体的图像实体标签以及样本文本包括的文本实体的文本实体参考标签;处理模块还用于基于样本文本、样本图像、图像实体以及标签数据对初始神经网络进行训练,得到实体识别模型。
[0008]可选地,获取模块获取样本文本、与样本文本相关联的样本图像、样本图像包括的图像实体以及标签数据,包括:获取样本文本、与样本文本相关联的样本图像以及样本文本包括的文本实体的文本实体参考标签;对样本图像进行图像检测,得到样本图像包括的图像实体,并生成图像实体的图像实体标签。
[0009]可选地,初始神经网络包括特征提取模块、多粒度对齐模块以及实体识别模块,处理模块基于样本文本、样本图像、图像实体以及标签数据对初始神经网络进行训练,得到实体识别模型,包括:调用特征提取模块提取样本文本和图像实体标签的特征,得到样本文本特征和图像实体标签特征;调用特征提取模块提取样本图像和图像实体的特征,得到样本图像特征和图像实体特征;调用多粒度对齐模块对样本文本特征、图像实体标签特征、样本图像特征和图像实体特征进行对齐处理,得到第一差异数据;调用实体识别模块对样本文本特征和样本图像特征进行实体识别处理,并基于处理结果以及文本实体参考标签得到第二差异数据;基于第一差异数据和第二差异数据对初始神经网络的网络参数进行调整,并将网络参数调整后的初始神经网络作为实体识别模型。
[0010]可选地,处理模块调用多粒度对齐模块对样本文本特征、图像实体标签特征、样本图像特征和图像实体特征进行对齐处理,得到第一差异数据,包括:调用多粒度对齐模块对样本文本特征与样本图像特征进行对齐处理,得到文本与整图的对齐差异数据;调用多粒度对齐模块对样本文本特征与图像实体特征进行对齐处理,得到文本与局部图像的对齐差异数据;调用多粒度对齐模块对图像实体标签特征与样本图像特征进行对齐处理,得到图像实体标签与整图的对齐差异数据;调用多粒度对齐模块对图像实体标签特征与图像实体特征进行对齐处理,得到图像实体标签与局部图像的对齐差异数据;基于文本与整图的对齐差异数据、文本与局部图像的对齐差异数据、图像实体标签与整图的对齐差异数据、图像实体标签与局部图像的对齐差异数据,确定第一差异数据。
[0011]可选地,处理模块调用实体识别模块对样本文本特征和样本图像特征进行实体识别处理,并基于处理结果以及文本实体参考标签得到第二差异数据,包括:调用实体识别模块对样本文本特征和样本图像特征进行融合处理,得到融合特征;调用实体识别模块对融合特征进行识别处理,得到处理结果,处理结果包括样本文本中文本实体的文本实体预测标签;基于样本文本中文本实体的文本实体预测标签与文本实体参考标签,确定第二差异数据。
[0012]可选地,当待识别文本为待处理视频中的文本,待识别图像为待处理视频中与文本匹配的图像时,该实体识别装置还包括:该获取模块,还用于获取待处理视频中多个待识别文本的实体识别结果;该处理模块,还用于基于多个待识别文本的实体识别结果对待处理视频进行解析处理,得到待处理视频的解析结果,解析结果包括待处理视频的分类结果、描述信息以及拆分结果中的一种或多种。
[0013]本申请一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请中一方面中的方法。
[0014]本申请一方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时使该处理器执行上述一方面中的方法。
[0015]根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程
序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面等各种可选方式中提供的方法。
[0016]本申请获取待识别文本以及待识别图像,待识别图像与待识别文本相关联;利用实体识别模型对待识别文本以及待识别图像进行处理,得到待识别文本的第一模态特征以及待识别图像的第二模态特征;其中,实体识别模型是基于样本文本、与样本文本相关联的样本图像、样本图像包括的图像实体以及标签数据训练得到的,标签数据包括图像实体的图像实体标签以及样本文本包括的文本实体的文本实体参考标签;利用实体识别模型对第一模态特征以及第二模态特征进行处理,得到待识别文本的实体识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体识别方法,其特征在于,所述方法包括:获取待识别文本以及待识别图像,所述待识别图像与所述待识别文本相关联;利用实体识别模型对所述待识别文本以及所述待识别图像进行处理,得到所述待识别文本的第一模态特征以及所述待识别图像的第二模态特征;其中,所述实体识别模型是基于样本文本、与所述样本文本相关联的样本图像、所述样本图像包括的图像实体以及标签数据训练得到的,所述标签数据包括所述图像实体的图像实体标签以及所述样本文本包括的文本实体的文本实体参考标签;利用所述实体识别模型对所述第一模态特征以及所述第二模态特征进行处理,得到所述待识别文本的实体识别结果。2.根据权利要求1所述的实体识别方法,其特征在于,所述方法还包括:获取样本文本、与所述样本文本相关联的样本图像、所述样本图像包括的图像实体以及标签数据,所述标签数据包括所述图像实体的图像实体标签以及所述样本文本包括的文本实体的文本实体参考标签;基于所述样本文本、所述样本图像、所述图像实体以及所述标签数据对初始神经网络进行训练,得到所述实体识别模型。3.根据权利要求2所述的实体识别方法,其特征在于,所述获取样本文本、与所述样本文本相关联的样本图像、所述样本图像包括的图像实体以及标签数据,包括:获取样本文本、与所述样本文本相关联的样本图像以及所述样本文本包括的文本实体的文本实体参考标签;对所述样本图像进行图像检测,得到所述样本图像包括的图像实体,并生成所述图像实体的图像实体标签。4.根据权利要求2或3所述的实体识别方法,其特征在于,所述初始神经网络包括特征提取模块、多粒度对齐模块以及实体识别模块,所述基于所述样本文本、所述样本图像、所述图像实体以及所述标签数据对初始神经网络进行训练,得到实体识别模型,包括:调用所述特征提取模块提取所述样本文本和所述图像实体标签的特征,得到样本文本特征和图像实体标签特征;调用所述特征提取模块提取所述样本图像和所述图像实体的特征,得到样本图像特征和图像实体特征;调用所述多粒度对齐模块对所述样本文本特征、所述图像实体标签特征、所述样本图像特征和所述图像实体特征进行对齐处理,得到第一差异数据;调用所述实体识别模块对所述样本文本特征和所述样本图像特征进行实体识别处理,并基于处理结果以及所述文本实体参考标签得到第二差异数据;基于所述第一差异数据和所述第二差异数据对初始神经网络的网络参数进行调整,并将网络参数调整后的神经网络作为实体识别模型。5.根据权利要求4所述的实体识别方法,其特征在于,所述调用所述多粒度对齐模块对所述样本文本特征、所述图像实体标签特征、所述样本图像特征和所述图像实体特征进行对齐处理,得到第一差异数据,包括:调用所述多粒度对齐模块对所述样本文本特征与所述样本图像特征进行对齐处理,得到文本与整图的对齐差异数据;
调用所述多粒度对齐模块对所述样本文...

【专利技术属性】
技术研发人员:刘烨
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1