实体识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:30823436 阅读:36 留言:0更新日期:2021-11-18 12:12
本公开提供了实体识别方法、装置、电子设备及存储介质,涉及计算机技术领域,具体涉及云计算、知识图谱、自然语言处理等人工智能技术领域。具体实现方案为:获取待处理消息数据;采用多模匹配方法处理待处理消息数据,以得到实体提及信息;确定与实体提及信息关联的候选实体,并确定与候选实体对应的实体描述信息;以及根据待处理消息数据和实体描述信息,确定实体提及信息提及的目标实体,能够有效提升消息数据中所涉及实体的识别合理性和识别效率,从而能够有效地辅助获取到该实体相关的知识,有效地辅助提升消息数据的表达效果,辅助提升消息交互效果。消息交互效果。消息交互效果。

【技术实现步骤摘要】
实体识别方法、装置、电子设备及存储介质


[0001]本公开涉及计算机
,具体涉及云计算、知识图谱、自然语言处理等人工智能
,尤其涉及实体识别方法、装置、电子设备及存储介质。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术,以及机器学习、深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]在消息交互场景下,由于消息交互用户的认知存在差异,可能会出现用户所不熟悉的实体提及信息,该实体提及信息可能是项目内部专属,实体提及信息例如,项目中的缩写词、指代词、项目词、文化词等。

技术实现思路

[0004]本公开提供了一种实体识别方法、装置、电子设备、存储介质以及计算机程序产品。
[0005]根据本公开的第一方面,提供了一种实体识别方法,包括:获取待处理消息数据;采用多模匹配方法处理所述待处理消息数据,以得到实体提及信息;确定与所述实体提及信息关联的候选实体,并确定与所述候选实体对应的实体描述信息;以及根据所述待处理消息数据和所述实体描述信息,确定所述实体提及信息提及的目标实体。
[0006]根据本公开的第二方面,提供了一种实体识别装置,包括:第一获取模块,用于获取待处理消息数据;处理模块,用于采用多模匹配方法处理所述待处理消息数据,以得到实体提及信息;第一确定模块,用于确定与所述实体提及信息关联的候选实体,并确定与所述候选实体对应的实体描述信息;以及第二确定模块,用于根据所述待处理消息数据和所述实体描述信息,确定所述实体提及信息提及的目标实体。
[0007]根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开实施例的实体识别方法。
[0008]根据本公开的第四方面,提出了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行本公开实施例公开的实体识别方法。
[0009]根据本公开的第五方面,提出了一种计算机程序产品,包括计算机程序,当计算机程序由处理器执行时实现本公开实施例公开的实体识别方法。
[0010]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0012]图1是根据本公开第一实施例的示意图;
[0013]图2是根据本公开第二实施例的示意图;
[0014]图3是本公开实施例中实体描述信息示意图;
[0015]图4是本公开实施例中实体识别方法的应用场景示意图;
[0016]图5是根据本公开第三实施例的示意图;
[0017]图6是本公开实施例中训练实体排序模型的流程示意图;
[0018]图7是根据本公开第四实施例的示意图;
[0019]图8是本公开实施例中的实体识别方法的应用示意图;
[0020]图9是根据本公开第五实施例的示意图;
[0021]图10是根据本公开第六实施例的示意图;
[0022]图11示出了可以用来实施本公开的实施例的实体识别方法的示例电子设备的示意性框图。
具体实施方式
[0023]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0024]图1是根据本公开第一实施例的示意图。
[0025]其中,需要说明的是,本实施例的实体识别方法的执行主体为实体识别装置,该装置可以由软件和/或硬件的方式实现,该装置可以配置在电子设备中,电子设备可以包括但不限于终端、服务器端等。
[0026]本公开实施例涉及云计算、知识图谱、自然语言处理等人工智能

[0027]其中,人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
[0028]云计算,是分布式计算的一种,指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。
[0029]自然语言处理(Natural Language Processing,NLP),能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
[0030]而知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
[0031]本公开实施例可以应用在消息交互场景下,消息交互场景例如,即时通信
((Instant Messaging,IM)场景,即时通信IM通常支持实时通信,允许两人或多人使用网络实时的传递文字消息、文件、语音与视频交流。
[0032]如图1所示,该实体识别方法包括:
[0033]S101:获取待处理消息数据。
[0034]其中,上述即时通信IM场景中实时传递的文字消息、文件、语音等可以被称为消息数据。
[0035]其中,待处理消息数据可以例如“paddlecloud如何部署Ernie模型?”。
[0036]其中,飞桨paddlecloud是一种集深度学习核心框架、工具组件和服务平台为一体,且功能完备的开源深度学习平台,而Ernie模型(即文心Ernie模型)是用于语言理解的持续预训练框架,其中可以通过多任务学习逐步建立和学习预训练任务。在此框架中,可以随时逐步引入不同的自定义任务。例如,利用包括命名实体预测,语篇关系识别,句子顺序预测的任务,以使模型能够学习语言表示,关于飞桨paddlecloud和Ernie模型的说明在此不再赘述。
[0037]本公开实施例中,可以实时地监听即时通信IM场景中实时传递的消息数据,当捕获到实时传递的消息数据时,识别该消息数据对应的消息文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体识别方法,包括:获取待处理消息数据;采用多模匹配方法处理所述待处理消息数据,以得到实体提及信息;确定与所述实体提及信息关联的候选实体,并确定与所述候选实体对应的实体描述信息;以及根据所述待处理消息数据和所述实体描述信息,确定所述实体提及信息提及的目标实体。2.根据权利要求1所述的方法,所述候选实体的数量为多个,其中,所述根据所述待处理消息数据和所述实体描述信息,确定所述实体提及信息提及的目标实体,包括:采用所述实体提及信息处理所述待处理消息数据,以得到待匹配消息数据;将所述待匹配消息数据和多个所述实体描述信息输入至实体排序模型之中,以得到所述实体排序模型分别输出的多个相关程度值,所述相关程度值,描述所述待匹配消息数据中的实体提及信息,与对应所述实体描述信息之间的相关程度;将所述多个相关程度值之中,值最大的所述相关程度值对应的所述实体描述信息所属的候选实体作为所述目标实体。3.根据权利要求1所述的方法,其中,所述确定与所述实体提及信息关联的候选实体,包括:根据索引表,确定与所述实体提及信息匹配的目标提及信息,所述索引表,用于根据所述目标提及信息索引关联的实体;将所述目标提及信息所关联的实体作为所述候选实体。4.根据权利要求3所述的方法,在所述获取待处理消息数据之前,还包括:获取知识图谱数据,所述知识图谱数据包括:多个实体描述信息,以及与所述多个实体描述信息分别关联的多个实体;对所述多个实体描述信息进行解析,以分别得到对应的多个目标提及信息;以及根据所述多个目标提及信息和所述关联的多个实体构建所述索引表。5.根据权利要求1所述的方法,其中,所述获取待处理消息数据,包括:获取初始消息数据;对所述初始消息数据进行预处理,以得到候选消息数据;以及如果所述候选消息数据的数据特征满足设定条件,则将所述候选消息数据作为所述待处理消息数据。6.根据权利要求5所述的方法,其中,所述对所述初始消息数据进行预处理,以得到候选消息数据,包括:从所述初始消息数据之中识别出第一类型的第一数据段;对所述第一数据段进行类型转换,以得到第二类型的第二数据段,所述第一类型和所述第二类型不相同;以及采用所述第二数据段替换所述初始消息数据之中的所述第一数据段,以得到所述候选消息数据。7.根据权利要求5所述的方法,其中,所述数据特征,是所述候选消息数据的长度特征,和/或,预设字符占比特征。
8.根据权利要求1所述的方法,其中,所述采用多模匹配方法处理所述待处理消息数据,以得到实体提及信息,包括:采用多模匹配方法处理所述待处理消息数据,以得到候选提及信息;对所述候选提及信息进行校验处理,以得到校验结果;以及如果所述校验结果满足校验条件,则将所述候选提及信息作为所述实体提及信息。9.根据权利要求8所述的方法,其中,所述对所述候选提及信息进行校验处理,包括:如果所述候选提及信息是第一信息类型,则对所述候选提及信息进行分词校验处理;如果所述候选提及信息是第二信息类型,则对所述候选提及信息进行词周校验处理,所述第一信息类型和所述第二信息类型不相同。10.根据权利要求9所述的方法,其中,所述对所述候选提及信息进行分词校验处理,包括:对所述待处理消息数据进行分词处理,以得到多个分词;如果所述候选提及信息与第一分词相匹配,则确定所述分词校验处理的校验结果满足所述校验条件,所述第一分词属于所述多个分词。11.根据权利要求9所述的方法,其中,所述对所述候选提及信息进行词周校验处理,包括:如果所述候选提及信息是未截断信息,则确定所述词周校验处理的校验结果满足所述校验条件。12.一种实体识别装置,包括:第一获取模块,用于获取待处理消息数据;处理模块,用于采用多模匹配方法处理所述待处理消息数据,以得到实体提及信息;第一确定模块,用于确定与所述实体提及信息关联的候选实体,并确定与所述候选实体对应的实体描述信息;以及第二确定模块,用于根据所述待处理消息数据和所述实体描述信息,确定所述实体提及信息提及的目标实体。1...

【专利技术属性】
技术研发人员:万凡骆金昌王杰王海威陈坤斌和为
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1