【技术实现步骤摘要】
实体识别方法、装置、电子设备及存储介质
[0001]本公开涉及计算机
,具体涉及云计算、知识图谱、自然语言处理等人工智能
,尤其涉及实体识别方法、装置、电子设备及存储介质。
技术介绍
[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术,以及机器学习、深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]在消息交互场景下,由于消息交互用户的认知存在差异,可能会出现用户所不熟悉的实体提及信息,该实体提及信息可能是项目内部专属,实体提及信息例如,项目中的缩写词、指代词、项目词、文化词等。
技术实现思路
[0004]本公开提供了一种实体识别方法、装置、电子设备、存储介质以及计算机程序产品。
[0005]根据本公开的第一方面,提供了一种实体识别方法,包括:获取待处理消息数据;采用多模匹配方法处理所述待处理消息数据,以得到实体提及信息;确定与所述实体提及信息关联的候选实体,并确定与所述候选实体对应的实体描述信息;以及根据所述待处理消息数据和所述实体描述信息,确定所述实体提及信息提及的目标实体。
[0006]根据本公开的第二方面,提供了一种实体识别装置,包括:第一获取模块,用于获取待处理消息数据;处理模块,用于采用多模匹配 ...
【技术保护点】
【技术特征摘要】
1.一种实体识别方法,包括:获取待处理消息数据;采用多模匹配方法处理所述待处理消息数据,以得到实体提及信息;确定与所述实体提及信息关联的候选实体,并确定与所述候选实体对应的实体描述信息;以及根据所述待处理消息数据和所述实体描述信息,确定所述实体提及信息提及的目标实体。2.根据权利要求1所述的方法,所述候选实体的数量为多个,其中,所述根据所述待处理消息数据和所述实体描述信息,确定所述实体提及信息提及的目标实体,包括:采用所述实体提及信息处理所述待处理消息数据,以得到待匹配消息数据;将所述待匹配消息数据和多个所述实体描述信息输入至实体排序模型之中,以得到所述实体排序模型分别输出的多个相关程度值,所述相关程度值,描述所述待匹配消息数据中的实体提及信息,与对应所述实体描述信息之间的相关程度;将所述多个相关程度值之中,值最大的所述相关程度值对应的所述实体描述信息所属的候选实体作为所述目标实体。3.根据权利要求1所述的方法,其中,所述确定与所述实体提及信息关联的候选实体,包括:根据索引表,确定与所述实体提及信息匹配的目标提及信息,所述索引表,用于根据所述目标提及信息索引关联的实体;将所述目标提及信息所关联的实体作为所述候选实体。4.根据权利要求3所述的方法,在所述获取待处理消息数据之前,还包括:获取知识图谱数据,所述知识图谱数据包括:多个实体描述信息,以及与所述多个实体描述信息分别关联的多个实体;对所述多个实体描述信息进行解析,以分别得到对应的多个目标提及信息;以及根据所述多个目标提及信息和所述关联的多个实体构建所述索引表。5.根据权利要求1所述的方法,其中,所述获取待处理消息数据,包括:获取初始消息数据;对所述初始消息数据进行预处理,以得到候选消息数据;以及如果所述候选消息数据的数据特征满足设定条件,则将所述候选消息数据作为所述待处理消息数据。6.根据权利要求5所述的方法,其中,所述对所述初始消息数据进行预处理,以得到候选消息数据,包括:从所述初始消息数据之中识别出第一类型的第一数据段;对所述第一数据段进行类型转换,以得到第二类型的第二数据段,所述第一类型和所述第二类型不相同;以及采用所述第二数据段替换所述初始消息数据之中的所述第一数据段,以得到所述候选消息数据。7.根据权利要求5所述的方法,其中,所述数据特征,是所述候选消息数据的长度特征,和/或,预设字符占比特征。
8.根据权利要求1所述的方法,其中,所述采用多模匹配方法处理所述待处理消息数据,以得到实体提及信息,包括:采用多模匹配方法处理所述待处理消息数据,以得到候选提及信息;对所述候选提及信息进行校验处理,以得到校验结果;以及如果所述校验结果满足校验条件,则将所述候选提及信息作为所述实体提及信息。9.根据权利要求8所述的方法,其中,所述对所述候选提及信息进行校验处理,包括:如果所述候选提及信息是第一信息类型,则对所述候选提及信息进行分词校验处理;如果所述候选提及信息是第二信息类型,则对所述候选提及信息进行词周校验处理,所述第一信息类型和所述第二信息类型不相同。10.根据权利要求9所述的方法,其中,所述对所述候选提及信息进行分词校验处理,包括:对所述待处理消息数据进行分词处理,以得到多个分词;如果所述候选提及信息与第一分词相匹配,则确定所述分词校验处理的校验结果满足所述校验条件,所述第一分词属于所述多个分词。11.根据权利要求9所述的方法,其中,所述对所述候选提及信息进行词周校验处理,包括:如果所述候选提及信息是未截断信息,则确定所述词周校验处理的校验结果满足所述校验条件。12.一种实体识别装置,包括:第一获取模块,用于获取待处理消息数据;处理模块,用于采用多模匹配方法处理所述待处理消息数据,以得到实体提及信息;第一确定模块,用于确定与所述实体提及信息关联的候选实体,并确定与所述候选实体对应的实体描述信息;以及第二确定模块,用于根据所述待处理消息数据和所述实体描述信息,确定所述实体提及信息提及的目标实体。1...
【专利技术属性】
技术研发人员:万凡,骆金昌,王杰,王海威,陈坤斌,和为,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。