命名实体识别方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号:36064871 阅读:13 留言:0更新日期:2022-12-24 10:31
本申请实施例提供了一种命名实体识别方法、装置、电子设备及计算机存储介质,其中,命名实体识别方法包括:获取文本数据;并行使用至少两种识别方式对文本数据中的实体进行识别,得到至少两种的实体识别结果;根据至少两种的实体识别结果确定文本数据的实体识别结果。因为至少两种的实体识别是并行执行的,实体识别耗费的时间长度是时间最长的一种类型的实体识别的耗时,并不是所有类型的实体识别的耗时总长,减小了实体识别的耗时,提高了效率。率。率。

【技术实现步骤摘要】
命名实体识别方法、装置、电子设备及计算机存储介质


[0001]本申请实施例涉及电子信息
,尤其涉及一种命名实体识别方法、装置、电子设备及计算机存储介质。

技术介绍

[0002]语言理解在人工智能领域非常重要,而在进行语言理解时,实体识别是第一步,也是非常重要的一步。实体识别是指识别文本中具有特定意义的实体,通过实体识别可以在文本中识别出用户需要的实体,得到实体信息,包括时间、物品名称、执行动作等,在各个领域有着广泛的应用。对于文本进行实体识别时,为了保证准确率,可以利用多种类型的实体识别对本进行处理,但是,这使得实体识别的时间较长,效率较低。

技术实现思路

[0003]有鉴于此,本申请实施例提供一种命名实体识别方法、装置、电子设备及计算机存储介质,以解决上述部分或全部问题。
[0004]根据本申请实施例的第一方面,提供了一种命名实体识别方法,包括:获取文本数据;并行使用至少两种识别方式对文本数据中的实体进行识别,得到至少两种的实体识别结果;根据至少两种的实体识别结果确定文本数据的实体识别结果。
[0005]根据本申请实施例的第二方面,提供了一种命名实体识别装置,包括:获取模块,用于获取文本数据;实体识别模块,用于并行使用至少两种识别方式对文本数据中的实体进行识别,得到至少两种的实体识别结果;输出模块,用于根据至少两种的实体识别结果确定文本数据的实体识别结果。
[0006]根据本申请实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行如第一方面的命名实体识别方法对应的操作。
[0007]根据本申请实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面的命名实体识别方法。
[0008]本申请实施例提供的命名实体识别方法、装置、电子设备及计算机存储介质,获取文本数据;并行使用至少两种识别方式对文本数据中的实体进行识别,得到至少两种的实体识别结果;根据至少两种的实体识别结果确定文本数据的实体识别结果。因为至少两种的实体识别是并行执行的,实体识别耗费的时间长度是时间最长的一种类型的实体识别的耗时,并不是所有类型的实体识别的耗时总长,减小了实体识别的耗时,提高了效率。
附图说明
[0009]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0010]图1为本申请实施例一提供的一种命名实体识别方法的场景示意图;
[0011]图2为本申请实施例一提供的一种命名实体识别方法的流程图;
[0012]图3为本申请实施例一提供的一种字典匹配的示意图;
[0013]图4为本申请实施例一提供的一种最大逆向匹配的示意图;
[0014]图5为本申请实施例一提供的一种命名实体识别方法的场景示意图;
[0015]图6为本申请实施例二提供的一种命名实体识别装置的结构框图;
[0016]图7为本申请实施例三提供的一种电子设备的结构示意图。
具体实施方式
[0017]为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
[0018]下面结合本申请实施例附图进一步说明本申请实施例具体实现。
[0019]实施例一
[0020]本申请实施例一提供一种命名实体识别方法,应用于命名实体识别装置,该命名实体识别装置可以是服务器等网络设备。为了便于理解,对本申请实施例一所提供的命名实体识别方法的应用场景进行说明,参照图1所示,图1为本申请实施例一提供的一种命名实体识别方法的场景示意图。图1所示的场景中包括命名实体识别装置101以及客户端设备102。
[0021]命名实体识别装置101可以是服务器、中继设备、端到端设备等云端设备,客户端设备102可以是如智能手机、平板电脑、笔记本电脑等终端设备,也可以是如服务器等云端设备。需要说明的是,客户端设备102还可以接入网络,通过网络与云端的命名实体识别装置101连接,并进行数据交互,客户端设备102可以是终端设备或云端设备。本申请中,网络包括局域网(英文:Local Area Network,LAN)、广域网(英文:Wide Area Network,WAN)、移动通信网络;如万维网(英文:World Wide Web,WWW)、长期演进(英文:Long Term Evolution,LTE)网络、2G网络(英文:2th Generation Mobile Network)、3G网络(英文:3th Generation Mobile Network),5G网络(英文:5th Generation Mobile Network)等。当然,此处只是示例性说明。
[0022]如图1所示,命名实体识别装置101可以从客户端设备102获取文档,得到文本数据,将文本数据分别并行执行至少两种的实体识别,并得到至少两种的实体识别结果;根据至少两种的实体识别结果获取文本数据的实体识别结果,命名实体识别装置101可以将文本数据的实体识别结果返回给客户端设备102,或者对文本数据的实体识别结果进一步进行处理。
[0023]结合图1所示的场景,详细说明本申请实施例一提供的命名实体识别方法,应用于命名实体识别装置,需要说明的是,图1只是本申请实施例一提供的命名实体识别方法的一种应用场景,并不代表该命名实体识别方法必须应用于图1所示的场景,参照图2所示,图2
为本申请实施例一提供的一种命名实体识别方法的流程图,该方法包括以下步骤:
[0024]步骤201、获取文本数据。
[0025]需要说明的是,文本数据可以包含至少一个文本片段,一个文本片段可以是按照标点符号划分的一个自然语句,也可以是按照段落划分的一个文本段落,当然,此处只是示例性说明。
[0026]可选地,在一种实现方式中,文本数据包括至少一个文本片段,则获取文本数据包括:获取原始文档,并对原始文档进行文档解析;根据文档解析的结果对原始文档进行自然分句得到至少一个文本片段。原始文档可以是命名实体识别装置从客户端设备获取得到的。需要说明的是,可以根据标点符号进行自然分句,对原始文档进行文档解析,自然分句处理可以将原始文档分割为至少一个文本片段,便于后续处理。
[0027]步骤202、并行使用至少两种识别方式对文本数据中的实体进行至少两种的实体识别,得到至少两种的实体识别结果本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别方法,其包括:获取文本数据;并行使用至少两种识别方式对所述文本数据中的实体进行至少两种的实体识别,得到至少两种的实体识别结果;根据所述至少两种的实体识别结果确定所述文本数据的实体识别结果。2.根据权利要求1所述的方法,其中,所述至少两种识别方式至少包括:规则匹配、字典匹配、模型推理;所述并行使用至少两种识别方式对所述文本数据中的实体进行至少两种的实体识别,得到至少两种的实体识别结果,包括:并行执行下述操作中的至少两种:对所述文本数据进行规则匹配得到所述规则匹配的结果;对所述文本数据进行字典匹配得到所述字典匹配的结果;对所述文本数据进行模型推理得到所述模型推理的结果。3.根据权利要求2所述的方法,其中,所述对所述文本数据进行字典匹配得到所述字典匹配的结果,包括:按照小于或等于预设词长的多个词语长度,对所述文本数据进行多次词语切分得到多个待匹配词语;将所述多个待匹配词语和字典数据库中的词语进行匹配得到所述字典匹配结果。4.根据权利要求3所述的方法,其中,在对所述文本数据进行字典匹配得到所述字典匹配的结果之前,所述方法还包括:根据所述字典数据库中的词语长度,将最长的词语长度确定为所述预设词长。5.根据权利要求2所述的方法,其中,所述对所述文本数据进行字典匹配得到所述字典匹配的结果,包括:基于字典数据库,按照预设词长对所述文本数据进行逆向最大匹配,得到所述字典匹配结果。6.根据权利要求2所述的方法,其中,所述并行使用至少两种识别方式对所述文本数据中的实体进行至少两种的实体识别,得到至少两种的实...

【专利技术属性】
技术研发人员:施昌权王涛赵宇骆卫华
申请(专利权)人:阿里巴巴新加坡控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1