一种实体识别的方法、装置及电子设备制造方法及图纸

技术编号:21399293 阅读:28 留言:0更新日期:2019-06-19 07:04
公开了一种实体识别的方法、装置及电子设备,用于解决现有技术中在语料库中的训练语料较少的情况下,实体识别的准确性低,研发资源浪费的问题。包括:将接收到的查询语句进行分词处理,确定第一分词,其中,所述第一分词为所述查询语句中的一个字段;确定所述第一分词的第一词向量;将所述第一词向量与知识库中实体的词向量进行匹配以确定所述第一分词对应的第一实体。

【技术实现步骤摘要】
一种实体识别的方法、装置及电子设备
本专利技术涉及数据处理领域,尤其涉及一种实体识别的方法、装置及电子设备。
技术介绍
随着互联网技术的发展、以及大数据语料的积累,自然语言处理技术也得到了大量的应用,例如,基于自然语言处理技术的问答系统,该问答系统可以直接计算答案。但由于自然语言处理技术难度大、应用场景复杂,所以基于该技术的问答系统在应用中仍然存在许多问题,例如,经常会出现答非所问的情况,虽然在个人日常生活娱乐应用中影响较小,但应用于企业级应用时,上述答非所问的问题的影响比较严重,产生上述问题的原因是由于实体识别的准确性较差,不能准确识别出查询语句中的实体。为了解决这一问题,现有技术中采用以下两种方法进行实体识别,方法一、采用基于规则和词典的实体识别方法,具体的,通过语言学专家人工构造规则模板,并建立对应的知识库和词典进行实体识别,但不同的领域需要建立不同的知识库和词典,并且每次涉及新的领域时都需要语言专家重新书写规则模板,实体识别系统的建设周期长,移植性差,浪费研发资源。方法二、基于统计的实体识别方法,具体的,通过对训练语料所包含的语言信息进行统计和分析,从训练语料中挖掘出特征,用于生成实体识别系统,采用该方法进行实体识别,需要有大量的训练语料才能保证实体识别的准确性,但实际应用中针对不同该领域的语料库中的训练语料较少,因此会导致实体识别的准确性较低。综上所述,如何在语料库中的训练语料较少的情况下,提高实体识别的准确性,并节约研发资源是目前需要解决的问题。
技术实现思路
有鉴于此,本专利技术实施例提供了一种实体识别的方法、装置及电子设备,在语料库中的训练语料较少的情况下,提高了实体识别的准确性,节约了研发资源浪费。根据本专利技术实施例的第一方面,提供了一种实体识别的方法,包括:将接收到的查询语句进行分词处理,确定第一分词,其中,所述第一分词为所述查询语句中的一个字段;确定所述第一分词的第一词向量;将所述第一词向量与知识库中实体的词向量进行匹配以确定所述第一分词对应的第一实体。在一个实施例中,将所述第一词向量与知识库中实体的词向量进行匹配以确定所述第一分词对应的第一实体,具体包括:将所述第一词向量与知识库中实体的词向量进行匹配,确定与所述第一分词的至少两个相近实体,根据第二分词在所述至少两个相近实体中确定所述第一分词对应的第一实体,其中,所述第二分词为所述查询语句中与第一分词不同的一个字段。在一个实施例中,所述确定所述第一分词的第一词向量之前,该方法还包括:所述第一分词与所述知识库中实体进行匹配,确定所述第一分词对应的第一实体。在一个实施例中,所述知识库的生成过程为:收集行业相关第一语料;将所述第一语料进行清理,确定清理后的第二语料;将所述第二语料进行分词处理,并根据设定算法对所述分词处理后的所述第二语料进行词向量训练,生成词向量空间模型,其中,所述词向量空间模型中包括多个词向量相近的实体;将所述词向量空间模型保存到所述知识库中。在一个实施例中,所述将所述词向量空间模型保存在所述知识库中之后,还包括:接收到补充行业热词,将所述补充行业热词与所述知识库中实体进行关联,并保存到所述知识库中。根据本专利技术实施例的第二方面,提供了一种实体识别的装置,包括:分词单元,用于将接收到的查询语句进行分词处理,确定第一分词,其中,所述第一分词为所述查询语句中的一个字段;确定单元,用于确定所述第一分词的第一词向量;匹配单元,用于将所述第一词向量与知识库中实体的词向量进行匹配以确定所述第一分词对应的第一实体。在一个实施例中,所述匹配单元具体用于:将所述第一词向量与知识库中实体的词向量进行匹配,确定与所述第一分词的至少两个相近实体,根据第二分词在所述至少两个相近实体中确定所述第一分词对应的第一实体,其中,所述第二分词为所述查询语句中与第一分词不同的一个字段。在一个实施例中,所述确定所述第一分词的第一词向量之前,所述匹配单元还用于:将所述第一分词与所述知识库中实体进行匹配,确定所述第一分词对应的第一实体。在一个实施例中,所述知识库的生成过程中所使用的单元为:采集单元,用于收集行业相关第一语料;清理单元,用于将所述第一语料进行清理,确定清理后的第二语料;生成单元,用于将所述第二语料进行分词处理,并根据设定算法对所述分词处理后的所述第二语料进行词向量训练,生成词向量空间模型,其中,所述词向量空间模型中包括多个词向量相近的实体;保存单元,用于将所述词向量空间模型保存到所述知识库中。在一个实施例中,所述装置还包括接收单元:用于接收到补充行业热词,将所述补充行业热词与所述知识库中实体进行关联,并保存到所述知识库中。根据本专利技术实施例的第三方面,提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一实施例中所述的方法。根据本专利技术实施例的第四方面,提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面或第一方面任一实施例中所述的方法。本专利技术实施例中,首先将接收到的查询语句进行分词处理,确定第一分词,其中,所述第一分词为所述查询语句中的一个字段;然后,确定所述第一分词的第一词向量,最后,将所述第一词向量与知识库中实体的词向量进行匹配以确定所述第一分词对应的第一实体。由于知识库是根据词向量空间模型确定的,而生产词向量空间模型不需要使用大量的语料进行统计分析,也不需要人工书写规则模板,因此,在语料库中的训练语料较少的情况下,也可以实现提高实体识别的准确性,节约了研发资源的目的。附图说明通过以下参照附图对本专利技术实施例的描述,本专利技术的上述以及其它目的、特征和优点将更为清楚,在附图中:图1是本专利技术实施例提供的一种实体识别的方法流程图;图2是本专利技术实施例提供的另一种实体识别的方法流程图;图3是本专利技术实施例提供的一种行业同义词示意图;图4是本专利技术实施例提供的一种实体识别的装置示意图;图5是本专利技术实施例提供的一种电子设备示意图。具体实施方式以下基于实施例对本专利技术进行描述,但是本专利技术并不仅仅限于这些实施例。在下文对本专利技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本专利技术。为了避免混淆本专利技术的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。在本专利技术实施例的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本专利技术实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。图1是本专利技术实施例的一种实体识别的方法流程图。如图1所示,所述实体识别的方法包括:步骤S100、将接收到的查询语句进行分词处理,确定第一分词,其中,所述第一分词为所述查询语句中的一个字段。举例说明,假设查询语句为“大圣归来的票房是多少”,进行分词处理后确定的分词为“大圣归来”和“本文档来自技高网...

【技术保护点】
1.一种实体识别的方法,其特征在于,包括:将接收到的查询语句进行分词处理,确定第一分词,其中,所述第一分词为所述查询语句中的一个字段;确定所述第一分词的第一词向量;将所述第一词向量与知识库中实体的词向量进行匹配以确定所述第一分词对应的第一实体。

【技术特征摘要】
1.一种实体识别的方法,其特征在于,包括:将接收到的查询语句进行分词处理,确定第一分词,其中,所述第一分词为所述查询语句中的一个字段;确定所述第一分词的第一词向量;将所述第一词向量与知识库中实体的词向量进行匹配以确定所述第一分词对应的第一实体。2.如权利要求1所述的方法,其特征在于,将所述第一词向量与知识库中实体的词向量进行匹配以确定所述第一分词对应的第一实体,具体包括:将所述第一词向量与知识库中实体的词向量进行匹配,确定与所述第一分词的至少两个相近实体,根据第二分词在所述至少两个相近实体中确定所述第一分词对应的第一实体,其中,所述第二分词为所述查询语句中与第一分词不同的一个字段。3.如权利要求1所述的方法,其特征在于,所述确定所述第一分词的第一词向量之前,该方法还包括:将所述第一分词与所述知识库中实体进行匹配,确定所述第一分词对应的第一实体。4.如权利要求1所述的方法,其特征在于,所述知识库的生成过程为:收集行业相关第一语料;将所述第一语料进行清理,确定清理后的第二语料;将所述第二语料进行分词处理,并根据设定算法对所述分词处理后的所述第二语料进行词向量训练,生成词向量空间模型,其中,所述词向量空间模型中包括多个词向量相近的实体;将所述词向量空间模型保存到所述知识库中。5.如权利要求4所述的方法,其特征在于,所述将所述词向量空间模型保存在所述知识库中之后,还包括:接收到补充行业热词,将所述补充行业热词与所述知识库中实体进行关联,并保存到所述知识库中。6.一种...

【专利技术属性】
技术研发人员:黄华
申请(专利权)人:北京小乘网络科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1