【技术实现步骤摘要】
一种实体识别方法、装置、设备以及存储介质
[0001]本申请涉及计算机
,尤其涉及一种实体识别方法、装置、设备以及存储介质。
技术介绍
[0002]实体识别是自然语言处理中的一项基础任务,应用范围非常广泛。以实体为例,实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。通过从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。因此实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。通过实体识别,可以提炼出想要的数据或对象。实体识别是后续进行内容挖掘分析,关系抽取和事件分析的基础。
[0003]实体识别的过程可以采用多模式匹配(AC)算法,即寻找模式串内部规律,达到在每次失配时的高效跳转,例如识别模式串之间的相同前缀关系进行实体识别。
[0004]但是,基于AC算法匹配方式进行实体识别,匹配过程单一,容易引入错误,准确率难以继续提升,且需要进行人工审核,影响了实体识别的效率以及准确性。 ...
【技术保护点】
【技术特征摘要】
1.一种实体识别方法,其特征在于,包括:获取目标文本信息;将所述目标文本信息输入目标识别模型中的输入表示层,以生成目标向量序列,所述目标向量序列包括多个词向量,所述词向量基于至少两个文本维度表示所得;将所述目标向量序列输入所述目标识别模型中的语义表示层,以得到标签预测序列,其中,所述标签预测序列为所述词向量与多个实体标签的归属概率集合,所述语义表示层包括多个并列的识别节点,所述识别节点之间相互关联,所述识别节点用于识别对应的所述词向量与多个所述实体标签的归属概率,所述实体标签基于不同类别的实体设定;将所述标签预测序列输入所述目标识别模型中的条件鉴别层,以确定所述归属概率集合中的目标项,所述目标项用于指示所述目标文本信息中的所述实体。2.根据权利要求1所述的方法,其特征在于,所述将所述目标文本信息输入目标识别模型中的输入表示层,以生成目标向量序列,包括:将所述目标文本信息输入目标识别模型中的输入表示层进行词嵌入处理,以得到词嵌入向量;对所述目标文本信息进行字嵌入处理,以得到字嵌入向量;基于所述词嵌入向量和所述字嵌入向量生成所述目标向量序列。3.根据权利要求1所述的方法,其特征在于,所述语义表示层包括双向编码器和双向记忆网络模型,所述将所述目标向量序列输入所述目标识别模型中的语义表示层,以得到标签预测序列,包括:将所述目标向量序列输入所述双向编码器,以得到第一语义表示;将所述第一语义表示输入所述双向记忆网络模型,以得到目标语义表示;基于所述目标语义表示与多个所述实体标签进行匹配,以得到所述标签预测序列。4.根据权利要求3所述的方法,其特征在于,所述将所述第一语义表示输入所述双向记忆网络模型,以得到目标语义表示,包括:将所述第一语义表示输入所述双向记忆网络模型进行基于第一次序的计算,以得到上位信息;将所述第一语义表示输入所述双向记忆网络模型进行基于第二次序的计算,以得到下位信息;基于所述上位信息和所述下位信息进行拼接,以得到所述目标语义表示。5.根据权利要求1所述的方法,其特征在于,所述语义表示层包括所述双向编码器和所述双向记忆网络模型,所述将所述目标向量序列输入所述目标识别模型中的语义表示层,以得到标签预测序列,包括:将所述目标向量序列输入所述双向编码器,以得到所述第一语义表示;将所述目标向量序列输入所述双向记忆网络模型,以得到第二语义表示;对所述第一语义表示和所述第二语义表示进行拼接,以得到目标语义表示;基于所述目标语义表示与多个所述实体标签进行匹配,以得到所述标签预测序列。6.根据权利要求3-5任一项所述的方法,其特征在于,所述方法还包括:获取所述目标文本信息对应的文本大小;基于所述文本大小确定所述目标向量序列输入所述双向编码器和所述双向记忆网络
模型的方式。7.根据权利要求3-5任一项所述的方法,其特征在于,所述方法还包括:获取所述目标文本信息对应的预...
【专利技术属性】
技术研发人员:刘刚,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。