一种实体识别方法、装置和计算设备制造方法及图纸

技术编号：24996899 阅读：40 留言：0更新日期：2020-07-24 17:59

本发明专利技术公开了一种实体识别方法，在计算设备中执行，包括：生成用户输入语句的语义特征向量，作为当前语义特征向量；基于当前语义特征向量对输入语句进行实体识别，得到本次识别出的一个或多个实体名、以及每个实体名的字符位置和自身实体类型；对于每个实体名：根据每个字符是否属于该实体名生成实体位置特征，根据该实体名的自身和上层实体类型生成实体类型特征；将实体位置特征、实体类型特征与输入语句的语义特征向量拼接为拼接向量；将当前语义特征向量更新为拼接向量，并重新开始执行实体识别步骤，直到实体识别结果中不存在任何实体为止；汇总每次识别出的实体名作为最终实体识别结果。本发明专利技术还一并公开了对应的实体识别装置和计算设备。

全部详细技术资料下载

【技术实现步骤摘要】
一种实体识别方法、装置和计算设备
本专利技术涉及自然语言处理领域，尤其涉及一种实体识别方法、装置和计算设备。
技术介绍
嵌套命名实体识别作为命名实体识别任务的主要组成部分，是许多科学研究(如:问答系统、知识图谱、人工智能等)中最为基础、核心的技术之一，并且其相关识别方法成果在实际生活中也具有广泛的应用。中文的复杂性导致在文本内往往存在着较多的嵌套命名实体。现有的命名实体识别方法能够较好的识别出结构相对简单的基本命名实体，但对于结构复杂的嵌套命名实体却很难完整地、准确地识别出来，再加上现有方法多集中于常规文本中的命名实体识别研究。当前嵌套命名实体识别主要分为两种从细颗粒度到粗颗粒度的嵌套实体识别和从粗颗粒度到细颗粒度的实体识别。其中细颗粒度到粗颗粒度的嵌套实体识别往往会忽略粗颗粒度类型对细颗粒度实体类型的约束，并且在细颗粒度往粗粒度实体进行识别的过程中，需要不断的对新识别出的细颗粒度的实体进行语义特征学习，所以需要大量的训练成本。而从粗颗粒度实体向细颗粒度进行嵌套实体识别的过程中，大多采用深度学习和规则词典相结合的策略...

【技术保护点】
1.一种实体识别方法，适于在计算设备中执行，所述方法包括步骤：/n对用户的输入语句进行语义编码，生成针对所述输入语句的语义特征向量，作为当前语义特征向量；/n基于当前语义特征向量对所述输入语句进行实体识别，得到本次识别出的一个或多个实体名、以及每个实体名的字符位置和自身实体类型；/n对于每个实体名：/n根据输入语句的每个字符是否属于该实体名来生成实体位置特征，根据该实体名的自身实体类型和上层实体类型来生成实体类型特征；/n将所述输入语句的语义特征向量与所述实体位置特征、实体类型特征进行拼接，得到拼接向量；/n将所述当前语义特征向量更新为所述拼接向量，并重新开始执行所述实体识别步骤，直到实体识别...

【技术特征摘要】
1.一种实体识别方法，适于在计算设备中执行，所述方法包括步骤：
对用户的输入语句进行语义编码，生成针对所述输入语句的语义特征向量，作为当前语义特征向量；
基于当前语义特征向量对所述输入语句进行实体识别，得到本次识别出的一个或多个实体名、以及每个实体名的字符位置和自身实体类型；
对于每个实体名：
根据输入语句的每个字符是否属于该实体名来生成实体位置特征，根据该实体名的自身实体类型和上层实体类型来生成实体类型特征；
将所述输入语句的语义特征向量与所述实体位置特征、实体类型特征进行拼接，得到拼接向量；
将所述当前语义特征向量更新为所述拼接向量，并重新开始执行所述实体识别步骤，直到实体识别结果中不存在任何实体为止；以及
汇总每次进行实体识别后所得到的实体名，作为该输入语句的最终实体识别结果。

2.如权利要求1所述的方法，其中，
所述输入语句的语义特征向量为[T1，T2，……，Tm]，m为输入语句的最大字符长度，Tm为第m个字符的字向量；
所述实体位置特征为[L1，L2，……，Lm]，Lm为第m个字符是否属于对应实体名的字符标记；
所述实体类型特征为[C1，C2，……，Cn]，n为实体类型的总数，Cn为第n个实体类型的标记。

3.如权利要求1或2所述的方法，其中，
所述实体位置特征中，属于该实体名的字符标记为1，反之标记为0；
所述实体类型特征中，该实体名的自身实体类型和上层实体类型标记为1，其他实体类型标记为0；
其中，所述上层实体类型是指该实体名所属的上层实体名的实体类型。

4.如权利要求1-3中任一项所述的方法，其中，所述将所述输入语句的语义特征向量与所述实体位置特征、实体类型特征进行拼接的步骤包括：
对于所述输入语句的每个字符，将其字向量、字符标记和实体类型特征进行拼接，得到每个字符拼接后的字向量，进而得到所述输入语句的拼接向量。

5.如权利要求1-4中任一项所述的方法，其中，所述对用户的输入语句进行语义编码的步骤包括：
将所述输入语句...

【专利技术属性】
技术研发人员：石智中，张志申，吕政伟，
申请(专利权)人：车智互联北京科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人