实体识别方法、装置,电子设备制造方法及图纸

技术编号:26172218 阅读:26 留言:0更新日期:2020-10-31 13:48
本申请公开了一种实体识别方法,属于计算机技术领域,有助于提升对非传统意义的查询实体的识别性能。所述方法包括:确定待识别文本匹配的语义特征向量和实体知识特征向量;其中,所述实体知识特征向量用于指示所述待识别文本中包括的文本子串与预设搜索日志的匹配信息;通过预先训练的实体识别模型,对所述语义特征向量和所述实体知识特征向量进行融合计算,并根据融合计算结果输出所述待识别文本的实体标注结果;根据所述实体标注结果,确定所述待识别文本中包括的实体。本申请实施例提出了一种融合搜索日志特征的新词挖掘方法,利用海量的用户搜索日志特征优化新词挖掘效果,可以有效提升对查询输入中新的实体的识别准确度。

Entity identification method, device and electronic equipment

【技术实现步骤摘要】
实体识别方法、装置,电子设备
本申请实施例涉及计算机
,特别是涉及一种实体识别方法、装置、电子设备及计算机可读存储介质。
技术介绍
实体识别是搜索系统的基本技术模块,通过实体识别模块对输入的自然语言进行实体识别,输出切分后的短语以及短语类型,输出的短语以及短语类型标准表征了输入的自然语言中的查询实体。之后,搜索系统根据实体识别模块输出的短语以及短语类型,生成召回语法,从数据库表中检索相关记录。可见,实体识别模块的识别准确度直接影响了的搜索系统的召回准确度。现有技术中的一种通过训练长短期记忆网络(LSTM,LongShort-TermMemory)进行实体识别的技术中,以单个字向量作为输入,在一个词的首尾部分的隐层,使用词向量作为桥接,训练LSTM网络,通过对大规模的语料进行预训练,学习语义相关性,然后根据命名实体识别网络(NER,(NamedEntityRecognition)的标注数据微调网络参数,训练模型,并通过最总训练得到的模型对输入的短语进行实体识别。现有技术中的这种命名实体识别方法,使用字粒度作为本文档来自技高网...

【技术保护点】
1.一种实体识别方法,其特征在于,包括:/n确定待识别文本匹配的语义特征向量和实体知识特征向量;其中,所述实体知识特征向量用于指示所述待识别文本中包括的文本子串与预设搜索日志的匹配信息;/n通过预先训练的实体识别模型,对所述语义特征向量和所述实体知识特征向量进行融合计算,并根据融合计算结果输出所述待识别文本的实体标注结果;/n根据所述实体标注结果,确定所述待识别文本中包括的实体。/n

【技术特征摘要】
1.一种实体识别方法,其特征在于,包括:
确定待识别文本匹配的语义特征向量和实体知识特征向量;其中,所述实体知识特征向量用于指示所述待识别文本中包括的文本子串与预设搜索日志的匹配信息;
通过预先训练的实体识别模型,对所述语义特征向量和所述实体知识特征向量进行融合计算,并根据融合计算结果输出所述待识别文本的实体标注结果;
根据所述实体标注结果,确定所述待识别文本中包括的实体。


2.根据权利要求1所述的方法,其特征在于,所述实体知识特征向量包括:所述待识别文本中各文本子串的实体知识特征向量,确定待识别文本匹配的实体知识特征向量的步骤,包括:
针对所述待识别文本包括的每个文本子串,分别执行以下操作:
通过将所述文本子串,分别与预设搜索日志包括的查询文档的各文档字段进行匹配,确定基于各所述文档字段与所述文本子串匹配的所述查询文档;
对于每个所述文档字段,根据基于所述文档字段与所述文本子串匹配的所述查询文档的点击信息,确定所述文本子串的所述实体知识特征向量中与所述文档字段对应维度的向量值。


3.根据权利要求2所述的方法,其特征在于,所述根据基于所述文档字段与所述文本子串匹配的所述查询文档的点击信息,确定所述文本子串的所述实体知识特征向量中与所述文档字段对应维度的向量值的步骤,包括:
根据基于所述文档字段与所述文本子串匹配的所述查询文档是否被用户点击,确定所述文本子串的所述实体知识特征向量中与所述文档字段对应维度的向量值;或者,
根据基于所述文档字段与所述文本子串匹配的所述查询文档被用户点击的点击分布信息,确定所述文本子串的所述实体知识特征向量中与所述文档字段对应维度的向量值。


4.根据权利要求1至3任一项所述的方法,其特征在于,所述语义特征向量包括:所述待识别文本中每个字的字向量,以及,所述待识别文本中包括的词的词向量;所述实体知识特征向量包括:所述待识别文本中各文本子串的实体知识特征向量;
所述通过预先训练的实体识别模型,对所述语义特征向量和所述实体知识特征向量进行融合计算,并根据融合计算结果输出所述待识别文本的实体标注结果的步骤,包括:
通过预先训练的实体识别模型的记忆单元,依序对当前时刻输入的所述字向量、当前时刻输入的所述词向量和当前时刻输入的所述实体知识特征向量进行加权融合处理,直到所述待识别文本中所有字的字向量全部处理完成,得到所述记忆单元的最终时刻记忆状态;
根据所述最终时刻记忆状态和所述最终时刻输入的所述字向量,以及所述最终时刻的前一时刻所述实体识别模型的输出,输出所述待识别文本的实体标注结果。


5.根据权利要求4所述的方法,其特征在于,所述实体识别模型包括:字向量学习网络、词向量学习网络和实体知识特征向量学习网络,所述通过预先训练的实体识别模型的记忆单元,依序对当前时刻输入的所述字向量、当前时刻输入的所述词向量和当前时刻输入的所述实体知识特征向量进行加权融合处理的步骤,包括:
通过所述字向量学习网络计算当前输入字向量之间的语义特征,通过所述词向量学习网络学习当前时刻输入的词向量与所述当前输入字向量的隐层输出向量之间的语义特征,以及,通过所述实体知识特征向量学习网络学习当前时刻输入的实体知识特征向量与所述当前输入字向量的隐层输出向量之间的实体知识特征;
根据所述字向量学习网络、所述词向量学习网络和所述实体知识特征向量学习网络各自的当前输入向量的输入权重,对相应网络的当前记忆单元状态进行加权求和,以加权求和得到的结果更新...

【专利技术属性】
技术研发人员:马璐温丽红罗星池李超仙云森
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1