类型确定方法、装置、设备和介质制造方法及图纸

技术编号:21454146 阅读:16 留言:0更新日期:2019-06-26 04:50
本发明专利技术实施例公开了一种类型确定方法、装置、设备和介质。该方法包括:识别目标文本中的目标实体;根据目标实体与目标文本中其他词语的语义关系,以及目标实体的先验知识,确定目标实体的类型。本发明专利技术实施例提供一种类型确定方法、装置、设备和介质,以实现对实体类型的自动识别,同时使得识别结果具有可解释性和可扩展性。

【技术实现步骤摘要】
类型确定方法、装置、设备和介质
本专利技术实施例涉及自然语言处理领域,尤其涉及一种类型确定方法、装置、设备和介质。
技术介绍
实体识别及其类型的确定是信息提取、问答系统、知识图谱等领域的重要工具,是让机器理解文本信息的重要基础。比如,李白既可以是指类型为人物的实体,也可以是指类型为歌曲的实体。网页中有这样一句话:李白这首曲子是我的最爱。实体类型的确定是指,确定句子中的李白是人物还是歌曲。传统的实体类型确定技术方案主要有:基于规则和词典的方法。由语言专家手工构造规则模板,选用特征诸如标点符号、关键字和指示词,以模式和字符串匹配为主要技术手段。然而,基于规则和字典的方法,因为需要领域专家配置规则,所以很难扩展到多领域,也即系统可移植性低。同时,领域专家配置规则的人力成本较大。
技术实现思路
本专利技术实施例提供一种类型确定方法、装置、设备和介质,以实现对实体类型的自动识别,同时使得识别结果具有可解释性和可扩展性。第一方面,本专利技术实施例提供了一种类型确定方法,该方法包括:识别目标文本中的目标实体;根据目标实体与目标文本中其他词语的语义关系,以及目标实体的先验知识,确定目标实体的类型。第二方面,本专利技术实施例还提供了一种类型确定装置,该装置包括:实体识别模块,用于识别目标文本中的目标实体;类型确定模块,用于根据目标实体与目标文本中其他词语的语义关系,以及目标实体的先验知识,确定目标实体的类型。第三方面,本专利技术实施例还提供了一种设备,所述设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术实施例中任一所述的类型确定方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术实施例中任一所述的类型确定方法。本专利技术实施例通过根据目标实体与目标文本中除目标实体以外的词语的语义关系,以及目标实体的先验知识,确定目标实体的类型。从而实现目标实体类型的自动识别。通过断开先验知识的应用后,查看目标实体类型的确定准确率是否下降,从而对类型的识别结果进行解释。通过增加先验知识可以实现对目标实体的类型的扩展。附图说明图1为本专利技术实施例一提供的一种类型确定方法的流程图;图2是本专利技术实施例二提供的一种类型确定方法的流程图;图3是本专利技术实施例三提供的一种类型确定方法的流程图;图4是本专利技术实施例四提供的一种类型确定装置的结构示意图;图5为本专利技术实施例五提供的一种设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种类型确定方法的流程图。本实施例可适用于对文本中的实体进行类型识别的情况,典型的,可以适用于对句子中的多义实体进行类型识别的情况。该方法可以由一种类型确定装置来执行,该装置可以由软件和/或硬件的方式实现。参见图1,本专利技术实施例提供的类型确定方法包括:S110、识别目标文本中的目标实体。其中,目标实体是待确定类型的实体。实体是具体的人或事物。比如,诗人李白、歌曲李白等,明星、教授等抽象概念不是实体。目标实体可以是具有唯一类型的实体,也可以是具有至少两种类型的实体。例如,唯一类型的实体可以是天安门城楼,至少两种类型的实体可以是苹果、李白等。目标文本是目标实体所在的文本,典型地该文本可以是句子。目标实体的识别可以是现有技术中任一可实现的方法,本实施例对此不做限定。S120、根据目标实体与目标文本中其他词语的语义关系,以及目标实体的先验知识,确定目标实体的类型。其中,先验知识可以是包括实体所属各类型的解释。其他词语是指目标文本中除目标实体以外的词语。具体地,实体的先验知识可以从百科信息或知识图谱中获取。可选地,先验知识还可以包括实体所属各类型的点击量。类型是目标实体所属语义的类型。例如李白的类型可以是人物,也可以是歌曲。本专利技术实施例的技术方案,通过根据目标实体与目标文本中除目标实体以外的词语的语义关系,以及目标实体的先验知识,确定目标实体的类型。从而实现目标实体类型的自动识别。通过断开先验知识的应用后,查看目标实体类型的确定准确率是否下降,从而对类型的识别结果进行解释。通过增加先验知识可以实现对目标实体的类型的扩展。实施例二图2是本专利技术实施例二提供的一种类型确定方法的流程图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图2,本实施例提供的类型确定方法包括:S210、识别目标文本中的目标实体。S220、根据目标实体在目标文本中的上下文信息,确定目标实体与目标文本中其他词语的语义关系。其中,所述上下文信息包括目标实体、目标实体在目标文本中的位置、目标文本包括的各文字、目标文本包括的词语和各词语的词性中的至少一种。典型的,将目标实体在目标文本中的上下文信息输入长短期网络(LongShortTerm网络,LSTM网络),输出目标实体与目标文本中除目标实体以外的词语的语义关系。S230、根据目标实体与目标文本中除目标实体以外的词语的语义关系,以及目标实体的先验知识,确定目标实体的类型。本专利技术实施例的技术方案,通过包括目标实体、目标实体在目标文本中的位置、目标文本包括的各文字、目标文本包括的各词语和各词语的词性中的至少一种的多维度上下文信息,确定目标实体与目标文本中除目标实体以外的词语的语义关系。从而提高语义关系的确定准确率,进而提高类型的确定准确率。具体地,将目标实体所处上下文信息中各维度信息进行向量转换,生成各维度信息向量;将各维度信息向量首尾串联后,输入长短期网络,输出目标实体与目标文本中除目标实体以外的词语的语义关系。然而,专利技术人在实现上述方法的过程中发现,由于串联后各维度信息向量中描述相同目标文本内容的特征表示之间的距离较远,从而导致目标实体与目标文本中除目标实体以外的词语的语义关系的学习准确率低。也即目标实体所处上下文信息中各维度信息的向量的组合方式不利于上述语义关系的学习。为了更好的学习目标实体与目标文本中除目标实体以外的词语的语义关系,所述根据目标实体在目标文本中的上下文信息,确定目标实体与目标文本中除目标实体以外的词语的语义关系,包括:对目标实体在目标文本中的各维度上下文信息进行特征表示转换,生成各维度信息特征表示;根据各维度信息特征表示描述的文本内容,确定各维度信息特征表示在上下文信息特征表示中的位置;根据上下文信息特征表示,确定目标实体与目标文本中其他词语的语义关系。其中,所述上下文信息特征表示包括各维度信息特征表示。各维度特征表示和上下文信息特征表示可以是向量,也可以是多行或多列的矩阵。具体地,根据各维度信息特征表示描述的句子内容,确定各维度信息特征表示在上下文信息特征表示中的位置,包括:将各维度信息特征表示中描述相同目标文本内容的特征表示,在上下文信息特征表示中的位置集中设置。换而言之,也就是将各维度信息特征表示中描述相同目标文本内容的特征表示排列在一起。从而通过上下文信息特征表示中距离相对较近的特征表示,更好的学习目标实体与目标文本中其他词语之间的语义关本文档来自技高网...

【技术保护点】
1.一种类型确定方法,其特征在于,包括:识别目标文本中的目标实体;根据目标实体与目标文本中其他词语的语义关系,以及目标实体的先验知识,确定目标实体的类型。

【技术特征摘要】
1.一种类型确定方法,其特征在于,包括:识别目标文本中的目标实体;根据目标实体与目标文本中其他词语的语义关系,以及目标实体的先验知识,确定目标实体的类型。2.根据权利要求1所述的方法,其特征在于,根据目标实体在目标文本中的上下文信息,确定所述目标实体与所述目标文本中其他词语的所述语义关系,其中所述上下文信息包括目标实体、目标实体在目标文本中的位置、目标文本包括的字、目标文本包括的词语和各词语的词性中的至少一种。3.根据权利要求2所述的方法,其特征在于,所述根据目标实体在目标文本中的上下文信息,确定所述目标实体与所述目标文本中其他词语的所述语义关系,包括:对目标实体在目标文本中各维度的上下文信息进行特征表示转换,生成各维度信息特征表示;根据各维度信息特征表示描述的文本内容,确定各维度信息特征表示在上下文信息特征表示中的位置;根据上下文信息特征表示,确定目标实体与目标文本中其他词语的语义关系。4.根据权利要求3所述的方法,其特征在于,所述根据各维度信息特征表示描述的文本内容,确定各维度信息特征表示在上下文信息特征表示中的位置,包括:将包括目标实体和目标文本的字向量序列、目标文本的词向量序列,以及目标文本的词性向量序列,作为目标矩阵的各行向量;将目标实体在目标文本中的位置向量作为列向量,分别设置在目标矩阵的两侧,将经过行向量和列向量设置的目标矩阵作为上下文信息特征表示。5.根据权利要求1所述的方法,其特征在于,所述目标实体的先验知识包括目标实体所属各类型的解释。6.一种类型确定装置,其特征在于,包括:实体识别模块,用于识别目标文本中的目标实体;类型确定模块,用于根据目标...

【专利技术属性】
技术研发人员:张强冯知凡任可欣张扬朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1