一种属性名表征方法及装置制造方法及图纸

技术编号:19341925 阅读:23 留言:0更新日期:2018-11-07 13:48
本申请公开了一种属性名表征方法及装置,该方法包括:预先构建一属性名表征模型,该属性名表征模型用于使含义相同或相近的属性名对应于相同或相近的表征向量,在实际使用时,可以利用该属性名表征模型,对待表征的目标属性名进行向量表征,得到对应于目标属性名的表征向量。在本申请中,由于含义相同或相近的属性名,通常会对应相同或相近的属性值,因此,当模型构建时考虑了属性值信息时,该属性名表征模型可以使含义相同或相近的目标属性名对应于相同或相近的表征向量。

A method and device for attribute name representation

This application discloses an attribute name representation method and device. The method includes: pre-constructing an attribute name representation model, which is used to make attribute names with the same or similar meanings correspond to the same or similar representation vectors. In practical use, the attribute name representation model can be used to treat the representation. The target attribute names are represented by vectors, and the representation vectors corresponding to the target attribute names are obtained. In this application, because the attribute names with the same or similar meanings usually correspond to the same or similar attribute values, the attribute name representation model can make the target attribute names with the same or similar meanings correspond to the same or similar representation vectors when the attribute value information is taken into account in the construction of the model.

【技术实现步骤摘要】
一种属性名表征方法及装置
本申请涉及自然语言处理
,尤其涉及一种属性名表征方法及装置。
技术介绍
百科实体指的是一种结构化的文档中的词条名称,比如百度百科、搜狗百科、维基百科等热门知识共享网站上的词条名称,百科实体的属性名是指每个词条页面下具有结构化数据的信息框(infobox)中的属性名称。对属性名进行合理有效的向量化表征,能方便利用属性名对百科中的实体进行识别并区分各种类型的实体,比如人名、地名、组织名等类型。而对这些实体进行准确区分,有助于进一步从百科中挖掘出更丰富的信息(比如实体关系、语义关系等)进行知识问答,在进行知识问答时,属性名的分类非常重要。然而,当采用现有方法对属性名进行向量化表征时,一般将属性名作为一个词,并生成该词的词向量,然后利用该词向量得到属性名的表征向量。但是,这种方法很难基于表征向量,将含义相同或相近的属性名分到同一类,例如,属性名“原居住地”与“籍贯”,属于在含义上相同或相近的词,但以词向量为基础对二者进行向量化表征后,很难基于得到的表征向量,将二者作为相同或相近的词。
技术实现思路
本申请实施例的主要目的在于提供一种属性名表征方法及装置,能够使含义相同或相近的属性名分到同一类。本申请实施例提供了一种属性名表征方法,包括:获取待表征的目标属性名;利用预先构建的属性名表征模型,对所述目标属性名进行向量表征,得到对应于所述目标属性名的表征向量;其中,所述属性名表征模型用于使含义相同或相近的属性名对应于相同或相近的表征向量。可选的,所述属性名表征模型是利用属性集合中的样本属性对训练而成的,所述属性集合包括多组正确匹配的样本属性对,所述样本属性对包括样本属性名与样本属性值。可选的,按照下述方式训练得到所述属性名表征模型:利用所述属性集合中的全部或部分样本属性对,对初始构建的属性名表征模型与属性值表征模型进行联合训练,得到训练结束后的属性名表征模型。可选的,所述对初始构建的属性名表征模型与属性值表征模型进行联合训练,包括:从所述属性集合中依次获取样本属性对,将当前获取的样本属性对作为训练样本;将所述训练样本中的样本属性名,作为当前的属性名表征模型的输入;将所述训练样本中的样本属性值,作为当前的属性值表征模型的输入;根据所述属性名表征模型与所述属性值表征模型输出的语义信息,预测所述训练样本中的样本属性名与样本属性值是否匹配,得到预测匹配结果;根据所述训练样本的预测匹配结果与实际匹配结果,更新所述属性名表征模型与所述属性值表征模型的模型参数,直到满足训练结束条件为止。可选的,所述根据所述属性名表征模型与所述属性值表征模型输出的语义信息,预测所述训练样本中的样本属性名与样本属性值是否匹配,包括:根据所述属性名表征模型与所述属性值表征模型输出的语义信息,确定所述训练样本中的样本属性名与样本属性值的相关度;根据所述相关度,预测所述训练样本中的样本属性名与样本属性值是否匹配。可选的,所述根据所述属性名表征模型与所述属性值表征模型输出的语义信息,确定所述训练样本中的样本属性名与样本属性值的相关度,包括:若所述属性名表征模型与所述属性值表征模型为双向神经网络模型,则获取所述属性名表征模型的最后一个前向隐层和最后一个后向隐层输出的语义信息,并获取所述属性值表征模型的最后一个前向隐层和最后一个后向隐层输出的语义信息;根据获取的语义信息,确定所述训练样本中的样本属性名与样本属性值的相关度。可选的,若所述属性名表征模型为双向神经网络模型,则所述目标属性名的表征向量为所述属性名表征模型的最后一个前向隐层输出的语义信息。本申请实施例还提供了一种属性名表征装置,包括:属性名获取单元,用于获取待表征的目标属性名;向量表征单元,用于利用预先构建的属性名表征模型,对所述目标属性名进行向量表征,得到对应于所述目标属性名的表征向量;其中,所述属性名表征模型用于使含义相同或相近的属性名对应于相同或相近的表征向量。可选的,所述属性名表征模型是利用属性集合中的样本属性对训练而成的,所述属性集合包括多组正确匹配的样本属性对,所述样本属性对包括样本属性名与样本属性值。可选的,所述装置还包括:模型训练单元,用于利用所述属性集合中的全部或部分样本属性对,对初始构建的属性名表征模型与属性值表征模型进行联合训练,得到训练结束后的属性名表征模型。可选的,所述模型训练单元包括:样本获取子单元,用于从所述属性集合中依次获取样本属性对,将当前获取的样本属性对作为训练样本;样本输入子单元,用于将所述训练样本中的样本属性名,作为当前的属性名表征模型的输入;将所述训练样本中的样本属性值,作为当前的属性值表征模型的输入;匹配预测子单元,用于根据所述属性名表征模型与所述属性值表征模型输出的语义信息,预测所述训练样本中的样本属性名与样本属性值是否匹配,得到预测匹配结果;参数更新子单元,用于根据所述训练样本的预测匹配结果与实际匹配结果,更新所述属性名表征模型与所述属性值表征模型的模型参数,直到满足训练结束条件为止。可选的,所述匹配预测子单元包括:相关度确定子单元,用于根据所述属性名表征模型与所述属性值表征模型输出的语义信息,确定所述训练样本中的样本属性名与样本属性值的相关度;结果预测子单元,用于根据所述相关度,预测所述训练样本中的样本属性名与样本属性值是否匹配。可选的,所述相关度确定子单元包括:语义信息获取子单元,用于若所述属性名表征模型与所述属性值表征模型为双向神经网络模型,则获取所述属性名表征模型的最后一个前向隐层和最后一个后向隐层输出的语义信息,并获取所述属性值表征模型的最后一个前向隐层和最后一个后向隐层输出的语义信息;样本相关度确定子单元,用于根据获取的语义信息,确定所述训练样本中的样本属性名与样本属性值的相关度。可选的,若所述属性名表征模型为双向神经网络模型,则所述目标属性名的表征向量为所述属性名表征模型的最后一个前向隐层输出的语义信息。本申请实施例还提供了一种属性名表征装置,包括:处理器、存储器、系统总线;所述处理器以及所述存储器通过所述系统总线相连;所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述属性名表征方法中的任意一种实现方式。本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述属性名表征方法中的任意一种实现方式。本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述属性名表征方法中的任意一种实现方式。本申请实施例提供了一种属性名表征方法及装置,预先构建一属性名表征模型,该属性名表征模型用于使含义相同或相近的属性名对应于相同或相近的表征向量,并且,属性名表征模型是利用属性集合中的样本属性对训练而成的,所述属性集合包括多组正确匹配的样本属性对,所述样本属性对包括样本属性名与样本属性值;在实际使用时,可以利用该属性名表征模型,对待表征的目标属性名进行向量表征,得到对应于目标属性名的表征向量。在本实施例中,由于含义相同或相近的属性名,通常会对应相同或相近的属性值,因此,当模型构建时考虑了属性值信息时,该属性名表征模型可以使含义相同或相近的目标本文档来自技高网...

【技术保护点】
1.一种属性名表征方法,其特征在于,包括:获取待表征的目标属性名;利用预先构建的属性名表征模型,对所述目标属性名进行向量表征,得到对应于所述目标属性名的表征向量;其中,所述属性名表征模型用于使含义相同或相近的属性名对应于相同或相近的表征向量。

【技术特征摘要】
1.一种属性名表征方法,其特征在于,包括:获取待表征的目标属性名;利用预先构建的属性名表征模型,对所述目标属性名进行向量表征,得到对应于所述目标属性名的表征向量;其中,所述属性名表征模型用于使含义相同或相近的属性名对应于相同或相近的表征向量。2.根据权利要1所述的方法,其特征在于,所述属性名表征模型是利用属性集合中的样本属性对训练而成的,所述属性集合包括多组正确匹配的样本属性对,所述样本属性对包括样本属性名与样本属性值。3.根据权利要2所述的方法,其特征在于,按照下述方式训练得到所述属性名表征模型:利用所述属性集合中的全部或部分样本属性对,对初始构建的属性名表征模型与属性值表征模型进行联合训练,得到训练结束后的属性名表征模型。4.根据权利要求3所述的方法,其特征在于,所述对初始构建的属性名表征模型与属性值表征模型进行联合训练,包括:从所述属性集合中依次获取样本属性对,将当前获取的样本属性对作为训练样本;将所述训练样本中的样本属性名,作为当前的属性名表征模型的输入;将所述训练样本中的样本属性值,作为当前的属性值表征模型的输入;根据所述属性名表征模型与所述属性值表征模型输出的语义信息,预测所述训练样本中的样本属性名与样本属性值是否匹配,得到预测匹配结果;根据所述训练样本的预测匹配结果与实际匹配结果,更新所述属性名表征模型与所述属性值表征模型的模型参数,直到满足训练结束条件为止。5.根据权利要4所述的方法,其特征在于,所述根据所述属性名表征模型与所述属性值表征模型输出的语义信息,预测所述训练样本中的样本属性名与样本属性值是否匹配,包括:根据所述属性名表征模型与所述属性值表征模型输出的语义信息,确定所述训练样本中的样本属性名与样本属性值的相关度;根据所述相关度,预测所述训练样本中的样本属性名与样本属性值是否匹配。6.根据权利要求5所述的方法,其特征在于,所述根据所述属性名表征模型与所述属性值表征模型输出的语义信息,确定所述训练样本中的样本属性名与样本属性值的相关度,包括:若所述属性名表征模型与所述属性值表征模型为双向神经网络模型,则获取所述属性名表征模型的最后一个前向隐层和最后一个后向隐层输出的语义信息,并获取所述属性值表征模型的最后一个前向隐层和最后一个后向隐层输出的语义信息;根据获取的语义信息,确定所述训练样本中的样本属性名与样本属性值的相关度。7.根据权利要求1至6任一项所述的方法,其特征在于,若所述属性名表征模型为双向神经网络模型,则所述目标属性名的表征向量为所述属性名表征模型的最后一个前向隐层输出的语义信息。8.一种属性名表征装置,其特征在于,包括:属性名获取单元,用于获取待表征的目标属性名;向量表征单元,用于利用预先构建的属性名表征模型,对所述目标属性名进行向量表征,得到对应于所述目标属性名的表征向量;其中,所述属性名表征模型用于使含义相同或相近的属性名对应于相同或...

【专利技术属性】
技术研发人员:李锐刘权陈志刚
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1