用于实体分类的方法和装置、用于实体呈现的方法和装置制造方法及图纸

技术编号:26846144 阅读:10 留言:0更新日期:2020-12-25 13:08
本申请描述了用于实体分类的方法和装置、以及用于实体呈现的方法和装置。用于实体分类的方法包括:获取实体的信息文本;基于实体的信息文本确定实体对应的实体向量;基于所述实体向量,利用经训练的智能分类网络通过如下步骤确定针对所述实体的层次化类别。所述步骤包括:分别利用所述多个局部特征提取层基于所述实体向量提取对应局部特征提取层的类别向量;利用全局特征提取层基于所述多个局部特征提取层得到的中间特征向量来提取第一全局类别向量;基于多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局置信度确定针对所述实体的层次化类别。

【技术实现步骤摘要】
用于实体分类的方法和装置、用于实体呈现的方法和装置
本公开涉及计算机
,尤其涉及用于实体分类的方法和装置、以及用于实体呈现的方法和装置。
技术介绍
实体分类(EntityClassification)技术通常是指把文本形式的实体根据一系列的特征划分到指定类别的技术。近些年来,随着知识图谱技术的发展,实体分类技术被大量用于知识图谱的构建中,旨在对图谱中的实体进行分类。在现有的对图谱中的实体进行分类的方案中,往往需要人工构建分类规则,通过多模匹配的方式进行。这种方案可泛化性不强,只能在少量主要类别中生效,并且严重依赖属性清洗、属性对齐等手段,效率并不高。而且,由于知识图谱中通常存在预定的类别层次结构,因此实体分类技术通常需要对实体进行层次化多标签的分类。目前,解决层次化多标签分类的方案主要是将层次化多标签分类转化成多个二分类,以及利用层次信息分级训练不同分类器来实施层次化多标签分类。然而,多个二分类由于没有考虑层次化类别间的依赖关系,会导致有冲突的分类结果,而只利用层次信息分级训练不同分类器会引起错误传播,性能往往较低。
技术实现思路
有鉴于此,本公开提供了用于实体分类的方法和装置、以及用于实体呈现的方法和装置,期望克服上面提到的部分或全部缺陷以及其它可能的缺陷。根据本公开的第一方面,提供了一种实体分类方法,包括:获取实体的信息文本;基于所述实体的信息文本确定所述实体对应的实体向量;基于所述实体向量,利用经训练的智能分类网络通过如下步骤确定针对所述实体的层次化类别,其中所述智能分类网络包括全局特征提取层和多个局部特征提取层,所述多个局部特征提取层与预定类别层次结构中的类别层一一对应。所述步骤包括:分别利用所述多个局部特征提取层基于所述实体向量提取对应局部特征提取层的类别向量,其中所述对应局部特征提取层的类别向量包括所述实体属于预定类别层次结构中的对应类别层中的各类别的局部类别置信度;利用所述全局特征提取层基于所述多个局部特征提取层得到的中间特征向量来提取第一全局类别向量,其中所述第一全局类别向量包括所述实体属于预定类别层次结构中各类别的第一全局类别置信度;基于所述多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局置信度确定针对所述实体的层次化类别。根据本公开的第二方面,提供了一种实体分类装置,包括:信息文本获取模块,被配置成获取实体的信息文本;实体向量确定模块,被配置成基于所述实体的信息文本确定所述实体对应的实体向量;层次类别确定模块,被配置成基于所述实体向量,利用经训练的智能分类网络确定针对所述实体的层次化类别,其中所述智能分类网络包括全局特征提取层和多个局部特征提取层,所述多个局部特征提取层与预定类别层次结构中的类别层一一对应。所述层次类别确定模块包括:局部向量提取模块,被配置成分别利用所述多个局部特征提取层基于所述实体向量提取对应局部特征提取层的类别向量,其中所述对应局部特征提取层的类别向量包括所述实体属于预定类别层次结构中的对应类别层中的各类别的局部类别置信度;全局向量提取模块,被配置成利用所述全局特征提取层基于所述多个局部特征提取层得到的中间特征向量来提取第一全局类别向量,其中所述第一全局类别向量包括所述实体属于预定类别层次结构中各类别的第一全局类别置信度;类别判定模块,被配置成基于所述多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局置信度确定针对所述实体的层次化类别。根据本公开的第三方面,提供了一种计算设备,包括处理器;以及存储器,配置为在其上存储有计算机可执行指令,当计算机可执行指令被处理器执行时执行如上面所述的任意方法。根据本公开的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行如上面所述的任意方法。在本公开要求保护的用于实体分类的方法和装置中,通过使用多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局置信度,使得在确定实体的层次化类别时,既利用了局部特征提取层提取的层次化的类别信息,又利用了第一全局类别向量中整体类别信息,从而在利用层次化的类别信息提升分类准确度的同时避免了只利用层次化的类别信息所引起错误传播问题。根据下文描述的实施例,本公开的这些和其它优点将变得清楚,并且参考下文描述的实施例来阐明本公开的这些和其它优点。附图说明现在将更详细并且参考附图来描述本公开的实施例,其中:图1示出了根据本公开的实施例的技术方案可以实施在其中的示例性应用场景;图2图示了根据本公开的一个实施例的一种用于实体分类的方法的示意性流程图;图3图示了根据本公开的一个实施例的预定类别层次结构的示意图;图4图示了根据本公开的一个实施例的基于实体的信息文本确定所述实体对应的实体向量的方法的示例性流程图;图5图示了根据本公开的一个实施例的基于多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局置信度确定实体的层次化类别的方法的示例性流程图;图6图示了根据本公开的一个实施例的对智能分类网络进行训练的方法的示例性流程图;图7图示了根据本公开的一个实施例的用于实体分类的方法的一种示意性实现架构图;图8图示了根据本公开的一个实施例的一种用于实体呈现的方法的示意性流程图;图9图示了根据本公开的一个实施例的呈现请求的实体的示例性用户界面图;图10示出了根据本公开的一个实施例的用于实体分类的装置的示例性结构框图;图11示出了根据本公开的一个实施例的用于实体呈现的装置1100的示例性结构框图;图12图示了一个示例系统,其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备。具体实施方式下面的描述提供了本公开的各种实施例的特定细节,以便本领域的技术人员能够充分理解和实施本公开的各种实施例。应当理解,本公开的技术方案可以在没有这些细节中的一些细节的情况下被实施。在某些情况下,本公开并没有示出或详细描述一些熟知的结构或功能,以避免这些不必要的描述使对本公开的实施例的描述模糊不清。在本公开中使用的术语应当以其最宽泛的合理方式来理解,即使其是结合本公开的特定实施例被使用的。首先,对本申请实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。实体:指的是现实世界中的事物,比如人、地名、公司、电话、动物。知识图谱:是一种基于图的数据结构,属于知识库的一种,由节点和边组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,知识图谱本质上是语义网络。图谱中的实体指的可以是现实世界中的事物,关系则用来表达不同实体之间的联系。BERT:全称为用于Transformer模型的双向编码器表征(BidirectionalEncoderRepresentationsfromTransformers),是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向本文档来自技高网...

【技术保护点】
1.一种用于实体分类的方法,包括:/n获取实体的信息文本;/n基于所述实体的信息文本确定所述实体对应的实体向量;/n基于所述实体向量,利用经训练的智能分类网络通过如下步骤确定针对所述实体的层次化类别,其中所述智能分类网络包括全局特征提取层和多个局部特征提取层,所述多个局部特征提取层与预定类别层次结构中的类别层一一对应,所述步骤包括:/n分别利用所述多个局部特征提取层基于所述实体向量提取对应局部特征提取层的类别向量,其中所述对应局部特征提取层的类别向量包括所述实体属于预定类别层次结构中的对应类别层中的各类别的局部类别置信度;/n利用所述全局特征提取层基于所述多个局部特征提取层得到的中间特征向量来提取第一全局类别向量,其中所述第一全局类别向量包括所述实体属于预定类别层次结构中各类别的第一全局类别置信度;/n基于所述多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局置信度确定针对所述实体的层次化类别。/n

【技术特征摘要】
1.一种用于实体分类的方法,包括:
获取实体的信息文本;
基于所述实体的信息文本确定所述实体对应的实体向量;
基于所述实体向量,利用经训练的智能分类网络通过如下步骤确定针对所述实体的层次化类别,其中所述智能分类网络包括全局特征提取层和多个局部特征提取层,所述多个局部特征提取层与预定类别层次结构中的类别层一一对应,所述步骤包括:
分别利用所述多个局部特征提取层基于所述实体向量提取对应局部特征提取层的类别向量,其中所述对应局部特征提取层的类别向量包括所述实体属于预定类别层次结构中的对应类别层中的各类别的局部类别置信度;
利用所述全局特征提取层基于所述多个局部特征提取层得到的中间特征向量来提取第一全局类别向量,其中所述第一全局类别向量包括所述实体属于预定类别层次结构中各类别的第一全局类别置信度;
基于所述多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局置信度确定针对所述实体的层次化类别。


2.根据权利要求1所述的方法,其中,所述信息文本包括对所述实体进行概述的实体描述文本、属性名称和与属性名称对应的属性值。


3.根据权利要求2所述的方法,其中,基于实体的信息文本确定所述实体对应的实体向量,包括:
对所述实体的实体描述文本进行第一嵌入处理,以得到文本描述向量;
对所述实体的属性名称和与属性名称对应的属性值进行第二嵌入处理,以得到属性向量;
基于所述文本描述向量和所述属性向量确定所述实体对应的实体向量。


4.根据权利要求3所述的方法,其中,对所述实体的属性名称和与属性名称对应的属性值进行第二嵌入处理,以得到属性向量,包括:
响应于所述属性名称对应多个属性值,则,
对所述实体的属性名称进行第二嵌入处理以得到第一词嵌入向量;
对所述多个属性值分别进行第二嵌入处理以得到多个第二词嵌入向量,并且对所述多个第二词嵌入向量取平均以得到平均嵌入向量;
基于所述第一词嵌入向量和平均嵌入向量确定所述属性向量。


5.根据权利要求3所述的方法,其中,基于所述文本描述向量和所述属性向量确定所述实体对应的实体向量,包括:
对所述属性向量进行池化处理,以得到第一处理向量;
对所述属性向量进行注意力处理,以得到第二处理向量;
将所述文本描述向量、第一处理向量和第二处理向量进行拼接,以得到所述实体对应的实体向量。


6.根据权利要求1所述的方法,其中,所述多个局部特征提取层的数目为N,并且每个局部特征提取层包括第一隐藏层、第二隐藏层、第三隐藏层,并且其中分别利用多个局部特征提取层基于所述实体向量提取对应局部特征提取层的类别向量,包括:
对于第1个局部特征提取层,
利用其第一隐藏层基于所述实体向量提取第一层的第一特征向量;
利用其第二隐藏层基于所述第一层的第一特征向量提取第一层的第二特征向量;
利用其第三隐藏层基于所述第一层的第二特征向量确定第1个局部特征提取层的类别向量;
对于第2到第N个局部特征提取层,
利用第i个局部特征提取层的第一隐藏层基于所述实体向量和第i-1层的第一特征向量提取第i层的第一特征向量;
利用第i个局部特征提取层的第二隐藏层基于第i层的所述第一特征向量提取第i层的第二特征向量;
利用第i个局部特征提取层的第三隐藏层基于所述第i层的第二特征向量确定第i个局部特征提取层的类别向量;
其中N为大于1的正整数,i为大于1且不大于N的正整数。


7.根据权利要求6所述的方法,其中,所述全局特征提取层包括第四隐藏层,并且利用所述全局特征提取层基于所述多个局部特征提取层得到的中间特征向量来提取第一全局类别向量,包括:
将所述第N个局部特征提取层提取的第N层的第一特征向量作为所述中间特...

【专利技术属性】
技术研发人员:徐也杨石兵沈卓荆宁
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1