【技术实现步骤摘要】
用于实体分类的方法和装置、用于实体呈现的方法和装置
本公开涉及计算机
,尤其涉及用于实体分类的方法和装置、以及用于实体呈现的方法和装置。
技术介绍
实体分类(EntityClassification)技术通常是指把文本形式的实体根据一系列的特征划分到指定类别的技术。近些年来,随着知识图谱技术的发展,实体分类技术被大量用于知识图谱的构建中,旨在对图谱中的实体进行分类。在现有的对图谱中的实体进行分类的方案中,往往需要人工构建分类规则,通过多模匹配的方式进行。这种方案可泛化性不强,只能在少量主要类别中生效,并且严重依赖属性清洗、属性对齐等手段,效率并不高。而且,由于知识图谱中通常存在预定的类别层次结构,因此实体分类技术通常需要对实体进行层次化多标签的分类。目前,解决层次化多标签分类的方案主要是将层次化多标签分类转化成多个二分类,以及利用层次信息分级训练不同分类器来实施层次化多标签分类。然而,多个二分类由于没有考虑层次化类别间的依赖关系,会导致有冲突的分类结果,而只利用层次信息分级训练不同分类器会引起错误传播,性能往往较低。
技术实现思路
有鉴于此,本公开提供了用于实体分类的方法和装置、以及用于实体呈现的方法和装置,期望克服上面提到的部分或全部缺陷以及其它可能的缺陷。根据本公开的第一方面,提供了一种实体分类方法,包括:获取实体的信息文本;基于所述实体的信息文本确定所述实体对应的实体向量;基于所述实体向量,利用经训练的智能分类网络通过如下步骤确定针对所述实体的层次化类别,其中所述智能分 ...
【技术保护点】
1.一种用于实体分类的方法,包括:/n获取实体的信息文本;/n基于所述实体的信息文本确定所述实体对应的实体向量;/n基于所述实体向量,利用经训练的智能分类网络通过如下步骤确定针对所述实体的层次化类别,其中所述智能分类网络包括全局特征提取层和多个局部特征提取层,所述多个局部特征提取层与预定类别层次结构中的类别层一一对应,所述步骤包括:/n分别利用所述多个局部特征提取层基于所述实体向量提取对应局部特征提取层的类别向量,其中所述对应局部特征提取层的类别向量包括所述实体属于预定类别层次结构中的对应类别层中的各类别的局部类别置信度;/n利用所述全局特征提取层基于所述多个局部特征提取层得到的中间特征向量来提取第一全局类别向量,其中所述第一全局类别向量包括所述实体属于预定类别层次结构中各类别的第一全局类别置信度;/n基于所述多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局置信度确定针对所述实体的层次化类别。/n
【技术特征摘要】
1.一种用于实体分类的方法,包括:
获取实体的信息文本;
基于所述实体的信息文本确定所述实体对应的实体向量;
基于所述实体向量,利用经训练的智能分类网络通过如下步骤确定针对所述实体的层次化类别,其中所述智能分类网络包括全局特征提取层和多个局部特征提取层,所述多个局部特征提取层与预定类别层次结构中的类别层一一对应,所述步骤包括:
分别利用所述多个局部特征提取层基于所述实体向量提取对应局部特征提取层的类别向量,其中所述对应局部特征提取层的类别向量包括所述实体属于预定类别层次结构中的对应类别层中的各类别的局部类别置信度;
利用所述全局特征提取层基于所述多个局部特征提取层得到的中间特征向量来提取第一全局类别向量,其中所述第一全局类别向量包括所述实体属于预定类别层次结构中各类别的第一全局类别置信度;
基于所述多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局置信度确定针对所述实体的层次化类别。
2.根据权利要求1所述的方法,其中,所述信息文本包括对所述实体进行概述的实体描述文本、属性名称和与属性名称对应的属性值。
3.根据权利要求2所述的方法,其中,基于实体的信息文本确定所述实体对应的实体向量,包括:
对所述实体的实体描述文本进行第一嵌入处理,以得到文本描述向量;
对所述实体的属性名称和与属性名称对应的属性值进行第二嵌入处理,以得到属性向量;
基于所述文本描述向量和所述属性向量确定所述实体对应的实体向量。
4.根据权利要求3所述的方法,其中,对所述实体的属性名称和与属性名称对应的属性值进行第二嵌入处理,以得到属性向量,包括:
响应于所述属性名称对应多个属性值,则,
对所述实体的属性名称进行第二嵌入处理以得到第一词嵌入向量;
对所述多个属性值分别进行第二嵌入处理以得到多个第二词嵌入向量,并且对所述多个第二词嵌入向量取平均以得到平均嵌入向量;
基于所述第一词嵌入向量和平均嵌入向量确定所述属性向量。
5.根据权利要求3所述的方法,其中,基于所述文本描述向量和所述属性向量确定所述实体对应的实体向量,包括:
对所述属性向量进行池化处理,以得到第一处理向量;
对所述属性向量进行注意力处理,以得到第二处理向量;
将所述文本描述向量、第一处理向量和第二处理向量进行拼接,以得到所述实体对应的实体向量。
6.根据权利要求1所述的方法,其中,所述多个局部特征提取层的数目为N,并且每个局部特征提取层包括第一隐藏层、第二隐藏层、第三隐藏层,并且其中分别利用多个局部特征提取层基于所述实体向量提取对应局部特征提取层的类别向量,包括:
对于第1个局部特征提取层,
利用其第一隐藏层基于所述实体向量提取第一层的第一特征向量;
利用其第二隐藏层基于所述第一层的第一特征向量提取第一层的第二特征向量;
利用其第三隐藏层基于所述第一层的第二特征向量确定第1个局部特征提取层的类别向量;
对于第2到第N个局部特征提取层,
利用第i个局部特征提取层的第一隐藏层基于所述实体向量和第i-1层的第一特征向量提取第i层的第一特征向量;
利用第i个局部特征提取层的第二隐藏层基于第i层的所述第一特征向量提取第i层的第二特征向量;
利用第i个局部特征提取层的第三隐藏层基于所述第i层的第二特征向量确定第i个局部特征提取层的类别向量;
其中N为大于1的正整数,i为大于1且不大于N的正整数。
7.根据权利要求6所述的方法,其中,所述全局特征提取层包括第四隐藏层,并且利用所述全局特征提取层基于所述多个局部特征提取层得到的中间特征向量来提取第一全局类别向量,包括:
将所述第N个局部特征提取层提取的第N层的第一特征向量作为所述中间特...
【专利技术属性】
技术研发人员:徐也,杨石兵,沈卓,荆宁,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。