【技术实现步骤摘要】
一种实体画像的构建方法和装置
本申请实施例涉及计算机互联网
,具体涉及一种实体画像的构建方法和装置。
技术介绍
目前,实体画像构建主要基于文本提取算法,即通过实体的文本描述信息得到关键词,进而构建实体画像,但是该方案不适用于短文本或语料稀疏的情况,因为短文本或语料稀疏缺少足够的描述信息,仅仅根据有限的文本信息难以实现对实体的画像构建,而多数情况下实体都具有明显的长尾效应,存在语料稀疏问题,由此基于文本提取构建的实体画像不全面、准确度较低。
技术实现思路
有鉴于此,本申请实施例提供了一种实体画像的构建方法和装置,基于文本描述信息和用户行为信息抽取标签,根据标签刻画实体,解决了文本抽取刻画实体导致的实体画像不全面、准确度不高的技术问题。根据本申请的第一个方面,提供了一种实体画像的构建方法,包括:根据所述实体的文本描述信息确定所述实体对应的关键词;根据用户对所述实体的浏览行为信息获得所述实体的特征向量;基于所述关键词以及所述特征向量进行标签抽取,得到标签;根据抽取的所述标签构建所述实体对应的标签画像。根据本申请的第二个方面,提供了一种实体画像的构建装置,包括:标签抽取 ...
【技术保护点】
1.一种实体画像的构建方法,其特征在于,包括:根据所述实体的文本描述信息确定所述实体对应的关键词;根据用户对所述实体的浏览行为信息获得所述实体的特征向量;基于所述关键词以及所述特征向量进行标签抽取,得到标签;根据抽取的所述标签构建所述实体对应的标签画像。
【技术特征摘要】
1.一种实体画像的构建方法,其特征在于,包括:根据所述实体的文本描述信息确定所述实体对应的关键词;根据用户对所述实体的浏览行为信息获得所述实体的特征向量;基于所述关键词以及所述特征向量进行标签抽取,得到标签;根据抽取的所述标签构建所述实体对应的标签画像。2.如权利要求1所述的方法,其特征在于,所述基于所述关键词以及所述特征向量进行标签抽取,得到标签包括:基于所述实体的特征向量,计算任意两个实体之间的相似度;根据所述相似度构建相似度网络;获取所述相似度网络中第一实体所对应的第一关键词,以及所述第一实体的各邻居实体所对应的第二关键词,由所述第一关键词和所述第二关键词得到关键词集合;对所述关键词集合中的关键词进行标签抽取,将抽取出的关键词作为标签。3.如权利要求2所述的方法,其特征在于,所述对所述关键词集合中的关键词进行标签抽取包括:获得所述关键词集合中各关键词的TF-IDF得分,将所述TF-IDF得分大于预设得分阈值的关键词抽取出来作为所述标签。4.如权利要求2所述的方法,其特征在于,所述根据抽取的所述标签构建所述实体对应的标签画像包括:初始化所述相似度网络中实体的标签,得到各实体的标签集,所述标签集中包括N个标签,N为自然数;遍历各实体的标签集,对所述标签集中的标签进行迭代,根据停止迭代时各实体的标签集构建所述实体对应的标签画像;对所述标签集中的标签进行迭代具体包括:根据标签在第一实体上的权重,所述标签在邻居实体上的权重以及所述第一实体与所述邻居实体的边权重,获得本轮迭代中所述标签更新后的新权重,并将所述邻居实体的标签集中的拓展标签添加到所述第一实体的所述标签集中得到新标签集,其中,所述拓展标签为所述邻居实体的标签集中不同于所述第一实体的所述标签集中的标签;计算本轮迭代后标签的所述新权重与上一轮迭代后新权重的变化量,根据所述变化量与预设迭代阈值的比较结果,确定是否停止迭代,当停止迭代时确定出各实体的标签集。5.如权利要求4所述的方法,其特征在于,所述计算本轮迭代后标签的所述新权重与上一轮迭代后新权重的变化量,根据所述变化量与预设迭代阈值的比较结果,确定是否停止迭代包括:计算本轮迭代后各所述实体的所述标签的所述新权重相对于上一轮迭代后新权重的差值,将所述差值相加得到与所述实体对应的总计值,根据所述总计值与所述实体的数目计算平均数,得到所述变化量;判断所述变化量是否小于所述预设迭代阈值,是则停止迭代,否则,继续迭代。6.如权利要求4所述的方法,其特征在于,在得到停止迭代时各所述实体的所述标签集之后,该方法还包括:根据标签在所有实体的标签集中的出现概率计算所述标签的信息熵,并基于所述信息熵、所述标签在当前实体上的权重得到所述标签的最终权重,对各所述实体的所述标签集中的标签按照所述最终权重的大小进行排序,并选取前预设个数个标...
【专利技术属性】
技术研发人员:王露珠,秦思源,冯浩,王哲,
申请(专利权)人:北京三快在线科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。