推荐标签获取方法、媒体内容推荐方法、装置及存储介质制造方法及图纸

技术编号:20448843 阅读:19 留言:0更新日期:2019-02-27 02:57
本申请公开了一种推荐标签获取方法,包括:获取多个样本内容中各个样本内容的标签数据和投放数据,获取与所述多个样本内容相关联的用户行为数据,所述各个样本内容的标签数据包括各个样本内容中包含的标签;针对所述标签数据中的每一个标签,确定该标签的质量评分,所述质量评分用于表征该标签的作为内容标签的可推荐度;以及将质量评分满足预定条件的至少一个标签作为推荐标签,形成推荐标签集合。本申请还公开了媒体内容推荐方法、相应的装置及存储介质。

Recommendation Label Acquisition Method, Media Content Recommendation Method, Device and Storage Media

This application discloses a method for obtaining recommendation labels, which includes: acquiring label data and delivery data of each sample content in a plurality of sample contents, acquiring user behavior data associated with the plurality of sample contents, label data of each sample content including labels contained in each sample content, and determining the label for each label in the label data. The quality score of a label is used to characterize the recommendability of the label as a content label, and at least one label satisfying a predetermined quality score is used as a recommendation label to form a set of recommendation labels. The application also discloses a media content recommendation method, a corresponding device and a storage medium.

【技术实现步骤摘要】
推荐标签获取方法、媒体内容推荐方法、装置及存储介质
本申请涉及互联网
,尤其涉及推荐标签获取方法、媒体内容推荐方法、装置及存储介质。
技术介绍
随着互联网技术的发展,人们可以通过网络阅读各种类型的文本。标签(tag)是与文本相关性很强的关键字,它能够对文本内容进行简单描述和分类。在媒体内容推送系统中,媒体内容的tag提取工作,是后续文章召回和推荐的基础。准确地提取媒体内容的tag,提炼文本的核心点受到越来越多的关注。
技术实现思路
本申请实例提供了一种推荐标签获取方法,包括:获取多个样本内容中各个样本内容的标签数据和投放数据,获取与所述多个样本内容相关联的用户行为数据,所述各个样本内容的标签数据包括各个样本内容中包含的标签;针对所述标签数据中的每一个标签,执行如下处理:根据包含该标签的各样本内容的投放数据,确定该标签的用户接受度;根据与包含该标签的各样本内容相关联的所述用户行为数据,确定该标签的用户兴趣度参数;及根据所述用户接受度及所述用户兴趣度参数,确定该标签的质量评分,所述质量评分用于表征该标签的作为内容标签的可推荐度;以及将质量评分满足预定条件的至少一个标签作为推荐标签,形成推荐标签集合。可选地,其中,所述投放数据包括曝光数据和/或点击数据;所述根据包含该标签的各样本内容的投放数据,确定该标签的用户接受度,包括:获取包含该标签的各样本内容的曝光数据和/或点击数据;根据包含该标签的各样本内容的所述曝光数据和/或所述点击数据,确定该标签的所述用户接受度。可选地,其中,每一样本内容的标签数据包括:至少一个标签及其在该样本内容中的权重;所述方法进一步包括:针对所述候选标签集合中的每一个标签,从包含该标签的各样本内容的标签数据中提取该标签在各样本内容中的权重;其中,所述根据包含该标签的各样本内容的所述曝光数据和/或点击数据,确定该标签的用户接受度,包括:根据该标签在各样本内容中的所述权重、包含该标签的各样本内容的所述曝光数据和/或所述点击数据,确定所述用户接受度。可选地,其中,采用以下公式(1)确定所述用户接受度:其中,N为包含该标签的样本内容的个数,i为所述N个样本内容中的第i个内容,tagweighti为该标签在第i个内容中的权重,hit_muni为第i个内容的点击量,post_muni为第i个内容的曝光量。可选地,其中,所确定的该标签的用户兴趣度参数包括该标签的点击量、该标签的订阅量和该标签的搜索量中的至少一项。可选地,其中,所述确定该标签的质量评分包括:通过对该标签的点击量、该标签的订阅量和该标签的搜索量中的至少一项及所述用户接受度进行加权求和,得到所述质量评分。可选地,所述方法进一步包括:针对所述推荐标签集合中的任一推荐标签,统计固定时间段内包含该推荐标签的待推送内容数量;提取所述待推送内容数量满足预定条件的推荐标签;统计包含选取的所述推荐标签的待推送内容的数量的时间分布;将所述时间分布不满足预定条件的推荐标签从所述推荐标签集合中删除。可选地,所述方法进一步包括:针对多个待推送的媒体内容,提取每一个待推送的媒体内容的至少一个关键词;根据所述推荐标签集合及每一个待推送的媒体内容的至少一个关键词,确定每一个待推送的媒体内容的至少一个标签。可选地,其中,所述确定每一个待推送的媒体内容的至少一个标签包括:获取每一个关键词在所述待推送的媒体内容中的词频,针对所述多个关键词中的任一关键词,执行如下处理:当所述推荐标签集合中存在与该关键词对应的标签时,将该关键词的第一评分设置为第一预设值;当所述推荐标签集合中不存在与该关键词对应的标签时,将该关键词的第一评分设置为第二预设值;根据该关键词在所述待推送的媒体内容中的词频确定该关键词的第二评分;根据所述第一评分及所述第二评分确定该关键词的第三评分;将所述第三评分满足预定条件的关键词作为所述媒体内容的标签。可选地,所述针对所述标签数据中的每一个标签,执行如下处理,包括:根据所述各个样本内容的标签数据确定候选标签集合;针对所述候选标签集合中的每一个标签,执行所述处理。本申请实例还提供了一种媒体内容推荐方法,包括:针对多个待推送的媒体内容,提取每一个待推送的媒体内容的至少一个关键词;根据权利要求1所述的方法获取的所述推荐标签集合及每一个待推送的媒体内容的至少一个关键词,确定每一个待推送的媒体内容的至少一个标签;接收应用客户端发送的媒体内容推荐请求,该媒体内容推荐请求中包括所述应用客户端的用户标识;根据所述用户标识确定所述用户的兴趣标签;将其标签中存在与所述用户的兴趣标签相对应的标签的待推送的媒体内容作为候选媒体内容;针对每一候选媒体内容,根据该候选媒体内容的至少一个标签及所述用户的兴趣标签,确定该候选媒体内容与所述用户的兴趣标签的匹配度;将匹配度满足预定条件的候选媒体内容作为推荐的媒体内容;将所述推荐的媒体内容的信息返回给所述应用客户端。本申请实例还提供了一种推荐标签获取装置,包括:获取单元,用以获取多个样本内容中各个样本内容的标签数据和投放数据,获取与所述多个样本内容相关联的用户行为数据,所述各个样本内容的标签数据包括各个样本内容中包含的标签;评分单元,用以:针对所述候选标签集合中的每一个标签,执行如下处理:根据包含该标签的各样本内容的投放数据,确定该标签的用户接受度;根据与包含该标签的各样本内容相关联的所述用户行为数据,确定该标签的用户兴趣度参数;及根据所述用户接受度及所述用户兴趣度参数,确定该标签的质量评分,所述质量评分用于表征该标签的作为内容标签的可推荐度;以及推荐标签确定单元,用以将质量评分满足预定条件的至少一个标签作为推荐标签,形成推荐标签集合。可选地,所述装置进一步包括清洗单元,用以:针对所述推荐标签集合中的任一推荐标签,统计固定时间段内包含该推荐标签的待推送内容数量;提取所述待推送内容数量满足预定条件的推荐标签;统计包含选取的所述推荐标签的待推送内容的数量的时间分布;将所述时间分布不满足预定条件的推荐标签从所述推荐标签集合中删除。本申请实例还提供了一种媒体内容推荐装置,包括:标签提取单元,用以针对多个待推送的媒体内容,提取每一个待推送的媒体内容的至少一个关键词;根据权利要求1所述的方法获取的所述推荐标签集合及每一个待推送的媒体内容的至少一个关键词,确定每一个待推送的媒体内容的至少一个标签;请求接收单元,用以接收应用客户端发送的媒体内容推荐请求,该媒体内容推荐请求中包括所述应用客户端的用户标识;媒体内容选取单元,用以:根据所述用户标识确定所述用户的兴趣标签;将其标签中存在与所述用户的兴趣标签相对应的标签的待推送的媒体内容作为候选媒体内容;针对每一候选媒体内容,根据该候选媒体内容的至少一个标签及所述用户的兴趣标签,确定该候选媒体内容与所述用户的兴趣标签的匹配度;将匹配度满足预定条件的候选媒体内容作为推荐的媒体内容;信息发送单元,用以将所述推荐的媒体内容的信息返回给所述应用客户端。本申请实例还提供了一种计算机可读存储介质,存储有计算机可读指令,可以使至少一个处理器执行如上述所述的方法。采用本申请提供的上述方案,能够帮助在媒体内容的多个候选关键词中选取更合适的标签,进而更好地进行媒体内容的推荐。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技本文档来自技高网...

【技术保护点】
1.一种推荐标签获取方法,其特征在于,包括:获取多个样本内容中各个样本内容的标签数据和投放数据,获取与所述多个样本内容相关联的用户行为数据,所述各个样本内容的标签数据包括各个样本内容中包含的标签;针对所述标签数据中的每一个标签,执行如下处理:根据包含该标签的各样本内容的投放数据,确定该标签的用户接受度;根据与包含该标签的各样本内容相关联的所述用户行为数据,确定该标签的用户兴趣度参数;及根据所述用户接受度及所述用户兴趣度参数,确定该标签的质量评分,所述质量评分用于表征该标签的作为内容标签的可推荐度;以及将质量评分满足预定条件的至少一个标签作为推荐标签,形成推荐标签集合。

【技术特征摘要】
1.一种推荐标签获取方法,其特征在于,包括:获取多个样本内容中各个样本内容的标签数据和投放数据,获取与所述多个样本内容相关联的用户行为数据,所述各个样本内容的标签数据包括各个样本内容中包含的标签;针对所述标签数据中的每一个标签,执行如下处理:根据包含该标签的各样本内容的投放数据,确定该标签的用户接受度;根据与包含该标签的各样本内容相关联的所述用户行为数据,确定该标签的用户兴趣度参数;及根据所述用户接受度及所述用户兴趣度参数,确定该标签的质量评分,所述质量评分用于表征该标签的作为内容标签的可推荐度;以及将质量评分满足预定条件的至少一个标签作为推荐标签,形成推荐标签集合。2.根据权利要求1所述的方法,其中,所述投放数据包括曝光数据和/或点击数据;所述根据包含该标签的各样本内容的投放数据,确定该标签的用户接受度,包括:获取包含该标签的各样本内容的曝光数据和/或点击数据;根据包含该标签的各样本内容的所述曝光数据和/或所述点击数据,确定该标签的所述用户接受度。3.根据权利要求2所述的方法,其中,每一样本内容的标签数据包括:至少一个标签及其在该样本内容中的权重;所述方法进一步包括:针对所述候选标签集合中的每一个标签,从包含该标签的各样本内容的标签数据中提取该标签在各样本内容中的权重;其中,所述根据包含该标签的各样本内容的所述曝光数据和/或点击数据,确定该标签的用户接受度,包括:根据该标签在各样本内容中的所述权重、包含该标签的各样本内容的所述曝光数据和/或所述点击数据,确定所述用户接受度。4.根据权利要求3所述的方法,其中,采用以下公式(1)确定所述用户接受度:其中,N为包含该标签的样本内容的个数,i为所述N个样本内容中的第i个内容,tagweighti为该标签在第i个内容中的权重,hit_muni为第i个内容的点击量,post_muni为第i个内容的曝光量。5.根据权利要求1所述的方法,其中,所确定的该标签的用户兴趣度参数包括该标签的点击量、该标签的订阅量和该标签的搜索量中的至少一项。6.根据权利要求5所述的方法,其中,所述确定该标签的质量评分包括:通过对该标签的点击量、该标签的订阅量和该标签的搜索量中的至少一项及所述用户接受度进行加权求和,得到所述质量评分。7.根据权利要求1所述的方法,进一步包括:针对所述推荐标签集合中的任一推荐标签,统计固定时间段内包含该推荐标签的待推送内容数量;提取所述待推送内容数量满足预定条件的推荐标签;统计包含选取的所述推荐标签的待推送内容的数量的时间分布;将所述时间分布不满足预定条件的推荐标签从所述推荐标签集合中删除。8.根据权利要求1所述的方法,进一步包括:针对多个待推送的媒体内容,提取每一个待推送的媒体内容的至少一个关键词;根据所述推荐标签集合及每一个待推送的媒体内容的至少一个关键词,确定每一个待推送的媒体内容的至少一个标签。9.根据权利要求8所述的方法,其中,所述确定每一个待推送的媒体内容的至少一个标签包括:获取每一个关键词在所述待推送的媒体内容中的词频,针对所述多个关键词中的任一关键词,执行如下处理:当所述推荐标签集合中存在与该关键词对应的标签时,将该关键词的第一评分设置为第一预设值;当所述推荐标签集合中不存在与该关键词对应的标签时,将该关键词的第一评分设置为第二预设值;根据该关键词在所述待推送的媒体内容中的词频确定该关键词的第二评分...

【专利技术属性】
技术研发人员:赵铭曹凯温旭范欣颜景善王树伟何鑫
申请(专利权)人:腾讯科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1