一种基于共现的广告标签聚类的方法及系统技术方案

技术编号:13459113 阅读:60 留言:0更新日期:2016-08-03 18:58
本发明专利技术公开一种基于共现的广告标签聚类的方法及系统,该方法包括:获取用户标签信息及广告的标签信息;根据所述用户标签信息及广告的标签信息计算出对应的用户标签信息与广告标签信息的相似度;根据所述相似度获取所述用户与所述广告的标签词共现语料,并将所获取的各个标签词共现语料构建成标签词共现语料对;根据标签词在语料中出现的次数计算出各个共现语料对中标签词的置信度;判断到所述置信度满足预先设定阈值时,结合已有标签词簇信息将所述标签词共现语料对中的标签词进行标签词簇的聚类。本发明专利技术节约了广告标签聚类的数据计算、处理过程中的计算资源。

【技术实现步骤摘要】
【专利摘要】本专利技术公开一种基于共现的广告标签聚类的方法及系统,该方法包括:获取用户标签信息及广告的标签信息;根据所述用户标签信息及广告的标签信息计算出对应的用户标签信息与广告标签信息的相似度;根据所述相似度获取所述用户与所述广告的标签词共现语料,并将所获取的各个标签词共现语料构建成标签词共现语料对;根据标签词在语料中出现的次数计算出各个共现语料对中标签词的置信度;判断到所述置信度满足预先设定阈值时,结合已有标签词簇信息将所述标签词共现语料对中的标签词进行标签词簇的聚类。本专利技术节约了广告标签聚类的数据计算、处理过程中的计算资源。【专利说明】一种基于共现的广告标签聚类的方法及系统
本专利技术涉及广告数据处理的
,涉及一种基于共现的广告标签聚类的方法及系统。
技术介绍
随着互联网及大数据处理技术的不断发展,商品的广告从原始的在商品包装、广告牌等实体的广告形式慢慢发展为媒体等虚拟的广告形式。而现今,在网络媒体上发布广告进行产品的展现已经成为商家的常用手段,通过网络媒体展示产品的方式能取得比较好的产品营销效果。再者,现在各种技术都追求智能化及自动化功能,更能满足用户在实际生活中的需求,提高了用户在实际中的实际体验。现在的广告投放又提出基于用户兴趣进行推送投放的形式,根据用户的历史观看或点击数据,总结出用户的兴趣爱好或关注的领域,再向用户进行相关或相近内容的广告推荐,如此能够增加投放广告的用户点击率,从而增强商业宣传的营销效果,对于广告投放平台来讲也会增加广告投放的收益,这种广告的投放形式被称为广告的个性化投放。在广告的个性化投放过程中,使用广告标签给所投放的广告进行记录或者标记是识别广告属性,并按此获取相应的广告进行投放的重要步骤。而在此过程中,按照广告的内容将广告进行聚类处理,将内容相关联或相近的广告归为同一簇方便体现出各个广告之间的相似性,也就方便了后续对用户进行兴趣广告推送投放。由此可见,计算广告的相关性已成为基于用户兴趣进行推送投放的重要内容。对广告相关性的计算不光是看用户的点击观看行为,还需要结合广告本身内容,而广告标签作为反应广告本身内容的重要信息也逐渐成为了热门的研究课题。因为现在很多广告的标签都是由用户标注上的,不同的用户对同一个信息的描述不尽相同,但是会是相似的,在计算相关性时就需要将这些相似且描述同一信息的广告标签归为一簇,例如,标注“阿迪达斯,,、“阿迪”、“adidas”、“adi”、“体育”、”球鞋”、“男士香水”等标签的广告,而这些与阿迪相关的几个标签其实描述的是同一个信息。现有技术中,通常利用k-means算法(硬聚类算法)将广告标签归簇,k-means算法,是将数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则,K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量最优分类,使得评价指标最小。算法过程如下:(I)从N个文档随机选取K个文档作为质心;(2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类;(3)重新计算已经得到的各个类的质心;(4)迭代2?3步直至新的质心与原质心相等或小于指定阈值,算法结束。k-means算法具有:算法快速、简单;对大数据集有较高的效率并且是可伸缩性的;时间复杂度近于线性,而且适合挖掘大规模数据集的特点。但是对于k-means算法,不仅需要提前指定聚类的个数,也就是K值;还需要反复迭代计算标签中每个词到K个中心点的距离,计算复杂度高,在广告标签数据较多时要耗费大量的计算资源。因此,提供一种能准确、高效、简单的广告标签聚类的方法是本领域亟待解决的问题。
技术实现思路
有鉴于此,本专利技术提供了一种基于共现的广告标签聚类的方法及系统,解决了现有技术中对广告标签聚类时需要指定聚类数以及需要复杂的计算程序的问题。为了解决上述技术问题,本专利技术提出一种基于共现的广告标签聚类的方法,该方法包括:获取用户标签信息及广告的标签信息;根据所述用户标签信息及广告的标签信息计算出对应的用户标签信息与广告标签信息的相似度;根据所述相似度获取所述用户与所述广告的标签词共现语料,并将所获取的各个标签词共现语料构建成标签词共现语料对;根据标签词在语料中出现的次数计算出各个共现语料对中标签词的置信度;判断到所述置信度满足预先设定阈值时,结合已有标签词簇信息将所述标签词共现语料对中的标签词进行标签词簇的聚类。在一可选实施例中,所述获取用户标签信息及广告的标签信息,包括:所述用户标签信息包括:所述用户的兴趣标签词及其各个标签词得分;所述广告的标签信息包括:所述广告的标签词及其各个标签词得分。在一可选实施例中,该方法包括:利用公式score (user,ad) = Σ user_tag_score*ad_tag_s cor e计算出对应的用户标签信息与广告标签信息的相似度;其中,score(user,ad)表示用户与广告的相似度;user_tag_score表示各个用户兴趣标签词的得分;ad_tag_SCOre表示各个广告的标签词得分。在一可选实施例中,所述根据标签词在语料中出现的次数计算出各个共现语料对中标签词的置信度,包括:将各个标签词在所述共现语料中出现的次数与同时出现该标签词与另一标签词次数的比值作为这个共现语料对中标签词的置信度。在一可选实施例中,所述判断到所述置信度满足预先设定阈值时,结合已有标签词簇信息将所述标签词共现语料对中的标签词聚类到所述已有标签词簇中,包括:判断到所述置信度满足预先设定阈值、所述标签词共现语料对中的一个标签词位于所述已有标签词簇中且所述已有标签词簇的数量未达到上限时,则将所述标签词共现语料对中的另一个标签词添加到所述已有标签词簇中。在一可选实施例中,该方法进一步包括:判断到所述置信度满足预先设定阈值、所述已有标签词簇的数量达到上限、和/或所述标签词共现语料对中标签词均未在所述已有标签词簇中时,根据所述标签词共现语料对新建一个标签词簇。另一方面,为实现上述基于共现的广告标签聚类的方法,本专利技术还提出了一种基于共现的广告标签聚类的系统,包括:获取模块、第一计算模块、构建模块、第二计算模块及处理模块,其中,所述获取模块,用于获取用户标签信息及广告的标签信息;所述第一计算模块,用于根据所述用户标签信息及广告的标签信息计算出对应的用户标签信息与广告标签信息的相似度;所述构建模块,用于根据所述相似度获取所述用户与所述广告的标签词共现语料,并将所获取的各个标签词共现语料构建成标签词共现语料对;所述第二计算模块,用于根据标签词在语料中出现的次数计算出各个共现语料对中标签词的置信度;所述处理模块,用于判断到所述置信度满足预先设定阈值时,结合已有标签词簇信息将所述标签词共现语料对中的标签词进行标签词簇的聚类。在一可选实施例中,所述获取模块,包括:第一获取单元及第二获取单元,其中,所述第一获取单元,用于获取所述用户标签信息中的兴趣标签词及其各个标签词得分;所述第二获取单元,用于获取所述所述广告标签信息中的标签词及其各个标签词得分。在一可选实施例中,所述第一计算模块,用于:利用公式score(user,ad) = 2user_tag_score*ad_tag_score计算出对应的用户标签信本文档来自技高网
...

【技术保护点】
一种基于共现的广告标签聚类的方法,其特征在于,包括:获取用户标签信息及广告的标签信息;根据所述用户标签信息及广告的标签信息计算出对应的用户标签信息与广告标签信息的相似度;根据所述相似度获取所述用户与所述广告的标签词共现语料,并将所获取的各个标签词共现语料构建成标签词共现语料对;根据标签词在语料中出现的次数计算出各个共现语料对中标签词的置信度;判断到所述置信度满足预先设定阈值时,结合已有标签词簇信息将所述标签词共现语料对中的标签词进行标签词簇的聚类。

【技术特征摘要】

【专利技术属性】
技术研发人员:袁树仑章岑杨田周盛潘柏宇王冀
申请(专利权)人:合一网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1