一种基于网页特征的广告分类方法及装置制造方法及图纸

技术编号:7445832 阅读:182 留言:0更新日期:2012-06-20 09:39
本发明专利技术公开了一种基于网页特征的广告分类方法和系统,该方法包括以下步骤:从网页样本信息中提取网页特征信息,以及从广告样本信息中提取广告特征信息;利用迁移学习方法将网页特征信息和广告特征信息映射到共同的特征空间,以得到映射到共同的特征空间的网页样本信息和广告样本信息;基于映射到共同的特征空间后的网页样本信息和当前的训练集来训练分类器,根据训练后的分类器对广告样本信息进行分类以获得分类结果;根据广告样本信息的历史投放和点击数据构建网页与广告之间的链接网络,使分类结果沿所述链接网络进行传播,以获得修正后的分类结果;根据修正后的分类结果更新训练集。本发明专利技术能够充分利用已有的标注数据,避免大量重复性劳动。

【技术实现步骤摘要】

本专利技术涉及网页分类、广告分类、迁移学习等领域,具体涉及利用网页分类数据对广告进行自动分类。
技术介绍
网络分类广告是充分利用计算机网络的优势,对大规模的生活实用信息,按主题进行科学分类,并提供快速检索的一种广告形式。近来,网络分类广告已成为一种新的网络广告形式,其通过采用广告分类技术来为满足企事业单位和个人商户在互联网上发布各类产品和服务广告的需求,并为广大网民提供实用、丰富、真实的消费和商务信息资源。与传统媒体分类广告相比,网络分类广告容量大,表现形式多样化、立体化,可查询、收藏信息。目前已有广告分类技术主要分为两类,一类是利用传统的文本分类方法;另一类是针对广告领域标注数据少的特点采用迁移学习的方法。传统文本分类方法通过对广告样本手工标注得到训练集,利用机器学习分类模型进行训练,从而得到广告分类器;迁移学习方法在网页等标注样本比较充足而广告的标注样本获取比较困难的情况下,将网页样本的特征空间向广告域空间或公共空间进行映射,在映射后特征空间上训练分类器,从而可以利用网页的标注样本对广告样本进行分类。传统文本分类方法需要大量的广告标注样本,从而消耗大量的人力物力,且无法充分利用已标注过的丰富网页样本。迁移学习的方法可以比较好的利用现有网页样本资源,但往往忽视了网页之间的关联及网页与广告之间的关联。传统的广告分类技术中,广告相关的描述通常比较短,相关关键词数目也比较少, 导致其特征描述不充分,不利于广告的自动分类。同时,对广告的类别标注数据非常少,训练数据严重不足。目前还没有一种能够克服传统技术中不足的广告分类的技术。
技术实现思路
为克服现有技术中的不足,本专利技术提供了一种利用网页的标注数据实现广告的自动分类的方法和装置。本专利技术通过利用广告样本与网页样本之间的关联关系来对广告进行自动分类,能够提高广告分类的效率和准确率。为了解决上述技术问题,本专利技术提供了一种基于网页特征的广告分类方法,其特征在于,包括以下步骤步骤A 从网页样本信息中提取网页特征信息,以及从广告样本信息中提取广告特征信息;步骤B 利用迁移学习方法将所述网页特征信息和广告特征信息映射到共同的特征空间,以得到映射到共同的特征空间的网页样本信息和广告样本信息; 步骤C:基于映射到共同的特征空间后的网页样本信息和当前的训练集来训练分类器,根据训练后的分类器对广告样本信息进行分类以获得分类结果;步骤D 根据所述广告样本信息的历史投放和点击数据构建网页与广告之间的链接网络,使所述分类结果沿所述链接网络进行传播,以获得修正后的分类结果;步骤E 根据修正后的分类结果更新训练集。4进一步,该方法还包括,在所述步骤A中,从所述网页样本信息中的提取的所述网页特征信息的元素包括网页的统计参数、网页的语言参数、词频、词频-逆文档频度、和/ 或连接访问参数;从所述广告样本信息中提取的所述广告特征信息的元素具体包括广告主为广告投放所提供的竞价关键词、广告主为广告所提供的描述文本、广告的竞价、投放时间、投放区域、和/或广告本身的内容特征。进一步,该方法还包括,在所述步骤B中,所述共同的特征空间为通过使得在多个预测问题上的结构风险最小化而得到的多个预测问题中共有的低维映射特征空间。进一步,该方法还包括,在所述步骤C中,所述分类结果包括所述广告样本信息中的每个广告样本被分到各个类别中的概率。进一步,该方法还包括,在所述步骤D中,与广告样本相关联的网页样本信息包括展示过和/或正在展示该广告样本的网页、或者该广告样本被点击时所处的网页。进一步,该方法还包括,步骤D中,针对各广告样本信息,依据与广告样本相关联的网页样本的出度或入度来修正该广告样本的分类概率。进一步,该方法还包括,在所述步骤D中,所述对所述分类结果进行修正具体包括Cij(i = 1,...,n,j = 1,...,m)为步骤C中得到的第i个广告样本被分为第j个类别 j的概率,Vi = Ivil,. . .,VikI为与第i个广告样本相关联的网页样本集合,通过如下表达式来修正分类概率Pu k cP11 = (1 -oc)c Α ,、ι= Uutdegree(Vy)其中Out deg ree (Vij)为节点Vij的出度,α为预设权值,0 < α < 1。进一步,该方法还包括,在所述步骤E中,所述更新训练集具体包括针对每个广告类别,选择预测概率最大的预定数量的分类样本加入相应类别的训练集;或者,将分类概率大于预设值的分类样本加入相应类别的训练集。进一步,该方法还包括,按预定迭代次数重复步骤C至Ε,将迭代结束后得到的分类结果作为最终分类结果。进一步,该方法还包括,第一次训练分类器时,训练集由网页样本信息和/或少量的标注过的广告样本信息构成。本专利技术还提供一种基于网页类别特征的广告分类装置,其特征在于,包括以下单元提取单元,用于从网页样本信息中提取网页特征信息,以及从广告样本信息中提取广告特征信息;映射单元,用于利用迁移学习方法将所述网页特征信息和广告特征信息映射到共同的特征空间,以得到映射到共同的特征空间的网页样本信息和广告样本信息;训练单元,用于基于映射到共同的特征空间后的网页样本信息和当前的训练集来训练分类器,根据训练后的分类器对广告样本信息进行分类以获得分类结果;修正单元,用于根据所述广告样本信息的历史投放和点击数据构建网页与广告之间的链接网络,使所述分类结果沿所述链接网络进行传播,以获得修正后的分类结果;更新单元,用于根据修正后的分类结果更新训练集。进一步,该装置还包括,所述修正单元针对各广告样本信息,依据与广告样本相关联的网页样本的出度或入度来修正该广告样本的分类概率。进一步,该装置还包括,所述更新单元针对每个广告类别,选择预测概率最大的预5定数量的分类样本加入相应类别的训练集;或者,将分类概率大于预设值的分类样本加入相应类别的训练集。进一步,该装置还包括,在所述广告分类装置中将所述更新单元更新后的训练集返回给所述训练单元,通过所述训练单元和所述修正单元重新获得修正后的分类结果,所述更新单元针对所述重新获得的修正后的分类结果重新更新所述训练集,在所述训练单元、所述修正单元和所述更新单元中按预定迭代次数重复上述操作,将迭代结束后得到的分类结果作为最终分类结果。进一步,该装置还包括,所述训练单元第一次训练分类器时,训练集由网页样本信息和/或少量的标注过的广告样本信息构成。与现有技术相比,本专利技术具有以下优点(1)能够充分利用已有的标注数据,避免大量重复性劳动;(2)利用广告的历史投放和点击数据对分类效果的修正能够比较充分考虑广告与其所投放页面之间的语义关联;(3)通过迭代过程可使分类结果更加准确。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其它优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例共同用于解释本专利技术,并不构成对本专利技术的限制。在附图中图1是为根据本专利技术实施例一的基于网页特征的广告分类方法的流程图2是迁移学习方法的示意图3是获得共有映射特征空间的示意图4是根据本专利技术第二实施例的基于网页特征的广告分类装置本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:罗峰黄苏支李娜
申请(专利权)人:北京亿赞普网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术