一种基于网页特征的广告分类方法及装置制造方法及图纸

技术编号：7445832 阅读：182 留言：0更新日期：2012-06-20 09:39

本发明专利技术公开了一种基于网页特征的广告分类方法和系统，该方法包括以下步骤：从网页样本信息中提取网页特征信息，以及从广告样本信息中提取广告特征信息；利用迁移学习方法将网页特征信息和广告特征信息映射到共同的特征空间，以得到映射到共同的特征空间的网页样本信息和广告样本信息；基于映射到共同的特征空间后的网页样本信息和当前的训练集来训练分类器，根据训练后的分类器对广告样本信息进行分类以获得分类结果；根据广告样本信息的历史投放和点击数据构建网页与广告之间的链接网络，使分类结果沿所述链接网络进行传播，以获得修正后的分类结果；根据修正后的分类结果更新训练集。本发明专利技术能够充分利用已有的标注数据，避免大量重复性劳动。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网页分类、广告分类、迁移学习等领域，具体涉及利用网页分类数据对广告进行自动分类。
技术介绍
网络分类广告是充分利用计算机网络的优势，对大规模的生活实用信息，按主题进行科学分类，并提供快速检索的一种广告形式。近来，网络分类广告已成为一种新的网络广告形式，其通过采用广告分类技术来为满足企事业单位和个人商户在互联网上发布各类产品和服务广告的需求，并为广大网民提供实用、丰富、真实的消费和商务信息资源。与传统媒体分类广告相比，网络分类广告容量大，表现形式多样化、立体化，可查询、收藏信息。目前已有广告分类技术主要分为两类，一类是利用传统的文本分类方法；另一类是针对广告领域标注数据少的特点采用迁移学习的方法。传统文本分类方法通过对广告样本手工标注得到训练集，利用机器学习分类模型进行训练，从而得到广告分类器；迁移学习方法在网页等标注样本比较充足而广告的标注样本获取比较困难的情况下，将网页样本的特征空间向广告域空间或公共空间进行映射，在映射后特征空间上训练分类器，从而可以利用网页的标注样本对广告样本进行分类。传统文本分类方法需要大量的广告标注样本，从而消耗大量的人力物力，且无法充分利用已标注过的丰富网页样本。迁移学习的方法可以比较好的利用现有网页样本资源，但往往忽视了网页之间的关联及网页与广告之间的关联。传统的广告分类技术中，广告相关的描述通常比较短，相关关键词数目也比较少，导致其特征描述不充分，不利于广告的自动分类。同时，对广告的类别标注数据非常少，训练数据严重不足。目前还没有一种能够克服传统技术中不足的广告分类的技术。
技术实现思路
为克服现有技术中的不...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：罗峰，黄苏支，李娜，
申请(专利权)人：北京亿赞普网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人