广告主的分类方法及系统技术方案

技术编号:19344950 阅读:74 留言:0更新日期:2018-11-07 14:55
本发明专利技术涉及数据分类领域,具体涉及广告主的分类方法及系统,所述方法包括:将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;构建不同类别的卷积核,针对每一个待分类的广告主,执行如下操作:对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。本发明专利技术提升了分类的效率和准确率。解决了社交网络中广告主分类的问题。

Classification method and system of advertisers

The invention relates to the field of data classification, in particular to the classification method and system of advertisers. The method includes: representing each web page data published by advertisers to be classified as corresponding numerical matrix; constructing convolution kernels of different categories, and performing the following operations for each advertiser to be classified: The numerical matrix of each web page data published by the advertiser is used to extract features and get the feature matrices of each web page data; the feature matrices of each web page data are classified to get the predictive categories of each web page data; and the predictive categories of the current advertiser's web page data are voted to get the current advertiser. Category. The invention improves the efficiency and accuracy of classification. It solves the problem of classifying advertisers in social networks.

【技术实现步骤摘要】
广告主的分类方法及系统
本专利技术涉及数据分类领域,具体涉及广告主的分类方法及系统。
技术介绍
随着社交网络的应用广泛,更多广告主会选择将广告投放在社交网络中。对于广告主进行类分,能够更好的帮助网站对各广告主进行分析,从而对网站的经营分析提供帮助。通过大量数据分析发现,广告主在社交网络上发布的内容(实质上属于广告)比较单一,只有极少数会发布三种以上的内容,并且大量发布的内容都属于一个类别,因此,通过广告主发布的内容作为参考对广告主进行分类的方案是非常合理的。广告主一般在社交网络上发布的属于本文内容。短文本分类是一种常见的自然语言处理方法的应用。它是指在一定的分类体系下,根据文本的内容自动地将其归入某个类别。系统的输入是需要进行分类处理的大量文本,系统的输出是与文本关联的类别。从数学角度来看,文本分类本质是一个映射过程,它将未标明类别的文本映射到分类体系下已有的类别中。文本分类工作的研究在国外起始较早,早在20世纪60代,美国IBM公司提出把统计用于自动分类的思想。国内对于自动文本分类的工作则始于20实际80代初期。如今,中文分类技术已经趋于成熟。但是现有的分类方法在建模的过程中使用的函数简单,这也导致在有限的样本和计算单元的条件下导致其对复杂函数的表达能力受到限制。同时,算法需要利用监督学习或半监督学习来进行抽取特征,这需要大量的人力。特征提取结果的好坏也直接影响文本分类结果的好坏。因此,现有技术中的文本分类方法并不适用于社交网络中广告主的分类。
技术实现思路
本专利技术要解决的技术问题在于,克服现有的技术的不足,提供广告主的分类方法及系统,准确的对广告主进行分类,解决社交网络中广告主的分类问题。为达到上述技术目的,一方面,本专利技术提供的广告主的分类方法,包括:将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;构建不同类别的卷积核,针对每一个待分类的广告主,执行如下操作:对当前广告主发布的当前每条网页数据的数值矩阵进行特征提取,得到当前每条网页数据的各特征矩阵;将当前每条网页数据的各特征矩阵进行分类,得到当前每条网页数据的预测类别;对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。另一方面,本专利技术提供的广告主的分类系统,包括:转换单元,用于将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;卷积单元,用于构建不同类别的卷积核;提取单元,用于对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;预测单元,用于将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;投票单元,用于对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。在本专利技术中,通过将广告主发布的内容,即网页数据转换为矩阵的形式进行分析,然后在配合卷积计算,可以精确的对网页数据进行分类;从而推出广告主的类别。本专利技术提升了分类的效率和准确率。解决了社交网络中广告主分类的问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本专利技术实施例的方法流程示意图;图2为本专利技术实施例的另一种方法流程示意图;图3为本专利技术实施例的系统一种结构示意图;图4为本专利技术实施例的系统另一种结构示意图;图5为本专利技术实施例中转换单元的结构示意图;图6为本专利技术实施例中提取单元的结构示意图;图7为本专利技术实施例中随机矩阵的示意图;图8为本专利技术实施例中特征提取的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,作为一种实施例,本专利技术所述的广告主的分类方法,包括:101、将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;102、构建不同类别的卷积核,针对每一个待分类的广告主,执行如下操作:103、对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;104、将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;105、对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。如图2所示,作为另一种实施例,本专利技术所述的广告主的分类方法,包括:201、获取待分类的各广告主发布的每条原始网页数据;202、对各广告主发布的每条原始网页数据进行预处理,得到各广告主发布的每条网页数据;203、将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;204、构建不同类别的卷积核,针对每一个待分类的广告主,执行如下操作:205、对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;206、将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;207、对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。进一步地,所述将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵,具体包括:构建一个随机矩阵;在语料库中的任一单词都可被随机矩阵的某个子块唯一表示;针对每一个待分类的广告主发布的每条网页数据,执行如下操作:对当前广告主发布的当前网页数据进行分词,得到当前网页数据对应的至少一个单词;基于随机矩阵,分别查找到当前网页数据对应的每个单词对应的子块;将当前网页数据对应的每个单词对应的子块组合成一个二维矩阵;所述二维矩阵为当前广告主发布的当前网页数据的数值矩阵。更进一步地,所述对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵,具体包括:针对每条网页数据,执行如下操作:对当前广告主发布的当前网页数据的数值矩阵,分别将每个卷积核与该数值矩阵进行卷积计算,得到各卷积核下的该数值矩阵的各卷积;针对同一卷积核下的该数值矩阵的各卷积,分别进行偏置计算,得到同一卷积核下的该数值矩阵的各偏置;对同一卷积核下的该数值矩阵的各偏置分别运用激活函数,得到同一卷积核下的该数值矩阵的各原始特征向量;将同一卷积核下的该数值矩阵的各原始特征向量堆积后进行最大池化,得到对应当前网页数据的各特征矩阵。再进一步地,所述将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别,具体包括:通过softmax回归模型对每条网页数据的各特征矩阵进行分类,得到当前广告主发布的每条网页数据的预测类别。如图3所示,作为一种可能结构,广告主的分类系统,包括:转换单元11,用于将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;卷积单元12,用于构建不同类别的卷积核;提取单元13,用于对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;预测单元14,用于将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;投票单元15,用于对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。在本专利技术所述的广告主的分类系统中,提取本文档来自技高网...

【技术保护点】
1.一种广告主的分类方法,其特征在于,所述方法包括:将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;构建不同类别的卷积核,针对每一个待分类的广告主,执行如下操作:对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。

【技术特征摘要】
1.一种广告主的分类方法,其特征在于,所述方法包括:将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;构建不同类别的卷积核,针对每一个待分类的广告主,执行如下操作:对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。2.根据权利要求1所述的广告主的分类方法,其特征在于,所述将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵,之前还包括:获取待分类的各广告主发布的每条原始网页数据;对各广告主发布的每条原始网页数据进行预处理,得到各广告主发布的每条网页数据。3.根据权利要求1所述的广告主的分类方法,其特征在于,所述将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵,具体包括:构建一个随机矩阵;在语料库中的任一单词都可被随机矩阵的某个子块唯一表示;针对每一个待分类的广告主发布的每条网页数据,执行如下操作:对当前广告主发布的当前网页数据进行分词,得到当前网页数据对应的至少一个单词;基于随机矩阵,分别查找到当前网页数据对应的每个单词对应的子块;将当前网页数据对应的每个单词对应的子块组合成一个二维矩阵;所述二维矩阵为当前广告主发布的当前网页数据的数值矩阵。4.根据权利要求1所述的广告主的分类方法,其特征在于,所述对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵,具体包括:针对每条网页数据,执行如下操作:对当前广告主发布的当前网页数据的数值矩阵,分别将每个卷积核与该数值矩阵进行卷积计算,得到各卷积核下的该数值矩阵的各卷积;针对同一卷积核下的该数值矩阵的各卷积,分别进行偏置计算,得到同一卷积核下的该数值矩阵的各偏置;对同一卷积核下的该数值矩阵的各偏置分别运用激活函数,得到同一卷积核下的该数值矩阵的各原始特征向量;将同一卷积核下的该数值矩阵的各原始特征向量堆积后进行最大池化,得到对应当前网页数据的各特征矩阵。5.根据权利要求1所述的广告主的分类方法,其特征在于,所述将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别,具体包括:通过softmax回归模型对每...

【专利技术属性】
技术研发人员:乔方杰吴文伟何爱龙
申请(专利权)人:微梦创科网络科技中国有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1