The invention relates to the field of data classification, in particular to the classification method and system of advertisers. The method includes: representing each web page data published by advertisers to be classified as corresponding numerical matrix; constructing convolution kernels of different categories, and performing the following operations for each advertiser to be classified: The numerical matrix of each web page data published by the advertiser is used to extract features and get the feature matrices of each web page data; the feature matrices of each web page data are classified to get the predictive categories of each web page data; and the predictive categories of the current advertiser's web page data are voted to get the current advertiser. Category. The invention improves the efficiency and accuracy of classification. It solves the problem of classifying advertisers in social networks.
【技术实现步骤摘要】
广告主的分类方法及系统
本专利技术涉及数据分类领域,具体涉及广告主的分类方法及系统。
技术介绍
随着社交网络的应用广泛,更多广告主会选择将广告投放在社交网络中。对于广告主进行类分,能够更好的帮助网站对各广告主进行分析,从而对网站的经营分析提供帮助。通过大量数据分析发现,广告主在社交网络上发布的内容(实质上属于广告)比较单一,只有极少数会发布三种以上的内容,并且大量发布的内容都属于一个类别,因此,通过广告主发布的内容作为参考对广告主进行分类的方案是非常合理的。广告主一般在社交网络上发布的属于本文内容。短文本分类是一种常见的自然语言处理方法的应用。它是指在一定的分类体系下,根据文本的内容自动地将其归入某个类别。系统的输入是需要进行分类处理的大量文本,系统的输出是与文本关联的类别。从数学角度来看,文本分类本质是一个映射过程,它将未标明类别的文本映射到分类体系下已有的类别中。文本分类工作的研究在国外起始较早,早在20世纪60代,美国IBM公司提出把统计用于自动分类的思想。国内对于自动文本分类的工作则始于20实际80代初期。如今,中文分类技术已经趋于成熟。但是现有的分类方法在建模的过程中使用的函数简单,这也导致在有限的样本和计算单元的条件下导致其对复杂函数的表达能力受到限制。同时,算法需要利用监督学习或半监督学习来进行抽取特征,这需要大量的人力。特征提取结果的好坏也直接影响文本分类结果的好坏。因此,现有技术中的文本分类方法并不适用于社交网络中广告主的分类。
技术实现思路
本专利技术要解决的技术问题在于,克服现有的技术的不足,提供广告主的分类方法及系统,准确的对广告主进行 ...
【技术保护点】
1.一种广告主的分类方法,其特征在于,所述方法包括:将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;构建不同类别的卷积核,针对每一个待分类的广告主,执行如下操作:对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。
【技术特征摘要】
1.一种广告主的分类方法,其特征在于,所述方法包括:将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;构建不同类别的卷积核,针对每一个待分类的广告主,执行如下操作:对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。2.根据权利要求1所述的广告主的分类方法,其特征在于,所述将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵,之前还包括:获取待分类的各广告主发布的每条原始网页数据;对各广告主发布的每条原始网页数据进行预处理,得到各广告主发布的每条网页数据。3.根据权利要求1所述的广告主的分类方法,其特征在于,所述将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵,具体包括:构建一个随机矩阵;在语料库中的任一单词都可被随机矩阵的某个子块唯一表示;针对每一个待分类的广告主发布的每条网页数据,执行如下操作:对当前广告主发布的当前网页数据进行分词,得到当前网页数据对应的至少一个单词;基于随机矩阵,分别查找到当前网页数据对应的每个单词对应的子块;将当前网页数据对应的每个单词对应的子块组合成一个二维矩阵;所述二维矩阵为当前广告主发布的当前网页数据的数值矩阵。4.根据权利要求1所述的广告主的分类方法,其特征在于,所述对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵,具体包括:针对每条网页数据,执行如下操作:对当前广告主发布的当前网页数据的数值矩阵,分别将每个卷积核与该数值矩阵进行卷积计算,得到各卷积核下的该数值矩阵的各卷积;针对同一卷积核下的该数值矩阵的各卷积,分别进行偏置计算,得到同一卷积核下的该数值矩阵的各偏置;对同一卷积核下的该数值矩阵的各偏置分别运用激活函数,得到同一卷积核下的该数值矩阵的各原始特征向量;将同一卷积核下的该数值矩阵的各原始特征向量堆积后进行最大池化,得到对应当前网页数据的各特征矩阵。5.根据权利要求1所述的广告主的分类方法,其特征在于,所述将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别,具体包括:通过softmax回归模型对每...
【专利技术属性】
技术研发人员:乔方杰,吴文伟,何爱龙,
申请(专利权)人:微梦创科网络科技中国有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。