一种自动识别分类广告类型的广告分类方法技术

技术编号:2835138 阅读:302 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种自动识别分类广告类型的广告分类方法,其特征在于,用JAVA语言编制程序,运行在计算机内,并把KNN算法引入到基于空间向量模型的线性分析器,以便一次性的对关键词相似的广告进行自动分类,本发明专利技术的优点是能够根据用户提交的广告标题和内容自动判断广告的类型,并提高分类准确率。

【技术实现步骤摘要】

本专利技术涉及,使用本方法后,用户办理广告时可以不需要选择分类广告的类型,属于广告分类方法

技术介绍
分类广告是近几年才发展起来的新型广告,对于分类广告中产生的一些问题并没有很及时的解决,在分类广告的办理中,很多还是沿用了传统的工商广告的办理方法,但是由于广告类型的不同,传统的方法已经不再适用。在分类广告的办理中,最突出的问题就是广告的类型选择。分类广告的类型比较多,更新比较快,用户在办理广告时不一定能清楚了解自己办理的广告属于哪一种类型,在这种情况下,如果选择错误的分类,会导致广告的效力,减弱甚至广告失效。 目前的广告分类还是主要依靠人工来判别,如图1所示,为人工分类方法流程结构示意图,用户在客户端办理分类广告时,需要根据自己的经验来判断要办理的广告属于哪一种类型,然后再录入广告的标题和内容,最后提交到数据库中。例如用户办理一则广告的内容为“写字楼出租”,根据经验来判断,这则广告属于房屋租赁这个类型。 这种凭借主观判断的分类方法对于广告类型不多,使用的广告类型较常见的时候不易发生错误,例如常用的广告类型有招聘求职、房屋租赁等等。今后,分类广告的类型将会越来越多,广告的分类会越来越细,届时人工判断的准确率就会降低。
技术实现思路
本专利技术的目的是专利技术一种能够根据用户提交的广告标题和内容自动判断广告的类型,并提高分类准确率的自动识别分类广告类型的广告分类方法。 为实现以上目的,本专利技术的技术方案是提供,其特征在于,用JAVA语言编制程序,使用mysql作为数据库,运行在计算机内,并把KNN算法引入到基于空间向量模型的线性分类器,以便一次性的对关键词相似的广告进行自动分类,该分类方法在计算机内执行时依次含有以下步骤 一、在学习阶段 步骤1输入广告类型集;建立广告类型数据库,将每一种广告类型添加到数据库中,建成原始的广告类型集;广告类型数据库中建立两张数据表,一张表为广告类型表,一张为关键词表。 步骤2确定采用的属性单位以及线性分类器类型,本方法中采用的分类器为基于改进空间向量模型的线性分类器; 步骤3对广告类型集进行预处理,预处理包括中文语句的切分或者英文的stemming操作、同义词合并等; 步骤4属性抽取对广告类型集进行索引,得到原始属性集以及各广告类型的频度向量,广告类型用D表示,属性频度用t表示,指出现在广告类型中且能够代表该类型的基本语言单位,主要是由词或者短语构成,广告类型可以用属性频度的集合表示为D(T1,T2,…,Tn),其中Tk是属性频度,1<=k<=N; 步骤5对原始属性集采用现有降维操作,即频度、权重,得到属性集,降维最基本的思想,就是利用迭代的方法,在降维空间中定位特征向量,使得它们之间的距离和相异性被尽可能多地保留下来,为了达到这个目的,在迭代中需要不断减小下面的平方误差度量 p=∑2,式中, xi,xj是任意的不同样本对(i≠j),d(xi,xj)是xi和xj之间的原始的相异程度,d*(xi,xj)是低维空间中转换后的相异程度,f是一个单调变换函数; 步骤6以类型为单位,合并各广告的频度向量,得到类型的轮廓描述频度向量; 步骤7对含有n个属性值的广告类型而言,通常会给每个属性赋予一定的权重表示其重要程度,即D=D(T1,W1;T2,W2;…,Tn,Wn),简记为D=D(W1,W2,…,Wn),为广告类型D的向量表示,其中Wk是Tk的权重,1<=k<=N,权重的计算方法使用特征频度-逆文档频度(TF*IDF)权重计算方法,TF*IDF方法使用词汇的出现频率来近似代表其重要程度,公式为 其中Wij表示词汇Term i在广告Document j的权重,Tf(tj,dj)表示i在j中出现的频率,df(ti)表示含有词汇i的广告的出现次数。M是所有广告的数目; 步骤8在向量空间模型中,两个概念D1和D2之间的内容相关度Sim(D1,D2)使用向量之间夹角的余弦值表示,公式为 步骤9根据下式,构建相应的线性分类器 其中 表示概念 是否属于分类cj, 取值为0或1,表示概念 是否属于分类cj, 表示测试概念 和周围概念 的相似程度,使用步骤8提到的空间向量模型相似公式来表示,bj是分类的阀值,需要通过反复的调试才能得到较好的值; 步骤10用一部分测试类型作为待分类类型,按照分类阶段的步骤对上一步骤得到的分类器进行测试,优化分类器的性能; 学习阶段结束; 二、在分类阶段 步骤1输入待分类广告类型(集);保存到查询数据库中; 步骤2按学习阶段相同的方法对待分类广告进行预处理; 步骤3根据学习阶段建立的属性集为待分类广告建立索引,得到广告类型权重向量,见学习阶段步骤7; 步骤4计算待分类广告的权重向量; 步骤5按分类器进行自动分类,见学习阶段步骤9得到分类结果; 分类阶段结束。 在广告类型中,不同类型之间分为两种情况。第一种情况是两种类型相距很远,即很不相似。在这两类类型中,它们使用的关键词完全不同,例如,房屋租赁和教育培训类。要预测一则广告属于其中哪一类,只需要检查它主要使用哪一类的属性集就可以了。这可以采用KNN算法来实现;第二种情况是类型之间很相似,甚至使用完全相同的属性集来描述主题内容,这时仅仅使用KNN算法就不能将这些类型区别开来,而需要测量各个属性更趋向于描述哪一广告类型,然后综合起来再预测广告所属的类型。在广告分类中,大部分广告属于第一种情况,最难的是第二种情况。 构造的统计量在描述统计数据的某方面统计特性时是存在误差的,只有当数据量趋于无穷大时才以概率1趋于所描述的统计特性。当数据量比较小,甚至数据稀疏时,统计量与真实值之间误差是很大的,要描述所有自然语言表示的广告内容,潜在的属性集会非常大,而用于机器学习的已知广告集(学习集)则相对较小。在相距较远的类型之间,由于它们使用的属性集很分散,会造成大量的稀疏数据。因此,在这种情况下得到的统计量是不可靠的,而且统计量越复杂,误差越大。在相近的类型之间,由于使用的属性相对集中,数据量能够达到一定规模。在这些类型之间得到的统计量具有较高的可靠性。本专利技术的核心思想来源于文本分类方法。文本分类解决的问题是如何使用户尽快找到想要的信息,如何对这些海量电子信息进行有效的组织和维护。文本分类的方法有很多种,例如基于概率模型的贝叶斯分类器,基于规则的决策树/决策规则分类器,基于人类分类经验的K最近邻分类器,基于类描述的线性分类器,基于最优超平面的支持向量机,通过对多个分类方法进行组合的分类器委员会等。根据文本分类方法,本专利技术提出了将KNN最近邻算法引入到改进空间向量的线性分类器中,结合成为一种新的分类器。在线性分类器,空间向量模型通过将广告内容描述为由各属性,即词,字,字串等为元素的向量,计算机可以使用向量运算来对广告内容进行操作,例如计算向量的长度,度量广告之间的相似度等。准确有效地对大部分相距很远的广告类型的自动分类。通过采用“基于KNN算法的改进空间向量模型分类器”,克服了基于空间向量模型的线性分类器中存在的现有问题,本文档来自技高网...

【技术保护点】
一种自动识别分类广告类型的广告分类方法,其特征在于,用JAVA语言编制程序,运行在计算机内,并把KNN算法引入到基于空间向量模型的线性分析器,以便一次性的对关键词相似的广告进行自动分类,该分类方法在计算机内执行时依次含有以下步骤:一、在学习阶段:步骤1:输入广告类型集;步骤2:确定采用的属性单位以及线性分类器类型;步骤3:对广告类型集进行预处理;步骤4:属性抽取:对广告类型集进行索引,得到原始属性集以及各广告类型的频度向量,广告类型用D表示,属性频度用t表示,是指出现在广告类型中且能够代表该类型的基本语言单位,主要是由词或者短语构成,广告类型可以用属性频度的集合表示为D(T1,T2,…,Tn),其中Tk是属性频度,1<=k<=N;步骤5:对原始属性集进行采用现有降维操作,即频度、权重,得到属性集,降维最基本的思想,就是利用迭代的方法,在降维空间中定位特征向量,使得它们之间的距离和相异性被尽可能多的保留下来,为了达到这个目的,在迭代中需要不断减小下面的平方误差度量:p=∑[d↑[*](x↓[i],x↓[j])-f(d(x↓[i],x↓[j]))]↑[2],式中,x↓[i],x↓[j]是任意的不同样本对(i≠j),d(x↓[i],x↓[j])是x↓[i]和x↓[j]之间的原始的相异程度,d↑[*](x↓[i],x↓[j])是低维空间中转换后的相异程度,f是一个单调变换函数;步骤6:以类型为单位,合并各广告的频度向量,得到类型的轮廓描述频度向量;步骤7:对含有n个属性值的广告类型而言,通常会给每个属性赋予一定的权重表示其重要程度,即D=D(T1,W1;T2,W2;…,Tn,Wn),简记为D=D(W1,W2,…,Wn),为广告类型D的向量表示,其中Wk是Tk的权重,1<=k<=N,权重的计算方法使用特征频度-逆文档频度(TF*IDF)权重计算方法,TF*IDF方法使用词汇的出现频率来近似代表其重要程度,公式为W↓[ij]=tf(t↓[i],d↓[j])×logm/df(t↓[i]),其中Wij表示词汇Termi在广告Documentj的权重,Tf(tj,dj)表示i在j中出现的频率,df(t↓[i])表示含有词汇i的广告的出现次数。M是所有广告的数目;步骤8:在向量空间模型中,两个概念D1和D2之间的内容相关度Sim(D1,D2)使用向量之间夹角的余弦值表示,公式为:Sim(D↓[1],D↓[2])=cosθ=***步...

【技术特征摘要】

【专利技术属性】
技术研发人员:陈壮坚徐丽
申请(专利权)人:上海唯客网广告传播有限公司
类型:发明
国别省市:31[中国|上海]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1