一种标的词分类分级方法及系统技术方案

技术编号:5257121 阅读:306 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例提供了一种标的词分类分级方法及系统。该方法包括步骤:a.获取含标的词分类分级的机器模型;b.对新标的词进行特征提取;以及c.根据所提取的新标的词的特征,应用机器模型进行计算,确定新标的词的分类分级。本发明专利技术实施例通过对已有的检索关键词和广告拍卖词进行分类分级统计,建立机器模型,从而对新的关键词或拍卖词进行机器自动识别、分析与评价,实现了一套标的词分类分级方法及系统。

【技术实现步骤摘要】
一种标的词分类分级方法及系统
本专利技术涉及一种标的词分类分级方法及系统,特别涉及一种诸如关键词和/或广 告词的分类分级方法及系统。
技术介绍
在网络世界和现实社会的各个角落,广告的普及率和重要性与日俱增。由此产生 了许多的广告词,在网络上也同时出现有检索词、关键词或拍卖词等类似的标的词。然而, 对于新出现的广告词,一般只能凭借人力进行主观的判断其是否有正面效果、能达到哪个 层次的效果。但对于一些经验不足的人来说,很容易做出错误的判断。而且人工的方式很 难做到大规模判断,同时,主观判断的一致性也难以得到保证。如何通过计算机系统对检索 词和广告词进行自动化的分类分级是信息社会需要解决的一个技术问题。
技术实现思路
本专利技术实施例提供了一种标的词分类分级方法及系统,能够使用此方法及系统对 新的标的词进行分类分级,进一步能够实现对标的词价值的预估。本专利技术实施例提供了一种标的词分类分级方法,该方法包括步骤a.获取含标的 词分类分级的机器模型;b.对新标的词进行特征提取;以及C.根据所提取的新标的词的特 征,应用机器模型进行计算,确定新标的词的分类分级。跟据本专利技术一优选实施例,计算的方法为将新标的词的特征根据机器模型训练好 的特征参数进行正负类置信度得分计算。跟据本专利技术一优选实施例,步骤a进一步包括步骤al.获取在先标的词的样本 库;a2.对在先标的词进行正负样本分类,将在先标的词分为至少一个正样本和一个负样 本;a3.对正样本和负样本进行特征提取;a4.根据所提取的正样本和负样本的特征形成机 器模型。跟据本专利技术一优选实施例,正样本包括广告点击率高或/和广告价格高的标的 词;负样本包括广告点击率低的标的词、广告价格低的标的词或无广告展现的标的词中的 一种或几种的组合。跟据本专利技术一优选实施例,在步骤a2中,进一步包括对正样本进行分级,将在先 标的词分为多个不同等级的正样本和负样本。跟据本专利技术一优选实施例,在步骤a2中,通过读取预设的样本数据库对至少部分 的在先标的词进行正负样本的分类以及正样本的分级。跟据本专利技术一优选实施例,在步骤a4中,对正样本和负样本的特征进行机器建 模,从而形成机器模型。跟据本专利技术一优选实施例,正样本进一步根据分级等级的不同分为至少两个等级 样本。跟据本专利技术一优选实施例,等级样本包括A等样本、B等样本和C等样本,或包括A等样本、B等样本、C等样本和D等样本,或包括A等样本、B等样本、C等样本、D等样本和E 等样本;其中,A等样本的分级等级最高,其他等级样本的分级等级依次递减。跟据本专利技术一优选实施例,分级等级高低根据标的词的广告点击率或/和广告价 格的高低来判定。跟据本专利技术一优选实施例,步骤a进一步包括a5.对未在步骤a2中进行样本分 类分级的在先标的词进行特征提取;a6.根据机器模型对所获取的剩余标的词的特征进行 计算,进而进行分类分级,并将分类分级后的剩余标的词样本特征添加到机器模型。跟据本专利技术一优选实施例,在步骤a6中,对剩余标的词的特征进行计算的方法为 将剩余标的词的特征根据机器模型训练好的特征参数进行正负类置信度得分计算。 跟据本专利技术一优选实施例,其特征在于,在进行特征提取时,先进行分词。跟据本专利技术一优选实施例,分词的方法包括正向匹配分词、反向匹配分词、正向 反向匹配分词、基于全切分词图的分词、最大熵马尔科夫模型分词、最大熵分词或条件随机 场分词。本专利技术实施例进一步提供了一种标的词分类分级系统,该系统包括含标的词分 类分级的机器模型;用于对新标的词进行特征提取的特征提取模块;用于根据所提取的新 标的词的特征,应用机器模型进行计算,确定新标的词的分类分级的计算模块。跟据本专利技术一优选实施例,在计算模块中,计算的方法为将新标的词的特征根据 机器模型训练好的特征参数进行正负类置信度得分计算。跟据本专利技术一优选实施例,机器模型包括用于获取在先标的词的样本库的样本 库获取模块;用于对在先标的词进行正负样本分类,将在先标的词分为至少一个正样本及 一个负样本的样本分类分级模块;对正样本和负样本进行特征提取的第一样本特征提取模 块;根据所提取的正样本和负样本的特征形成机器模型的机器模型形成模块。跟据本专利技术一优选实施例,正样本包括广告点击率高或/和广告价格高的标的 词;负样本包括广告点击率低的标的词、广告价格低的标的词或无广告展现的标的词中的 一种或几种的组合。跟据本专利技术一优选实施例,样本分类分级模块进一步对正样本进行分级,将在先 标的词分为多个不同等级的正样本和负样本。跟据本专利技术一优选实施例,在样本分类分级模块中,通过读取预设的样本数据库 对至少部分的在先标的词进行正负样本的分类以及正样本的分级。跟据本专利技术一优选实施例,在机器模型形成模块中,对正样本和负样本的特征进 行机器建模,从而形成机器模型。跟据本专利技术一优选实施例,在样本分类分级模块中,正样本进一步根据分级等级 的不同分为至少两个等级样本。跟据本专利技术一优选实施例,等级样本包括A等样本、B等样本和C等样本,或包括A 等样本、B等样本、C等样本和D等样本,或包括A等样本、B等样本、C等样本、D等样本和E 等样本;其中,A等样本的分级等级最高,其他等级样本的分级等级依次递减。跟据本专利技术一优选实施例,分级等级高低根据标的词的广告点击率或/和广告价 格的高低来判定。跟据本专利技术一优选实施例,机器模型进一步包括用于对未在样本分类分级模块中进行样本分类分级的在先标的词中的剩余标的词进行特征提取的第二样本特征提取模 块;用于根据机器模型对所获取的剩余标的词的特征进行计算,进而进行分类分级,并将分 类分级后的剩余标的词样本特征添加到机器模型的样本计算模块。跟据本专利技术一优选实施例,在样本计算模块中,对剩余标的词的特征进行计算的 方法为将剩余标的词的特征根据机器模型训练好的特征参数进行正负类置信度得分计算。 跟据本专利技术一优选实施例,进行特征提取时,先进行分词。跟据本专利技术一优选实施例,分词的方法包括正向匹配分词、反向匹配分词、正向 反向匹配分词、基于全切分词图的分词、最大熵马尔科夫模型分词、最大熵分词或条件随机 场分词。本专利技术实施例通过对已有的检索关键词和广告拍卖词进行分类分级统计,建立机 器模型,从而对新的关键词或拍卖词进行机器自动识别、分析与评价,实现了一套标的词分 类分级方法及系统。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。此外,附图未按照比例绘制。其中图1是根据本专利技术一实施例的标的词分类分级系统的结构示意框图。图2是图1所示的机器模型的结构示意框图。图3是根据本专利技术一实施例的标的词分类分级方法的示意流程图。图4是图3所示的机器模型建立方法的示意流程图。图5是根据本专利技术另一实施例的机器模型的示意流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅是本专利技术的一部分实施例,而不是全部的实施例。基于 本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本本文档来自技高网...

【技术保护点】
一种标的词分类分级方法,其特征在于,所述标的词分类分级方法包括步骤:  a.获取含标的词分类分级的机器模型;  b.对新标的词进行特征提取;以及  c.根据所提取的所述新标的词的特征,应用所述机器模型进行计算,确定所述新标的词的分类分级。

【技术特征摘要】

【专利技术属性】
技术研发人员:田浩万伟
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1