本申请提供了一种关键词的扩充方法及装置,其中的方法具体包括:获取网页样本及对应的关键词;依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别;对分类前后的网页样本进行统计,得到所有网页样本中每个关键词的信息增益;选取信息增益最大的若干关键词作为扩充得到的范畴内关键词。本申请能够针对某一特定范畴进行关键词的扩充,得到具有确定性的扩充结果。
【技术实现步骤摘要】
【专利摘要】本申请提供了一种关键词的扩充方法及装置,其中的方法具体包括:获取网页样本及对应的关键词;依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别;对分类前后的网页样本进行统计,得到所有网页样本中每个关键词的信息增益;选取信息增益最大的若干关键词作为扩充得到的范畴内关键词。本申请能够针对某一特定范畴进行关键词的扩充,得到具有确定性的扩充结果。【专利说明】—种关键词的扩充方法及装置
本申请涉及互联网
,特别是涉及一种关键词的扩充方法及装置。
技术介绍
目前,随着互联网技术的发展,关键词技术在互联网领域的应用也变得愈加广泛,例如其可以应用于互联网营销、搜索引擎的优化排名等各种互联网领域。以应用于互联网营销领域为例,如果能找到某一范畴内的关键词,就能在互联网上锁定对该范畴感兴趣的用户,从而可以针对锁定的用户进行精准营销。而关键词的扩充就是用于找到某一范畴内的关键词。例如,广告公司需要将某皮肤病的广告投放给互联网上特定的用户,为了锁定欲投放的特定用户,需要针对“皮肤病”这一范畴进行关键词的扩充,例如,扩充结果具体可以包括:“溢脂性皮炎、疥疮、脚气、手足癣”等关键词,当有用户在搜索引擎上搜索这些关键词时,可以认定该用户对“皮肤病”感兴趣,于是可以针对该用户投放上述皮肤病的广告。现有关键词的扩充方法主要包括主题模型算法、simrank算法等。其中,主题模型的本质是一种基于文本概率建立的模型,给该模型一堆文档,并指定一个参数K,该模型会输出K组词,其中每组内的词为相似的、用于描述相同事物的词语,K越大,每一组词的数量就越大;Simrank算法输出的结果包括一个词和一组跟该词相关的词。然而,主题模型算法、simrank算法均是无监督机器学习算法,其无法给出某组词所属的类别,因此不能针对某一特定范畴进行关键词的扩充,也即其扩充结果具有不确定性。
技术实现思路
本申请所要解决的技术问题是提供一种关键词的扩充方法及装置,能够针对某一特定范畴进行关键词的扩充,得到具有确定性的扩充结果。为了解决上述问题,本申请公开了一种关键词的扩充方法,包括:获取网页样本及对应的关键词;依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别;对分类前后的网页样本进行统计,得到所有网页样本中每个关键词的信息增益;选取信息增益最大的若干关键词作为扩充得到的范畴内关键词。优选的,所述对分类前后的网页样本进行统计,得到所有网页样本中每个关键词的信息增益的步骤,包括:分别统计所有网页样本、范畴类别网页样本、每个关键词对应所有网页样本和每个关键词对应范畴类别网页样本的数目;依据所述所有网页样本、范畴类别网页样本、每个关键词对应所有网页样本和每个关键词对应范畴类别网页样本的数目,分别计算每个关键词在分类前后的信息熵;以每个关键词在分类前后的信息熵的差值作为所述每个关键词的信息增益。优选的,所述选取信息增益最大的若干关键词作为扩充得到的范畴内关键词的步骤,包括:依据信息增益对所有关键词进行排序,并依据排序结果选取信息增益最大的若干关键词作为扩充得到的范畴内关键词。优选的,所述依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别的步骤,包括:针对某网页样本,判断所述范畴内已知关键词在该网页样本的关键词中的出现次数是否达到预设次数,若是则将该网页样本分类为范畴类别,否则将该网页样本分类为非范畴类别;或者针对某网页样本,判断所述范畴内已知关键词在该网页样本的关键词中的出现次数相对于该网页样本所有关键词的数目的比例是否达到预设比例,若是则将该网页样本分类为范畴类别,否则将该网页样本分类为非范畴类别。优选的,所述获取网页样本及对应的关键词的步骤,包括:通过网页爬虫在互联网上抓取网页和网页内容,对网页内容进行分析并依据分析结果提取相应的关键词;和/或从运营商的流量中提取搜索结果跳转网页及对应的关键词;和/或从搜索引擎服务器记录的搜索行为数据中提取搜索结果跳转网页及对应的关键 词。优选的,所述方法还包括:返回执行所述依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别的步骤;所述依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别的步骤为,依据本次扩充前的范畴内已知关键词和本次扩充得到的范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别。另一方面,本申请还公开了一种关键词的扩充装置,包括:获取模块,用于获取网页样本及对应的关键词;分类模块,用于依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别;统计模块,用于对分类前后的网页样本进行统计,得到所有网页样本中每个关键词的信息增益 '及选取模块,用于选取信息增益最大的若干关键词作为扩充得到的范畴内关键词。优选的,所述统计模块包括:数目统计子模块,用于分别统计所有网页样本、范畴类别网页样本、每个关键词对应所有网页样本和每个关键词对应范畴类别网页样本的数目;信息熵计算子模块,用于依据所述所有网页样本、范畴类别网页样本、每个关键词对应所有网页样本和每个关键词对应范畴类别网页样本的数目,分别计算每个关键词在分类前后的信息熵;及差值计算子模块,用于以每个关键词在分类前后的信息熵的差值作为所述每个关键词的信息增益。优选的,所述选取模块,具体用于依据信息增益对所有关键词进行排序,并依据排序结果选取信息增益最大的若干关键词作为扩充得到的范畴内关键词。优选的,所述分类模块包括:第一分类子模块,用于针对某网页样本,判断所述范畴内已知关键词在该网页样本的关键词中的出现次数是否达到预设次数,若是则将该网页样本分类为范畴类别,否则将该网页样本分类为非范畴类别;或者第二分类子模块,用于针对某网页样本,判断所述范畴内已知关键词在该网页样本的关键词中的出现次数相对于该网页样本所有关键词的数目的比例是否达到预设比例,若是则将该网页样本分类为范畴类别,否则将该网页样本分类为非范畴类别。与现有技术相比,本申请具有以下优点:本申请依据范畴内已知关键词在所述网页样本的关键词中的出现频率,将所述网页样本分类为范畴类别或者非范畴类别,对分类前后的网页样本进行统计,得到所有网页样本中每个关键词的信息增益,并选取信息增益最大的若干关键词作为扩充得到的范畴内关键词;一方面,由于依据范畴内已知关键词进行关键词的扩充,相当于引导计算机针对该范畴进行扩词,故能够得到具有确定性的扩充结果;另一方面,关键词的信息增益可用于衡量关键词分类能力的强弱,本申请选取的信息增益最大的若干关键词为网页中分类能力最强的关键词,而本申请实施例中,网页分类的目的是将网页分类为范畴类别或非范畴类别,因此,网页中分类能力最强的关键词也即为与范畴相关度最闻的关键词;总之,本申请能够针对特定范畴,从众多网页样本中选取出与该特定范畴相关度最高的关键词,相对于现有技术,能够针对某一特定范畴进行关键词的扩充,得到更具有确定性的扩充结果。【专利附图】【附图说明】图1是本本文档来自技高网...
【技术保护点】
【技术特征摘要】
【专利技术属性】
技术研发人员:李鹏,罗峰,黄苏支,李娜,
申请(专利权)人:亿赞普北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。