【技术实现步骤摘要】
本专利技术涉及搜索技术,特别是指根据用户的浏览行为捕捉用户的搜索意 图,预测目标网页的标引关键词的方法,以及推荐在线广告的方法和装置。
技术介绍
随着网络与通信技术的迅速发展,Web信息爆炸性的增长,已经成为一 个巨大的海量信息空间。如何快速、准确、方便的从如此庞大的信息库中获 取自己需要的信息,是互联网用户面临的一个重要问题。互联网的媒体特性 促使在线广告(Online Advertisement)的诞生和发展,在线广告的形式已祐: 许多企业接受和采纳,而且取得较好的广告效果。如何快速、准确、方便的 从在线广告中获取自己需要的在线广告,同样也是在线广告所面临的一个重 要问题。Web搜索引擎能为用户提供一种查找所需资源的服务,越来越多的搜索 引擎对人们获取网络资源提供了很大的方便。目前搜索引擎是根据网页的静 态内容,按照用户输入的一个或多个搜索关键字进行搜索并返回搜索结果。 因此,按照目前的搜索技术,无法正确预测用户的搜索意图,更不能为用户 推荐符合用户搜索意图的网页和在线广告。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种提取网页的标引关键词的方 法,提取出指定网页的标引关键词。本专利技术的另一主要目的在于,提供一种预测目标网页的标引关键词的方 法,根据用户的浏览行为预测用户的搜索意图。本专利技术的另 一主要目的在于提供一种推荐在线广告的方法,根据用户的浏览行为向用户推荐符合用户搜索意图的在线广告。本专利技术的另 一主要目的在于提供一种推荐在线广告的装置,根据用户的 浏览行为向用户推荐符合用户搜索意图的在线广告。为了达到上述目的,本专利技术提供 ...
【技术保护点】
一种提取网页的标引关键词的方法,其特征在于,该方法包括:获取训练数据集,所述训练数据集包括多个样本网页以及相应样本网页的标引关键词;获取所述样本网页的标引关键词的网页特征向量,对该标引关键词的网页特征向量进行分类得到所属的类别,并根据所述训练数据集中样本网页的标引关键词的网页特征向量和所属的类别训练决策树;利用训练得到的决策树,生成标引关键词的过滤器,所述过滤器包括标引关键词的网页特征向量的判定条件;获取网页的部分或所有字/词,获取所述部分或所有字/词的网页特征向量,并选择网页特征向量符合所述过滤器中判定条件的字/词,从所选择的字/词中提取网页的标引关键词。
【技术特征摘要】
1、一种提取网页的标引关键词的方法,其特征在于,该方法包括获取训练数据集,所述训练数据集包括多个样本网页以及相应样本网页的标引关键词;获取所述样本网页的标引关键词的网页特征向量,对该标引关键词的网页特征向量进行分类得到所属的类别,并根据所述训练数据集中样本网页的标引关键词的网页特征向量和所属的类别训练决策树;利用训练得到的决策树,生成标引关键词的过滤器,所述过滤器包括标引关键词的网页特征向量的判定条件;获取网页的部分或所有字/词,获取所述部分或所有字/词的网页特征向量,并选择网页特征向量符合所述过滤器中判定条件的字/词,从所选择的字/词中提取网页的标引关键词。2、 根据权利要求1所述的方法,其特征在于, 所述标引关键词包括/个字/词,/为大于等于1的自然数; 所述获取所述样本网页的标引关键词的网页特征向量为获取所述样本网页的标引关键词中每一个字/词的网页特征向量,将该标引关键词中所有字/词的 网页特征向量列在一起得到该样本网页的标引关键词的网页特征向量;所述训练决策树为在根节点中设置标引关键词的网页特征向量中分量的 判定条件,根据分量的不同取值建立分支节点,然后在每个分支节点中设置标 S1关4建词的网页特征向量中分量的判定条件并才艮据分量的不同取值再建立下层 分支节点,直到建立叶节点为止,叶节点对应所述类别。3、 根据权利要求2所述的方法,其特征在于,所述生成标引关4建词的过滤 器的步骤包括针对具有规定类别的每一个叶节点,将从根节点到所述叶节点的判定条件 用与的关系连接在一起得到从根节点到所述叶节点的规则;对于每一个规则,将标引关4建词的相同位置的判定条件用与的关系连接在一起得到标引关键词的每一个位置的判定条件;将不同规则中标引关键词的相同位置的判定条件用或的关系组合在一 起,得到标引关键词的每一个位置的析取范式,所述标引关键词的各位置的析 取范式构成过滤器。4、 根据权利要求3所述的方法,其特征在于,所述选择网页特征向量符合所述过滤器中判定条件的字/词为对于所述网 页的部分或所有字/词,判断字/词的网页特征向量是否满足标引关4定词的每一个 位置的析取范式,如果满足,则在标引关键词的相应位置上选择该字/词;所ii/人所选择的字/词中提取网页的标引关键词为从标引关键词的各位置上所选择的字/词中分别提取字/词并按照位置顺序 排列成候选标引关键词;调用训练得到的决策树,根据^f矣选标引关键词所包含的字/词的网页特征 向量预测该候选标引关键词的类别,对于规定类别的候选标引关键词记录预测 准确度,并将预测准确度达到规定标准或最高的候选标引关键词作为该网页的 标引关键词。5、 一种预测目标网页的标引关键词的方法,其特征在于,该方法包括 获取训练数据集,所述训练数据集包括多个浏览历史样本目标网页以及相应浏览历史样本目标网页的标引关键词;获取所述浏览历史样本目标网页的标引关键词的浏览特征向量,对该标引 关键词的浏览特征向量进行分类得到所属的类别,并根据所述训练数据集中浏 览历史样本目标网页的标引关4定词的浏览特征向量和所属的类别训练决策树;利用训练得到的决策树,生成标引关4定词的过滤器,所述过滤器包括标引 关#:词的浏览特征向量的判定条件;获取浏览历史网页,获取所述浏览历史网页的部分或所有字/词,获取所述 部分或所有字/词的浏览特征向量,并选择浏览特征向量符合所述过滤器中判定 条件的字/词,从所选择的字/词中预测目标网页的标引关键词。6、 根据权利要求5所述的方法,其特征在于,所述浏览历史样本目标网页的标引关键词通过权利要求1所述的方法提取得到。7、 根据权利要求5所述的方法,其特征在于, 所述标引关键词包括/个字/词,/为大于等于1的自然数; 所述获取所述浏览历史样本目标网页的标引关键词的浏览特征向量为获取所述浏览历史样本目标网页的标引关键词中每一个字/词的浏览特征向量,将 该标引关键词中所有字/词的浏览特征向量列在一起得到该浏览历史样本目标 网页的标引关4建词的浏览特征向量;所述训练决策树为在根节点中设置标? I关键词的浏览特征向量中分量的 判定条件,根据分量的不同取值建立分支节点,然后在每个分支节点中设置标 1关键词的浏览特征向量中分量的判定条件并根据分量的不同取值再建立下层 分支节点,直到建立叶节点为止,叶节点对应所述类别。8、 根据权利要求7所述的方法,其特征在于,所述生成标引关键词的过滤 器的步骤包括针对具有规定类别的每一个叶节点,将从根节点到所述叶节点的判定条件 用与的关系连接在一起得到从根节点到所述叶节点的规则;对于每一个规则,将标引关键词的相同位置的判定条件用与的关系连 接在一起得到标31关键词的每一个位置的判定条件;将不同规则中标引关键词的相同位置的判定条件用或的关系组合在一 起,得到标引关键词的每一个位置的析取范式,所述标引关键词的各位置的析 取范式构成过滤器。9、 ...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。