当前位置: 首页 > 专利查询>朱廷劭专利>正文

标引关键词提取/预测方法技术

技术编号:2828094 阅读:228 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种预测目标网页的标引关键词的方法,该方法包括:获取训练数据集,根据所获取的训练数据集训练决策树;利用训练得到的决策树生成标引关键词的过滤器;利用训练得到的决策树和所生成的过滤器,预测目标网页的标引关键词。本发明专利技术还公开了一种推荐在线广告的方法,根据用户浏览历史预测得到的目标在线广告的标引关键词发送给搜索引擎,并推荐搜索引擎返回的在线广告。本发明专利技术还公开了一种提取网页的标引关键词的方法以及推荐在线广告的装置。根据本发明专利技术公开的方法和装置,能够预测用户的搜索意图,为用户提供精确的搜索服务。

【技术实现步骤摘要】

本专利技术涉及搜索技术,特别是指根据用户的浏览行为捕捉用户的搜索意 图,预测目标网页的标引关键词的方法,以及推荐在线广告的方法和装置。
技术介绍
随着网络与通信技术的迅速发展,Web信息爆炸性的增长,已经成为一 个巨大的海量信息空间。如何快速、准确、方便的从如此庞大的信息库中获 取自己需要的信息,是互联网用户面临的一个重要问题。互联网的媒体特性 促使在线广告(Online Advertisement)的诞生和发展,在线广告的形式已祐: 许多企业接受和采纳,而且取得较好的广告效果。如何快速、准确、方便的 从在线广告中获取自己需要的在线广告,同样也是在线广告所面临的一个重 要问题。Web搜索引擎能为用户提供一种查找所需资源的服务,越来越多的搜索 引擎对人们获取网络资源提供了很大的方便。目前搜索引擎是根据网页的静 态内容,按照用户输入的一个或多个搜索关键字进行搜索并返回搜索结果。 因此,按照目前的搜索技术,无法正确预测用户的搜索意图,更不能为用户 推荐符合用户搜索意图的网页和在线广告。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种提取网页的标引关键词的方 法,提取出指定网页的标引关键词。本专利技术的另一主要目的在于,提供一种预测目标网页的标引关键词的方 法,根据用户的浏览行为预测用户的搜索意图。本专利技术的另 一主要目的在于提供一种推荐在线广告的方法,根据用户的浏览行为向用户推荐符合用户搜索意图的在线广告。本专利技术的另 一主要目的在于提供一种推荐在线广告的装置,根据用户的 浏览行为向用户推荐符合用户搜索意图的在线广告。为了达到上述目的,本专利技术提供一种提取网页的标引关键词的方法,该方法包括获取训练数据集,所述训练数据集包括多个样本网页以及相应样本网页 的标引关键词;获取所述样本网页的标引关键词的网页特征向量,对该标引关4建词的网 页特征向量进行分类得到所属的类别,并根据所述训练数据集中样本网页的 标引关键词的网页特征向量和所属的类别训练决策树;利用训练得到的决策树,生成标引关键词的过滤器,所述过滤器包括标 引关键词的网页特征向量的判定条件;获取网页的部分或所有字/词,获取所述部分或所有字/词的网页特征向 量,并选择网页特征向量符合所述过滤器中判定条件的字/词,从所选择的 字/词中提取网页的标引关键词。为了达到上述另 一 目的,本专利技术提供一种预测目标网页的标引关键词的 方法,该方法包4舌获取训练数据集,所述训练数据集包括多个浏览历史样本目标网页以及 相应浏览历史样本目标网页的标引关键词;获取所述浏览历史样本目标网页的标引关键词的浏览特征向量,对该标 引关键词的浏览特征向量进行分类得到所属的类别,并根据所述训练数据集 中浏览历史样本目标网页的标引关键词的浏览特征向量和所属的类别训练 决策树;利用训练得到的决策树,生成标引关键词的过滤器,所述过滤器包括标 引关键词的浏览特征向量的判定条件;获取浏览历史网页,获取所述浏览历史网页的部分或所有字/词,获取 所述部分或所有字/词的浏览特征向量,并选择浏览特征向量符合所述过滤器中判定条件的字/词,从所选择的字/词中预测目标网页的标引关键词。为了达到上述另一目的,本专利技术提供一种推荐在线广告的方法,该方法包括获取训练数据集,所述训练数据集包括多个浏览历史样本目标在线广告 以及相应浏览历史样本目标在线广告的标引关4定词;获取所述浏览历史样本目标在线广告的标引关键词的浏览特征向量,对 该标引关键词的浏览特征向量进行分类得到所属的类别,并根据所述训练数 据集中浏览历史样本目标在线广告的标引关键词的浏览特征向量和所属的 类别训练决策树;利用训练得到的决策树,生成标引关键词的过滤器,所述过滤器包括标 引关键词的浏览特征向量的判定条件;获取在线广告的浏览历史,获取所述浏览历史的部分或所有字/词,获 取所述部分或所有字/词的浏览特征向量,并选择浏览特征向量符合所述过 滤器中判定条件的字/词,从所选择的字/词中预测目标在线广告的标引关键 词;将预测得到的目标在线广告的标引关键词作为搜索关键词发送给在线 广告搜索引擎,并推荐该在线广告搜索引擎返回的在线广告。其中,所述在线广告包括显示广告和引用广告。为了达到上述另一目的,本专利技术提供一种推荐在线广告的装置,该装置 包括决策树训练单元,用于训练决策树;过滤器生成单元,用于利用所述决 策树训练单元所训练得到的决策树生成过滤器;浏览历史获取单元,用于获 取在线广告的浏览历史,并传给标引关键词预测单元;标引关键词预测单元, 用于利用所述决策树训练单元所训练得到的决策树和所述过滤器生成单元 所生成的过滤器,根据浏览历史预测目标在线广告的标引关键词,并输出给 在线广告推荐单元;在线广告推荐单元,用于将从所述标引关键词预测单元 收到的目标在线广告的标引关键词发送给在线广告搜索引擎,接收该在线广告搜索引擎所返回的在线广告并推荐。根据本专利技术提供的预测目标网页的标引关键词的方法,预先根据浏览历 史样本目标网页训练决策树,利用训练得到的决策树生成标引关键词的过滤器,之后,根据用户浏览历史记录提取用户浏览历史网页序列中所包含的字 /词的浏览特征向量,调用决策树和过滤器来预测目标网页的标引关键词, 从而预测到了用户的搜索意图。其中,在训练决策树时可以根据本专利技术提供 的提取网页的标引关键词的方法提取出了浏览历史样本目标网页的标引关 键词。由此可以看出,本专利技术充分结合了静态的网页内容和动态的用户的浏 览行为,根据被动观察到的用户浏览的历史纪录来预测用户的搜索意图,无 需用户的其他输入,对用户的浏览不做任何的干预,为用户提供更精确的搜 索服务。上述预测用户搜索意图的方法可以应用于在线广告的推荐,通过用 户的广告浏览历史记录来预测并推荐与用户搜索意图最相关的在线广告。由 于在线广告推荐中利用了用户的浏览历史记录,因此,即便是采用引用方式 发布的在线广告也对于在线广告的推荐有贡献,所以广告发布商采用显示广 告或引用广告的方式发布广告都能获得收益。附图说明图1所示为用户网上浏览过程示意图;图2所示为本专利技术中为提取网页的标引关键词而训练决策树的流程图; 图3所示为本专利技术中训练得到的决策树的示意图; 图4所示为本专利技术中生成过滤器的流程图; 图5所示为本专利技术中从指定网页中提取标31关键词的流程图; 图6所示为本专利技术中为了预测目标网页的标引关键词而训练决策树的 过程;图7所示为本专利技术中预测目标网页的标引关键词的流程图;图8所示为本专利技术中用于提取网页的标引关键词的装置结构图;图9所示为本专利技术中用于推荐在线广告的装置结构图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面举具体实施例, 对本专利技术作进一步详细的说明。设想这样的一个用户的网上浏览过程,如图l所示。用户在浏览器中打开网页P1,然后点击网页P1中的一个超级链接,该链接的题头(anchor text)中包含Dolphins。但是这个链接将用户引到另外一个网页P2, 网页P2是关于NFL中的一个橄榄球队的Miami Dolphins。当用户发现 这个网页P2并不是他想要的,就点击Back按钮返回到网页P1。在跳过 网页P1中的题头是free dolphin第二个连接后,点击第三个题头中包含 Whale的超级链接。这个超级链本文档来自技高网...

【技术保护点】
一种提取网页的标引关键词的方法,其特征在于,该方法包括:获取训练数据集,所述训练数据集包括多个样本网页以及相应样本网页的标引关键词;获取所述样本网页的标引关键词的网页特征向量,对该标引关键词的网页特征向量进行分类得到所属的类别,并根据所述训练数据集中样本网页的标引关键词的网页特征向量和所属的类别训练决策树;利用训练得到的决策树,生成标引关键词的过滤器,所述过滤器包括标引关键词的网页特征向量的判定条件;获取网页的部分或所有字/词,获取所述部分或所有字/词的网页特征向量,并选择网页特征向量符合所述过滤器中判定条件的字/词,从所选择的字/词中提取网页的标引关键词。

【技术特征摘要】
1、一种提取网页的标引关键词的方法,其特征在于,该方法包括获取训练数据集,所述训练数据集包括多个样本网页以及相应样本网页的标引关键词;获取所述样本网页的标引关键词的网页特征向量,对该标引关键词的网页特征向量进行分类得到所属的类别,并根据所述训练数据集中样本网页的标引关键词的网页特征向量和所属的类别训练决策树;利用训练得到的决策树,生成标引关键词的过滤器,所述过滤器包括标引关键词的网页特征向量的判定条件;获取网页的部分或所有字/词,获取所述部分或所有字/词的网页特征向量,并选择网页特征向量符合所述过滤器中判定条件的字/词,从所选择的字/词中提取网页的标引关键词。2、 根据权利要求1所述的方法,其特征在于, 所述标引关键词包括/个字/词,/为大于等于1的自然数; 所述获取所述样本网页的标引关键词的网页特征向量为获取所述样本网页的标引关键词中每一个字/词的网页特征向量,将该标引关键词中所有字/词的 网页特征向量列在一起得到该样本网页的标引关键词的网页特征向量;所述训练决策树为在根节点中设置标引关键词的网页特征向量中分量的 判定条件,根据分量的不同取值建立分支节点,然后在每个分支节点中设置标 S1关4建词的网页特征向量中分量的判定条件并才艮据分量的不同取值再建立下层 分支节点,直到建立叶节点为止,叶节点对应所述类别。3、 根据权利要求2所述的方法,其特征在于,所述生成标引关4建词的过滤 器的步骤包括针对具有规定类别的每一个叶节点,将从根节点到所述叶节点的判定条件 用与的关系连接在一起得到从根节点到所述叶节点的规则;对于每一个规则,将标引关4建词的相同位置的判定条件用与的关系连接在一起得到标引关键词的每一个位置的判定条件;将不同规则中标引关键词的相同位置的判定条件用或的关系组合在一 起,得到标引关键词的每一个位置的析取范式,所述标引关键词的各位置的析 取范式构成过滤器。4、 根据权利要求3所述的方法,其特征在于,所述选择网页特征向量符合所述过滤器中判定条件的字/词为对于所述网 页的部分或所有字/词,判断字/词的网页特征向量是否满足标引关4定词的每一个 位置的析取范式,如果满足,则在标引关键词的相应位置上选择该字/词;所ii/人所选择的字/词中提取网页的标引关键词为从标引关键词的各位置上所选择的字/词中分别提取字/词并按照位置顺序 排列成候选标引关键词;调用训练得到的决策树,根据^f矣选标引关键词所包含的字/词的网页特征 向量预测该候选标引关键词的类别,对于规定类别的候选标引关键词记录预测 准确度,并将预测准确度达到规定标准或最高的候选标引关键词作为该网页的 标引关键词。5、 一种预测目标网页的标引关键词的方法,其特征在于,该方法包括 获取训练数据集,所述训练数据集包括多个浏览历史样本目标网页以及相应浏览历史样本目标网页的标引关键词;获取所述浏览历史样本目标网页的标引关键词的浏览特征向量,对该标引 关键词的浏览特征向量进行分类得到所属的类别,并根据所述训练数据集中浏 览历史样本目标网页的标引关4定词的浏览特征向量和所属的类别训练决策树;利用训练得到的决策树,生成标引关4定词的过滤器,所述过滤器包括标引 关#:词的浏览特征向量的判定条件;获取浏览历史网页,获取所述浏览历史网页的部分或所有字/词,获取所述 部分或所有字/词的浏览特征向量,并选择浏览特征向量符合所述过滤器中判定 条件的字/词,从所选择的字/词中预测目标网页的标引关键词。6、 根据权利要求5所述的方法,其特征在于,所述浏览历史样本目标网页的标引关键词通过权利要求1所述的方法提取得到。7、 根据权利要求5所述的方法,其特征在于, 所述标引关键词包括/个字/词,/为大于等于1的自然数; 所述获取所述浏览历史样本目标网页的标引关键词的浏览特征向量为获取所述浏览历史样本目标网页的标引关键词中每一个字/词的浏览特征向量,将 该标引关键词中所有字/词的浏览特征向量列在一起得到该浏览历史样本目标 网页的标引关4建词的浏览特征向量;所述训练决策树为在根节点中设置标? I关键词的浏览特征向量中分量的 判定条件,根据分量的不同取值建立分支节点,然后在每个分支节点中设置标 1关键词的浏览特征向量中分量的判定条件并根据分量的不同取值再建立下层 分支节点,直到建立叶节点为止,叶节点对应所述类别。8、 根据权利要求7所述的方法,其特征在于,所述生成标引关键词的过滤 器的步骤包括针对具有规定类别的每一个叶节点,将从根节点到所述叶节点的判定条件 用与的关系连接在一起得到从根节点到所述叶节点的规则;对于每一个规则,将标引关键词的相同位置的判定条件用与的关系连 接在一起得到标31关键词的每一个位置的判定条件;将不同规则中标引关键词的相同位置的判定条件用或的关系组合在一 起,得到标引关键词的每一个位置的析取范式,所述标引关键词的各位置的析 取范式构成过滤器。9、 ...

【专利技术属性】
技术研发人员:朱廷劭
申请(专利权)人:朱廷劭
类型:发明
国别省市:CA[加拿大]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1