一种关联网页和关联网站的方法和系统技术方案

技术编号:4327669 阅读:180 留言:0更新日期:2012-04-11 18:40
一种自动设置广告的方法,包括:获取希望在上面放置广告的至少一个第一网页,计算该至少一个第一网页中每一个第一网页上的内容的第一文档向量,获取广告所对应的第二网页,计算该第二网页上的内容的第二文档向量,计算第二文档向量与所有或部分第一文档向量的相关度,根据相关度对所有或部分第一文档向量进行排序,将若干个相关度最高的第一文档向量所对应的第一网页作为该第二网页所对应的广告的投放位置。

【技术实现步骤摘要】

本专利技术涉及关联网页和关联网站技术,尤其涉及根据语义相关给网 页添加附加信息的技术。
技术介绍
现有的网络广告平台所谓的精确广告投放主要采用对网络进行多维 度分类的方法。而该方法存在以下几个问题1)该分类是针对网站的 分类,而往往同一个网站会有很多种类的内容,不同的内容会有不同的 受众,例如新闻网站,论坛,博客等网站的内容具有非常多的种类,很 难对一个网站或一个栏目给出一个统一的分类;2)由人工进行分类, 费时费力,如果由提供广告位的网站自己对其网站进行分类更有可能有 失公允。另一种现有广告投放平台,主要利用关键词匹配技术来实现相对精 确的广告投放,然而关键词匹配技术存在很严重的缺陷,即使文档含有 某个关键词也不一定表示该文档想表达这个意思,而没有某个关键词也 不表示该文档就没有这个意思。而本专利技术基于这样的原理,即浏览网站的用户感兴趣的是网页的内 容,从网页的内容可以推断出用户的兴趣,所以通过对网页内容的分析 可以对网页进行分类。另外,希望在网络上投放的广告,后面一般都有一个超链接,该超 链接所指向的网页是广告主希望用户看到的内容。很大的程度上,该内 容是广告主对其产品的表述。同样,我们可以分析该内容,来发现广告 主希望寻找哪种与广告最匹配的内容网页上的广告位,即通过匹配内容 来自动定向投放与用户兴趣相关的广告。另外,有许多大型电子商务网站具有海量的商品必须通过互联网发 布给感兴趣的潜在用户。采用传统的关键字按网页匹配来发布,显然已 不能适应。因此必须采用网站间的自动内容匹配来发布,即关联网站间 的内容。所以本申请通过对广告位和广告内容的内容分析将广告位和广告内 容进行自动匹配。
技术实现思路
本专利技术的一个目的是提供 一种关联网页的方法,包括获取希望 在上面放置附加信息的至少一个第一网页,计算该至少一个第一网页中 每一个第一网页上的内容的第一文档向量,获取附加信息所对应的第二 网页,计算该第二网页上的内容的第二文档向量,计算第二文档向量与所有或部分第一文档向量的相关度,根据相关度对所有或部分第一文档 向量进行排序,将若干个相关度最高的第一文档向量所对应的第一网页 作为该第二网页所对应的附加信息的投放位置。本专利技术的一个目的是提供 一种关联网页的系统,包括获取希望 在上面放置附加信息的至少一个第一网页的装置,计算该至少一个第一 网页中每一个第一网页上的内容的第一文档向量的装置,获取附加信息 所对应的第二网页的装置,计算该第二网页上的内容的第二文档向量的 装置,计算第二文档向量与所有或部分第一文档向量的相关度的装置, 根据相关度对所有或部分第一文档向量进行排序的装置,将若干个相关 度最高的第一文档向量所对应的第一网页作为该第二网页所对应的附加 信息的投方文位置的装置。本专利技术的一个目的是提供 一种关联网页的方法,包括获取希望 通过附加信息推广的至少一个第二网页,计算该至少一个第二网页中每 一个第二网页上的内容的第二文档向量,获取希望在上面放置附加信息 的第一网页,计算该第一网页上的内容的第一文档向量,计算第一文档 向量与所有或部分第二文档向量的相关度,根据相关度对所有或部分第 二文档向量进行排序,将相关度最高的第二文档向量所对应的第二网页 作为在该第一网页上投放的附加信息所对应的网页,或者从相关度最高 的若干个第二文档向量所对应的第二网页中选择一个作为该第一网页上 投放的附加信息所对应的网页。本专利技术的一个目的是提供 一种关联网页的系统,包括获取希望 通过附加信息推广的至少一个第二网页的装置,计算该至少一个第二网 页中每一个第二网页上的内容的第二文档向量的装置,获取希望在上面 放置附加信息的第一网页的装置,计算该第一网页上的内容的第一文档 向量的装置,计算第一文档向量与所有或部分第二文档向量的相关度的 装置,根据相关度对所有或部分第二文档向量进行排序的装置,将相关 度最高的第二文档向量所对应的第二网页作为在该第一网页上投放的附 加信息所对应的网页,或者从相关度最高的若干个第二文档向量所对应 的第二网页中选择一个作为该第一网页上投放的附加信息所对应的网页 的装置。本专利技术更进一步的目的是 一种计算机程序产品,存储在计算机可 读的介质上,该计算机程序产品具体地包括可读的程序方法,从而触发 计算机执行上述的方法。本专利技术更进一步的目的是 一种计算机程序,由计算机执行而实现 上述方法。附图描述6上述内容和其它方面的内容,以及本专利技术特定优选实施例的特征和 优势将通过结合相应附图的详细说明更加清楚。其中 附图说明图1是关于词条的表现方法和组合方式; 图2是词条-文档(term-document)矩阵;图3是高维(r维)词条空间投影到低维(k维)词条空间的公式; 图4是词条向量表;图5是描述了词条和文档在二维空间上的投影关系;图6如何获得査询请求的向量;图7是根据本专利技术第一实施例的第一网页列表10;图8是图7中列举的第6个网页的具体内容;图9是根据本专利技术第一实施例的流程图;图IO是第二网页的示意图;图11是根据本专利技术第二实施例的第二网页列表50; 图12是根据本专利技术第二实施例的流程图。 所有附图中,同一附图标记理解为同一单元、特征和结构。优选实施例描述说明书中定义的内容如具体的结构和单元,是用于辅助全面理解本 专利技术的优选实施例的。因此,根据本领域的普通技术对本申请描述的实 施例进行的各种改变和修改都被认为没有脱离本专利技术的精神范围。同 时,为了清楚和简要,省略了对公知的功能和结构的说明。在现有技术中有大量关于基于语义搜索的技术,本领域技术人员可 以利用这些技术很容易的构建词条向量,以及文档向量。其中有代表性 的是潜在语义索引模型等技术。下面介绍潜在语义索引的原理,但不代 表本专利技术一定要构建在潜在语义索引之上,本专利技术可以应用在所有的基 于语义的搜索技术上。潜在语义索引的原理为了能够更加容易的解释LSI原理,下面通过一个具体例子来描述。 设文档由17本书的标题组成。图1中,有下划线的词表示词条。当然,对于本领域技术人员,存 在很多其他选择词条的规则,可以增加或减少词条的数量,也可以改变 词条的组合方式等。图2是16x17词条-文档(term-document)矩阵,被称作A。行代表词 条(term),列代表文档(document)。矩阵的值代表该词条在该文档中出现 的次数。7图3是潜在语义索引方法通过降维,将高维(r维)词条空间投影到低 维(k维)词条空间。为方便图示表示,在本例中选择k为2,即表示将原词条空间降维 到二维词条空间上。矩阵U的前两列表示了词条在二维空间中的向量。 获得的向量组即词条向量表为如附图中图4所示。利用这些基本的词条向量,可以根据 v-qTUkrV 公式3 来合成新的向量。例如文档向量B。用户输入的查询请求,都可通过分 析所引用的词条按公式3相合成。本领域技术人员很容易明了,在合成 向量时可以考虑词条向量的权重。图5描述了词条和文档在二维空间上的投影关系。词条向量之间的 夹角越小或夹角的余弦值越大,代表词条和和该文档的相关性越大。例 如,以词条oscillation为例,在所有词条中delay与其夹角最小, 即delay与其最相关。当用户输入一个查询请求时,如application theory,本文档来自技高网
...

【技术保护点】
一种关联网页的方法,包括: 步骤一:获取希望在上面放置附加信息的至少一个第一网页, 步骤二:计算该至少一个第一网页中每一个第一网页上的内容的第一文档向量, 步骤三:获取附加信息所对应的第二网页, 步骤四:计算该第二网 页上的内容的第二文档向量, 步骤五:计算第二文档向量与所有或部分第一文档向量的相关度, 步骤六:根据相关度对所有或部分第一文档向量进行排序, 步骤七:将若干个相关度最高的第一文档向量所对应的第一网页作为该第二网页所对应的附 加信息的投放位置。

【技术特征摘要】
1.一种关联网页的方法,包括步骤一获取希望在上面放置附加信息的至少一个第一网页,步骤二计算该至少一个第一网页中每一个第一网页上的内容的第一文档向量,步骤三获取附加信息所对应的第二网页,步骤四计算该第二网页上的内容的第二文档向量,步骤五计算第二文档向量与所有或部分第一文档向量的相关度,步骤六根据相关度对所有或部分第一文档向量进行排序,步骤七将若干个相关度最高的第一文档向量所对应的第一网页作为该第二网页所对应的附加信息的投放位置。2. 权利要求1的方法,其中的第二网页上的内容是第二网页上的所有 内容。3. 权利要求1的方法,其中的第二网页上的内容是第二网页上的某些 部分的内容。4. 权利要求3的方法,其中所述的第二网页上的某些部分是根据第二网 页的特性来选择的。5. 权利要求2-4的方法中的任意一个,其中在步骤一的第一网页是通过匹配第一网页的属性而选择出来的。6. 权利要求5的方法,其中第一网页的属性包括以下的一种或多种广告位的位置,大小,价格或网页的浏览量。7. —种关联网页的系统,包括获取希望在上面放置附加信息的至少一个第一网页的装置, 计算该至少一个第一网页中每一个第一网页上的内容的第一文档向量的装置,获取k加信息所对应的第二网页的装置, 计算该第二网页上的内容的第二文档向量的装置,计算第二文档向量与所有或部分第一文档向量的相关度的装置, 根据相关度对所有或部分第一文档向量进行排序的装置, 将若干个相关度最高的第一文档向量所对应的第一网页作为该第二网页 所对应的附加信息的投放位置的装置。8. 权利要求7的系统,其中的第二网页上的内容是第二网页上的所有内容。9. 权利要求7的系统,其中的第二网页上的内容是第二网页上的某些部分的内容。10. 权利要求8的系统,其中所述的第二网页上的某些部分是根据第二 网页的特性来选择的。11. 权利要求7-10的系统中的任意一个,其中所述第一网页是通过匹配 第一网页的属性而选择出来的。12. 权利要求11的系统,其中第一网页的属性包括以下的一种或多种 广告位的位置,大小,价格或网页的浏览量。13. —种关联网页的方法,包括步骤一获取希望被作为附加信息附加到其他网页的至少一个第二网 页,步骤二计算该至少一个第二网页中每一个第二网页上的内容的第二文 档向量,步骤三获取希望在上面放置附加信息的第一网页,步骤四计算该第一网页上的内容的第一文档向量,步骤五计算第一文档向量与所有或部分第二文档向量的相关度,步骤六根据相关度对所有或部分第二文档向量进行排序,步骤七将相关度最高的第二文档向量所对应的第二网页作为在该第一网页上投放的附加信息所对应的网页,或者从相关度最高的若干个第二文档向量所对应的第二网页中选择一个作为该第一网页上投放的附加信息所对应的网页。14. 权利要求13的方法,其中的第二网页上的内容是第二网页上的所 有内容。15. 权利要求13的方法,其中的第二网页上的内容是第二网页上的某 些部分的内容。16. 权利...

【专利技术属性】
技术研发人员:裘钢
申请(专利权)人:索意互动北京信息技术有限公司
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1