一种基于url分析的营销关键词提取的方法技术

技术编号:10458549 阅读:117 留言:0更新日期:2014-09-24 14:31
本发明专利技术揭示了一种基于url分析的营销关键词提取的方法,包括:(1)预设一个数据库,所述数据库内包括多个结构化文本以及建立多个网站统一资源定位符结构与所述数据库的中结构化文本的对应关系,所述结构化文本至少包括营销关键词;(2)分析至少一个网站统一资源定位符,至少捕捉该网站统一资源定位符的网站名称和路径;(3)根据所述网站统一资源定位符的网站名称和路径在数据库中索引,是否有与之匹配的结构化文本,若是,则执行步骤(4);以及(4)获得与该网站统一资源定位符匹配的结构化文本。本发明专利技术可以快速的对大量的url进行分析,并提取和保存相应的营销关键词。

【技术实现步骤摘要】
-种基于ur I分析的营销关键词提取的方法
本专利技术涉及网络
,特别涉及一种基于url分析的营销关键词提取的方 法。
技术介绍
url就是统一资源定位符(Uniform Resource Locator,缩写为URL),是对可以从 互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。 互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该 怎么处理它 对大多数广告营销活动来说,如何从茫茫人海中识别出潜在的目标用户是一件很困难 的事情。为了精准的定向到目标用户,需要捕获用户的历史行为,并从历史行为中提炼出用 户的兴趣爱好,尤其是跟营销活动相关的关键词信息。 例如一个用户可能对价格8万-10万元的汽车感兴趣,也可能对位于上海浦东地 区的经济性酒店感兴趣,这里8-10万元的汽车、上海浦东的经济型酒店就是2个不同 的营销关键词。 一旦本专利技术利用搜集到的用户信息和行为记录进行分析,得到了用户感兴趣的营 销关键词列表,在广告营销时,本专利技术就可以将广告投放到只对特定关键词感兴趣的人群, 进行精准定向。与传统的广告投放方法相比,精准定向能用更少的成本,接触到更多的潜在 客户,从而为广告主创造价值。与此同时,由于精准定向只对用户投放其可能感兴趣的广 告,也可以提升用户体验,减少无关广告对用户的干扰。 分析营销关键词,最合适的数据便是用户上网时的访问记录,尤其是,在各个垂直 行业站点的历史行为,例如携程、搜房、淘宝、汽车之家等。对互联网广告服务提供商来说, 可以在各个合作的网站上部署JS代码来收集用户的访问记录。 但是用户访问的url形式多样,并没有一个统一的规范,给营销关键词的提取带 来很大的困难。 例如,淘宝网上关于华为手机的导航页;或者汽车之家上关于奥迪A4L的导航页。 这两个url中并没有明确的指出其包含的信息,为了提取营销关键词信息,就需要对url做 深入的分析挖掘。 -种常见的做法是对url对应的html文本进行抓取,再从抓取得到的html中解 析得到需要的文本信息。这种做法需要爬虫对大量的url进行定向抓取,考虑到很多url 中包含了用户的验证信息,而且很多站点对爬虫的无限制抓取进行了屏蔽,导致通过爬虫 的做法不仅效率很低,而且抓取失败率非常高;另一方面,由于html页面的复杂性,从抓取 得到的html文本中提取营销关键词也是一个很困难的任务。 对此,本专利技术提出一种方法和系统,能够自动地从用户的url访问的历史记录中, 提取用户感兴趣的营销关键词,用于广告投放系统的精准定向。
技术实现思路
本专利技术提供了,克服了现有技术的困 难,通过这种方法,本专利技术可以快速的对大量的url进行分析,并提取和保存相应的营销关 键词。 本专利技术采用如下技术方案: 本专利技术提供了,包括: (1) 预设一个数据库,所述数据库内包括多个结构化文本以及建立多个网站统一资源 定位符结构与所述数据库的中结构化文本的对应关系,所述结构化文本至少包括营销关键 词; (2) 分析至少一个网站统一资源定位符,至少捕捉该网站统一资源定位符的网站名称 和路径; (3) 根据所述网站统一资源定位符的网站名称和路径在数据库中索引,是否有与之匹 配的结构化文本,若是,则执行步骤(4);以及 (4) 获得与该网站统一资源定位符匹配的结构化文本。 优选地,所述步骤(2)中通过一个网站统一资源定位符解析器捕捉该网站统一资 源定位符的网站名称和路径。 优选地,所述步骤(2)中网站统一资源定位符解析器中预存网站统一资源定位符 结构的树状索引。 优选地,所述步骤(2)中提取网站统一资源定位符的站点、子域名、统一资源定位 符路径和统一资源定位符参数列表。 优选地,所述步骤(3 )包括: (31) 检查网站统一资源定位符的网站名称是否在索引中,若是,则执行步骤(32);以及 (32) 检查网站统一资源定位符的路径是否在索引中,若是,则执行步骤(4)。 优选地,所述步骤(2)中的网站统一资源定位符是用户历史访问记录中的一个或 多个网站统一资源定位符。 优选地,所述数据库为Key-Value数据库。 本专利技术的基于url分析的营销关键词提取的方法针对广告投放领域中的用户精 准定向,提出了一个基于url分析的、通用的、高效的营销关键词提取的方法。本专利技术的方 法有以下几个优点: (1) 本专利技术的方法侧重于对url本身的结构进行自动分析,不需要对url进行大规模的 抓取,因而只占用较少的系统资源; (2) 由于url对应的html页面可能会过期或失效,导致对url的抓取会有一定的概率 失败,因而与抓取html页面并解析的方法相比,本专利技术方法具有更高的成功率; (3) 由于百度等大的搜索引擎会对经常变动的url进行降权,大多数网站的url结构长 期保持不变,因而本专利技术提出的基于url分析的方法具有很好的稳定性; (4) 本专利技术在url分析的过程中建立了高效的知识库索引和url解析器,使本专利技术方法 具有非常高的执行效率。 以下结合附图及实施例进一步说明本专利技术。 【附图说明】 图1为本专利技术的基于url分析的营销关键词提取的方法的流程图。 【具体实施方式】 下面通过图1来介绍本专利技术的一种具体实施例 如图1所示,本专利技术的,包括以下步骤: (1) 预设一个数据库,所述数据库内包括多个结构化文本以及建立多个网站统一资源 定位符结构与所述数据库的中结构化文本的对应关系,所述结构化文本至少包括营销关键 词; (2) 分析至少一个网站统一资源定位符,至少捕捉该网站统一资源定位符的网站名称 和路径; (3) 根据所述网站统一资源定位符的网站名称和路径在数据库中索引,是否有与之匹 配的结构化文本,若是,则执行步骤(4);以及 (4) 获得与该网站统一资源定位符匹配的结构化文本。 所述步骤(2)中通过一个网站统一资源定位符解析器捕捉该网站统一资源定位符 的网站名称和路径。 所述步骤(2)中网站统一资源定位符解析器中预存网站统一资源定位符结构的树 状索引。 所述步骤(2)中提取网站统一资源定位符的站点、子域名、统一资源定位符路径和 统一资源定位符参数列表。 所述步骤(3)包括: (31) 检查网站统一资源定位符的网站名称是否在索引中,若是,则执行步骤(32);以及 (32) 检查网站统一资源定位符的路径是否在索引中,若是,则执行步骤(4)。 所述步骤(2)中的网站统一资源定位符是用户历史访问记录中的一个或多个网站 统一资源定位符。 所述数据库为Key-Value数据库。 本专利技术需要构建一个行业相关的知识库,这个知识库中包含了各个行业的结构化 的文本信息。例如,奥迪A4L是汽车行业的一款车型。 本专利技术需要得到各个网站的url结构与知识库中的条目的对应关系。例如,对 www. autohome. com. cn这个站点,以/692/开头的url目录便是对应的汽车行业的奥迪 A4L相关的信息。 本专利技术需要构建一个高效的知识库索引。知识库的规模可能非常庞大,包含超过 百万个具体的条目。在关键词的提本文档来自技高网
...

【技术保护点】
一种基于统一资源定位符分析的营销关键词提取的方法,其特征在于,包括:(1)预设一个数据库,所述数据库内包括多个结构化文本以及建立多个网站统一资源定位符结构与所述数据库的中结构化文本的对应关系,所述结构化文本至少包括营销关键词;(2)分析至少一个网站统一资源定位符,至少捕捉该网站统一资源定位符的网站名称和路径;(3)根据所述网站统一资源定位符的网站名称和路径在数据库中索引,是否有与之匹配的结构化文本,若是,则执行步骤(4);以及(4)获得与该网站统一资源定位符匹配的结构化文本。

【技术特征摘要】
1. 一种基于统一资源定位符分析的营销关键词提取的方法,其特征在于,包括: (1) 预设一个数据库,所述数据库内包括多个结构化文本以及建立多个网站统一资源 定位符结构与所述数据库的中结构化文本的对应关系,所述结构化文本至少包括营销关键 词; (2) 分析至少一个网站统一资源定位符,至少捕捉该网站统一资源定位符的网站名称 和路径; (3) 根据所述网站统一资源定位符的网站名称和路径在数据库中索引,是否有与之匹 配的结构化文本,若是,则执行步骤(4);以及 (4) 获得与该网站统一资源定位符匹配的结构化文本。2. 如权利要求1所述的基于统一资源定位符分析的营销关键词提取的方法,其特征在 于:所述步骤(2)中通过一个网站统一资源定位符解析器捕捉该网站统一资源定位符的网 站名称和路径。3. 如权利要求2所述的基于统一资源定位符分析的营销关键词提取的方法,其特征在 于:所述步骤(2)中网站统一资源...

【专利技术属性】
技术研发人员:汤奇峰刘作涛
申请(专利权)人:晶赞广告上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1