网页数据分析方法及装置制造方法及图纸

技术编号:10742513 阅读:90 留言:0更新日期:2014-12-10 15:43
本发明专利技术公开了一种网页数据分析方法及装置。该网页数据分析方法包括:获取用户在网页上输入的m个关键词;获取m个关键词中存在依存关系的关键词,其中,对应的用户需求相同的关键词之间存在依存关系;以及将m个关键词中存在依存关系的关键词划分为同一类关键词。通过本发明专利技术,实现了通过利用用户需求决定的关键词之间的依存关系对网页数据进行聚类,使聚类结果能准确反映用户需求的效果。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种网页数据分析方法及装置。该网页数据分析方法包括:获取用户在网页上输入的m个关键词;获取m个关键词中存在依存关系的关键词,其中,对应的用户需求相同的关键词之间存在依存关系;以及将m个关键词中存在依存关系的关键词划分为同一类关键词。通过本专利技术,实现了通过利用用户需求决定的关键词之间的依存关系对网页数据进行聚类,使聚类结果能准确反映用户需求的效果。【专利说明】网页数据分析方法及装置
本专利技术涉及数据分析领域,具体而言,涉及一种网页数据分析方法及装置。
技术介绍
用户通常会抱有一定的目的和意图浏览网站。对于网站而言,了解用户访问的真实意图非常重要。网站通常会通过用户浏览网站的行为轨迹构造模型,训练分类器的方法对访问网站的用户进行分类,或是通过网站站内搜索词(Query)的热度对用户需求进行描述。 站内搜索的方式是用户主动寻找信息的行为,可以一定程度上描述用户需求。传统的站内搜索词聚类技术依赖于搜索词本身,通过词语间字面上的重叠进行计算,实现方案一般为:第一步:对关键词进行字面上的拆解(包括逐子或分词),拆解以后的关键词可以表示为词(字)为单元的序列串;第二步:然后逐一计算每一对关键词对的相似度(jaccard或编辑距离等),即比较两个搜索词的词串的吻合程度,并返回相似度的度量;第三步:使用聚类算法进行聚类,聚类算法包括k-means聚类或层次聚类等,不同的聚类算法实现方式不同但实质上并无差别。由于传统技术是通过关键词字面上的吻合程度来建立联系,并不符合实际情况,仅仅是生硬的构造一种相关依存关系,因此不能准确的解释用户需求。比如“三星”和“苹果”不包含任何字面上的匹配,但是相关性应该很高,另外“本田”和“本源”是完全无关的两类词,但是字面上仍然存在着相关依存关系。并且,现有的站内搜索词聚类技术需要计算每两个关键词之间的相似度,因此时间复杂度为ο (n2),不适用于大规模数据挖掘。 针对相关技术中网页数据分析方法仅仅依赖于搜索词字面上的重叠程度,从而导致的数据分析结果不能准确解释用户需求的问题,目前尚未提出有效的解决方案。
技术实现思路
针对现有的网页数据分析方法仅仅依赖于搜索词字面上的重叠程度,导致数据分析结果不能准确解释用户需求的问题而提出本专利技术,为此,本专利技术的主要目的在于提供一种网页数据分析方法及装置,以解决上述问题。 为了实现上述目的,根据本专利技术的一个方面,提供了一种网页数据分析方法。该方法包括:获取用户在网页上输入的m个关键词;获取m个关键词中存在依存关系的关键词,其中,对应的用户需求相同的关键词之间存在依存关系;以及将m个关键词中存在依存关系的关键词划分为同一类关键词。 进一步地,获取用户在网页上输入的m个关键词包括:在网页加载脚本文件代码;接收用户在网页的输入行为;以及通过脚本文件代码读取网页的输入行为所携带的m个关键词。 进一步地,获取m个关键词中存在依存关系的关键词包括:确定假设条件,其中,假设条件是假设的m个关键词的输入行为中包含的逻辑关系;根据假设条件创建图模型{G,S},其中,G代表m个关键词的集合,S代表m个关键词之间的依存关系的集合;以及通过图模型,获取m个关键词中存在依存关系的关键词。 进一步地,通过图模型,获取m个关键词中存在依存关系的关键词包括:根据m个关键词之间的依存关系的强度计算转移概率,其中,转移概率是每个关键词属于与其存在依存关系的关键词的概率;以及按照转移概率对m个关键词进行迭代,获取m个关键词中存在依存关系的关键词。 进一步地,按照转移概率对m个关键词进行迭代,获取m个关键词中存在依存关系的关键词包括:假设在进行迭代之前第i个关键词属于第i关键词簇,其中,簇是一类关键词的集合,i = 1,2...m ;按照转移概率对第i个关键词进行一次迭代,计算迭代后第i个关键词属于的第k关键词族,其中,k e {1,2...1-1, i+1...m};判断第i族和第k族的差异是否小于预设值,其中,预设值是预先设定的关键词簇允许的误差值;如果第i簇和第k簇的差异大于预设值,则继续进行迭代;以及如果第i簇和第k簇的差异小于或者等于预设值,则停止迭代,获取第i个关键词属于的关键词簇中的所有关键词。 进一步地,将m个关键词中存在依存关系的关键词划分为同一类关键词之后,方法还包括:对多个同一类关键词分别进行命名;以及按照每一类关键词包含的关键词的数量,对命名后的多个同一类关键词进行排序。 为了实现上述目的,根据本专利技术的另一方面,提供了一种网页数据分析装置,该装置包括:第一获取单元,用于获取用户在网页上输入的m个关键词;第二获取单元,用于获取m个关键词中存在依存关系的关键词,其中,对应的用户需求相同的关键词之间存在依存关系;以及划分单兀,用于将m个关键词中存在依存关系的关键词划分为同一类关键词。 进一步地,第一获取单元包括:加载模块,用于在网页加载脚本文件代码;接收模块,用于接收用户在网页的输入行为;以及读取模块,用于通过脚本文件代码读取网页的输入行为所携带的m个关键词。 进一步地,第二获取单元包括:第一确定模块,用于确定假设条件,其中,假设条件是假设的m个关键词的输入行为中包含的逻辑关系;创建模块,用于根据假设条件创建图模型{G,S},其中,G代表m个关键词的集合,S代表m个关键词之间的依存关系的集合;以及第一获取模块,用于通过图模型,获取m个关键词中存在依存关系的关键词。 进一步地,第一获取模块包括:计算模块,用于根据m个关键词之间的依存关系的强度计算转移概率,其中,转移概率是每个关键词属于与其存在依存关系的关键词的概率;以及第二获取模块,按照转移概率对m个关键词进行迭代,获取m个关键词中存在依存关系的关键词。 进一步地,第二获取模块包括:假设子模块,用于假设在进行迭代之前第i个关键词属于第i关键词簇,其中,簇是一类关键词的集合,i = l,2...m;计算子模块,用于按照转移概率对第i个关键词进行一次迭代,计算迭代后第i个关键词属于的第k关键词簇,其中,ke {1,2...1-1, i+1...m};判断子模块,用于判断第i簇和第k簇的差异是否小于预设值,其中,预设值是预先设定的关键词簇允许的误差值;迭代子模块,用于如果第i簇和第k簇的差异大于预设值,则继续进行迭代;以及获取子模块,用于如果第i簇和第k簇的差异小于或者等于预设值,则停止迭代,获取第i个关键词属于的关键词簇中的所有关键词。 进一步地,该装置还包括:命名单元,用于对多个同一类关键词分别进行命名;以及排序单元,用于按照每一类关键词包含的关键词的数量,对命名后的多个同一类关键词进行排序。 通过本专利技术,采用包括以下步骤的方法:获取用户在网页上输入的m个关键词;获取m个关键词中存在依存关系的关键词,其中,对应的用户需求相同的关键词之间存在依存关系;以及将m个关键词中存在依存关系的关键词划分为同一类关键词,解决了现有网页数据分析方法仅仅依赖于搜索词字面上的重叠程度,导致数据分析结果不能准确解释用户需求的问题,进而达到了通过利用用户需求决定的关键词之间的依存关系对网页数据进行聚类,从而通过聚类结果准确反映用户需求的效果。 【专利附图】本文档来自技高网
...
网页数据分析方法及装置

【技术保护点】
一种网页数据分析方法,其特征在于,包括:获取用户在网页上输入的m个关键词;获取所述m个关键词中存在依存关系的关键词,其中,对应的用户需求相同的关键词之间存在所述依存关系;以及将所述m个关键词中存在依存关系的关键词划分为同一类关键词。

【技术特征摘要】

【专利技术属性】
技术研发人员:何鑫
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1