网页数据分析方法及装置制造方法及图纸

技术编号：10742513 阅读：90 留言：0更新日期：2014-12-10 15:43

本发明专利技术公开了一种网页数据分析方法及装置。该网页数据分析方法包括：获取用户在网页上输入的m个关键词；获取m个关键词中存在依存关系的关键词，其中，对应的用户需求相同的关键词之间存在依存关系；以及将m个关键词中存在依存关系的关键词划分为同一类关键词。通过本发明专利技术，实现了通过利用用户需求决定的关键词之间的依存关系对网页数据进行聚类，使聚类结果能准确反映用户需求的效果。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种网页数据分析方法及装置。该网页数据分析方法包括：获取用户在网页上输入的m个关键词；获取m个关键词中存在依存关系的关键词，其中，对应的用户需求相同的关键词之间存在依存关系；以及将m个关键词中存在依存关系的关键词划分为同一类关键词。通过本专利技术，实现了通过利用用户需求决定的关键词之间的依存关系对网页数据进行聚类，使聚类结果能准确反映用户需求的效果。【专利说明】网页数据分析方法及装置
本专利技术涉及数据分析领域，具体而言，涉及一种网页数据分析方法及装置。
技术介绍
用户通常会抱有一定的目的和意图浏览网站。对于网站而言，了解用户访问的真实意图非常重要。网站通常会通过用户浏览网站的行为轨迹构造模型，训练分类器的方法对访问网站的用户进行分类，或是通过网站站内搜索词(Query)的热度对用户需求进行描述。站内搜索的方式是用户主动寻找信息的行为，可以一定程度上描述用户需求。传统的站内搜索词聚类技术依赖于搜索词本身，通过词语间字面上的重叠进行计算，实现方案一般为:第一步:对关键词进行字面上的拆解(包括逐子或分词)，拆解以后的关键词可以表示为词(字)为单元的序列串；第二步:然后逐一计算每一对关键词对的相似度(jaccard或编辑距离等)，即比较两个搜索词的词串的吻合程度，并返回相似度的度量；第三步:使用聚类算法进行聚类，聚类算法包括k-means聚类或层次聚类等，不同的聚类算法实现方式不同但实质上并无差别。由于传统技术是通过关键词字面上的吻合程度来建立联系，并不符合实际情况，仅仅是生硬的构造一种相关依存关系，因此不...
网页数据分析方法及装置

【技术保护点】
一种网页数据分析方法，其特征在于，包括：获取用户在网页上输入的m个关键词；获取所述m个关键词中存在依存关系的关键词，其中，对应的用户需求相同的关键词之间存在所述依存关系；以及将所述m个关键词中存在依存关系的关键词划分为同一类关键词。

【技术特征摘要】

【专利技术属性】
技术研发人员：何鑫，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人