一种网页页面的预读取方法、装置及智能终端设备制造方法及图纸

技术编号:18592289 阅读:41 留言:0更新日期:2018-08-04 20:03
本发明专利技术提供了一种网页页面的预读取方法、装置及智能终端设备。该预读取方法包括:获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问信息;确定该多个用户中两两用户之间的相似度;按相似度的大小确定1个或多个最相似用户;利用最相似用户计算点击路径的推荐概率并且生成预读取列表,从预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据。本发明专利技术提供的技术方案的有益效果是:提前给用户预读取出网页数据,该预读取的命中概率和覆盖率大大提高,进而保证了预读取的高准确性和高有效性,在预读取高概率的网页数据并保存到本地缓存后,提高了用户打开网页页面的速度,提升了用户体验。

A pre reading method, device and intelligent terminal device for web pages

The invention provides a pre reading method, device and intelligent terminal device for web pages. The prereading method includes: obtaining the access information of each user to a number of web pages within one time period, determining the similarity between the 22 users of the multiple users, determining 1 or more similar users according to the size of the similarity degree, and using the most similar user to calculate the recommendation probability of the click path. The pre read list is generated, and the click path of the web page that is currently browsing is querying from the preread list, so as to preread the corresponding data of the target page to be browsed. The beneficial effect of the technical scheme provided by the invention is to pre read and remove the web data in advance to the user. The hit probability and coverage rate of the pre read are greatly improved, and the high accuracy and high efficiency of the preread are ensured. After reading the high probability of the web page data and storing it to the local cache, the user opens the web page. The speed of the page improves the user experience.

【技术实现步骤摘要】
一种网页页面的预读取方法、装置及智能终端设备
本专利技术涉及网页浏览
,具体而言,涉及一种网页页面的预读取方法、装置及智能终端设备。
技术介绍
随着互联网的普及、计算机作为家庭以及工作的必备产品之一,人们使用计算机上的浏览器访问互联网日趋频繁;尤其随着例如智能手机和平板电脑的智能终端产品的迅速普及,用户使用终端浏览器访问互联网成为日常行为。在用户使用浏览器打开网页的过程中,如果当前的网络环境受限,或者终端设备的运行速度受限,就会影响网页的打开速度,造成用户等待,用户上网的体验感很差。影响网页打开速度的主要原因是下载网页内容的时间过长。目前,一般采用对可能需要的网页进行预读取的方法来满足用户快速打开网页的需要。该方法主要是在用户浏览当前网页页面的过程中,服务器端获取用户下一步可能需要的网页,在用户未浏览这些网页之前先将这些网页的网址及其资源加载到本地缓存中;当用户访问其中某个网页时直接从本地缓存中读取相关数据来展示给用户阅览,避免了等待下载网页的过程,缩短用户进行网页访问操作后的网页响应时间。现有的网页预读取方法常见以下两种:第一、在用户浏览连续内容的某一个网页时预读取该网页上包含的链接到相邻网页的一个或多个关键字,例如“下一页”、“nextpage”等,然后依次取链接的网页内容并放入本地缓存中。第二、从服务器端获取网页列表,然后依次读取该网页列表中各网页内容并放入本地缓存中。由上可知,现有的第一种网页预读取方法只能适用于特定网页,即只对一个较长的内容被拆分成用超链接链起来的多个网页有效,而对于大量不存在页码顺序的其它网页,如新闻网页等,这种方法将无法预读取到用户后续可能访问的网页,因此并不能加快浏览器网页页面的显示。现有的第二种网页预读取方法则需要预读取大量的数据并载入本地缓存,严重占用缓存空间,甚至造成缓存空间不足的情况发生。另外,人们也提出一些新的预读取方法来试图改善用户体验。例如,提出了基于网页上的热点链接来“猜测”用户可能访问的网页的思路,然后对这些网页进行有针对性的预读取,以提高预读取的有效性。例如,2012年9月12日公开的申请号为201210074771.6的中国专利文献,名称为“一种网页预加载方法及系统”,该方法为:确定源网页内包含的热点链接,对热点链接对应的目标网页进行预加载;但是,该专利文献中公开的确定热点链接的方式还是本领域技术人员容易想到的方法,例如根据源网页A中某链接被点击的总次数来确定是否为热点链接;以用户对各个链接的点击顺序来确定是否为热点链接。这种方法确定热点链接的准确率偏低。例如,所述申请号为201210074771.6的专利文献的第0099段中就自述了“在实际应用中,可能存在虽然用户点击了某链接,但是用户可能并不喜欢或者不是特别喜欢这个链接的情况,在这种情况下,如果单纯地通过点击次数来区分一个链接是否为热点链接,可能会使得结果不够准确”。同样,以用户对各个链接的点击顺序来确定热点链接的准确率也是偏低的。例如,还存在用户对源网页上包含的多个热点链接都感兴趣的情况,其不一定每天都是按照同一顺序点击,当某个热点链接出现热点信息时,用户也许先点击该热点链接。例如足球世界杯期间,用户会先点击世界杯比赛新闻;在世界杯期间,某款非常著名品牌召开新品发布会,用户会先点击关于该新品的热点链接。因此,即便将这两种方式组合,用该组合方式确定热点链接的准确率也将偏低;还可能存在用户点击一个新的没有记录过的网站时,无法进行预读取。另外,所述申请号为201210074771.6的专利文献没有考虑热点链接还存在热度随着时间衰减的问题。例如,美国篮球NBA总比赛结束后的一段时间,用户关注NBA栏目的热度会显著降低。还例如,热点新闻或热点头条每天都在出现,今天的热点新闻或热点头条到明天也许热度就降低了,一星期之后也许就没人关注了。再例如,还提出了一种基于用户的浏览习惯来“猜测”用户可能访问的网页的思路,然后对这些网页进行有针对性的预读取,以提高预读取的有效性。例如,2012年10月17日公开的申请号为201110086435.9的中国专利文献,名称为“一种网页预读取的方法、装置及一种浏览器”,该方法为:读取用户的浏览习惯信息;在用户浏览当前网页的过程中,根据所述用户的浏览习惯信息分析出将要预读取的网页链接,从服务器端预读取所述网页链接对应的网页数据并保存到本地缓存。但是,其公开的预读取策略为:将用户常常点击网页上的那部分内容的位置区域的一条或多条网页链接预读取出来,或者记录在用户点击某网页A上的关键词,当下次再打开该网页A时,将匹配关键词的前几条或大部分网页链接进行预读取。这种网页预读取方法的缺点是显而易见的,其预读取一条网页链接或者匹配关键词的前几条网页链接,则给用户预读取出网页数据的命中率很低,如果预读取多条网页链接或者匹配关键词的大部分网页链接,则需要预读取大量的数据并载入本地缓存,严重占用缓存空间,甚至造成缓存空间不足的情况发生;还可能存在用户点击一个新的没有记录过的网站时,无法进行预读取。因此,目前需要一种新的网页页面的预读取方法。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种一种网页页面的预读取方法、装置及智能终端设备,以改善上述的问题。在本专利技术的实施例中提供了一种网页页面的预读取方法,其特征在于,包括:获取多个用户中的每一个用户在一个时间段内对多个网页的访问信息;确定该多个用户中两两用户之间的相似度;按相似度的大小确定1个或多个最相似用户;在用户浏览当前网页的过程中,按一定的预测策略分析出所述最相似用户从当前网页将要点击浏览的目标网页,并预读取出所分析出的目标网页。优选的,在获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问信息的过程中对每个页面的数据进行数据清洗的预处理的步骤。优选的,在确定该多个用户中两两用户之间的相似度的步骤中,使用余弦相似度的方法来确定相似度。优选的,在确定两两用户之间的相似度的过程中,先筛选掉访问不同网页的页面数低于页面数访问阈值的用户。优选的,以多个用户访问的相同网页作为共同特征,建立倒排表,然后使用余弦相似度的方法来确定倒排表中两两用户之间的相似度。优选的,当倒排表中的用户数量超过用户阈值时,筛选掉该倒排表。优选的,利用威尔逊区间公式对网页的访问量做置信区间计算,取区间下限作为网页的访问量的最终值。优选的,在按相似度的大小确定1个或多个最相似用户的步骤中,通过筛选掉相似度低于相似度阈值的相似用户,来确定1个或多个最相似用户。本专利技术实施例还提供了一种网页页面的预读取方法,其特征在于,包括:获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问信息;确定该多个用户中两两用户之间的相似度;按相似度的大小确定1个或多个最相似用户;利用最相似用户计算点击路径的推荐概率并且生成预读取列表;从预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据。优选的,在获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问信息的过程中对每个页面的数据进行数据清洗的预处理的步骤。优选的,在确定该多个用户中两两用户之间的相似度的步骤中,使用余弦相似度的方法来确定相似度。优选的,在确定两两用户之间的相似度的过程中,先筛本文档来自技高网
...

【技术保护点】
1.一种网页页面的预读取方法,其特征在于,包括:获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问信息;确定该多个用户中两两用户之间的相似度;按相似度的大小确定1个或多个最相似用户;利用最相似用户计算点击路径的推荐概率并且生成预读取列表,其中,在利用最相似用户计算点击路径的推荐概率的步骤中,统计1个最相似用户在所述时间段内从第一网页点击进入第二网页的次数,并用该统计出的次数与该最相似用户的相似度的乘积作为该最相似用户从第一网页点击进入第二网页的点击路径的推荐概率;在有多个最相似用户时,以此方式计算其他多个最相似用户从第一网页点击进入第二网页的点击路径的推荐概率;然后将计算出的多个最相似用户的推荐概率相加求和,从而得到从第一网页点击进入第二网页的点击路径的最终推荐概率;以此方式,计算出1个或多个最相似用户在所述时间段内访问的多条点击路径的推荐概率;从预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据。

【技术特征摘要】
1.一种网页页面的预读取方法,其特征在于,包括:获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问信息;确定该多个用户中两两用户之间的相似度;按相似度的大小确定1个或多个最相似用户;利用最相似用户计算点击路径的推荐概率并且生成预读取列表,其中,在利用最相似用户计算点击路径的推荐概率的步骤中,统计1个最相似用户在所述时间段内从第一网页点击进入第二网页的次数,并用该统计出的次数与该最相似用户的相似度的乘积作为该最相似用户从第一网页点击进入第二网页的点击路径的推荐概率;在有多个最相似用户时,以此方式计算其他多个最相似用户从第一网页点击进入第二网页的点击路径的推荐概率;然后将计算出的多个最相似用户的推荐概率相加求和,从而得到从第一网页点击进入第二网页的点击路径的最终推荐概率;以此方式,计算出1个或多个最相似用户在所述时间段内访问的多条点击路径的推荐概率;从预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据。2.根据权利要求1所述的网页页面的预读取方法,其特征在于,还包括:在获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问信息的过程中对每个页面的数据进行数据清洗的预处理的步骤。3.根据权利要求1所述的网页页面的预读取方法,其特征在于,还包括:在确定该多个用户中两两用户之间的相似度的步骤中,使用余弦相似度的方法来确定相似度。4.根据权利要求1所述的网页页面的预读取方法,其特征在于,还包括:在确定两两用户之间的相似度的过程中,先筛选掉访问不同网页的页面数低于页面数访问阈值的用户。5.根据权利要求1所述的网页页面的预读取方法,其特征在于,还包括:以多个用户访问的相同网页作为共同特征,建立倒排表,然后使用余弦相似度的方法来确定倒排表中两两用户之间的相似度。6.根据权利要求5所述的网页页面的预读取方法,其特征在于,还包括:当倒排表中的用户数量超过用户阈值时,筛选掉该倒排表。7.根据权利要求3所述的网页页面的预读取方法,其特征在于,还包括:利用威尔逊区间公式对网页的访问量做置信区间计算,取区间下限作为网页的访问量的最终值。8.根据权利要求1所述的网页页面的预读取方法,其特征在于,还包括:在按相似度的大小确定1个或多个最相似用户的步骤中,通过筛选掉相似度低于相似度阈值的相似用户,来确定1个或多个最相似用户。9.根据权利要求1所述的网页页面的预读取方法,其特征在于,还包括:在利用最相似用户计算点击路径的推荐概率的过程中,筛选掉点击次数低于点击次数阈值的点击路径。10.根据权利要求1所述的网页页面的预读取方法,其特征在于,还包括:在利用最相似用户计算点击路径的推荐概率的过程中,利用威尔逊区间公式对网页的访问次数做置信区间计算,取区间下限作为网页的访问次数的最终值。11.根据权利要求1所述的网页页面的预读取方法,其特征在于,还包括:在生成预读取列表的过程中,多条点击路径在预读取列表中以推荐概率的大...

【专利技术属性】
技术研发人员:梁捷
申请(专利权)人:广州市动景计算机科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1