一种网页页面的预读取方法、装置及智能终端设备制造方法及图纸

技术编号:14456476 阅读:50 留言:0更新日期:2017-01-19 09:40
本发明专利技术提供了一种网页页面的预读取方法、装置及智能终端设备。该网页页面的预读取方法包括:获取一个或多个用户在第一时间段内对多个网页页面的访问信息;确定从第一网页页面点击进入第二网页页面的点击路径及其点击次数;基于上述得到的数据信息确定每条点击路径的第一置信度;基于所述第一置信度将多条点击路径制成网页页面的第一预读取列表;从第一预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据。本发明专利技术提供的技术方案的有益效果是:能够提前给用户预读取出概率较高的网页数据,并保存到本地缓存,提高了用户打开网页页面的速度,提升了用户体验。

【技术实现步骤摘要】

本专利技术涉及网页浏览
,具体而言,涉及一种网页页面的预读取方法、装置及智能终端设备
技术介绍
随着互联网的普及、计算机作为家庭以及工作的必备产品之一,人们使用计算机上的浏览器访问互联网日趋频繁;尤其随着例如智能手机和平板电脑的智能终端产品的迅速普及,用户使用终端浏览器访问互联网成为日常行为。在用户使用浏览器打开网页的过程中,如果当前的网络环境受限,或者终端设备的运行速度受限,就会影响网页的打开速度,造成用户等待,用户上网的体验感很差。影响网页打开速度的主要原因是下载网页内容的时间过长。目前,一般采用对可能需要的网页进行预读取的方法来满足用户快速打开网页的需要。该方法主要是在用户浏览当前网页页面的过程中,服务器端获取用户下一步可能需要的网页,在用户未浏览这些网页之前先将这些网页的网址及其资源加载到本地缓存中;当用户访问其中某个网页时直接从本地缓存中读取相关数据来展示给用户阅览,避免了等待下载网页的过程,缩短用户进行网页访问操作后的网页响应时间。现有的网页预读取方法常见以下两种:第一、在用户浏览连续内容的某一个网页时预读取该网页上包含的链接到相邻网页的一个或多个关键字,例如“下一页”、“nextpage”等,然后依次取链接的网页内容并放入本地缓存中。第二、从服务器端获取网页列表,然后依次读取该网页列表中各网页内容并放入本地缓存中。由上可知,现有的第一种网页预读取方法只能适用于特定网页,即只对一个较长的内容被拆分成用超链接链起来的多个网页有效,而对于大量不存在页码顺序的其它网页,如新闻网页等,这种方法将无法预读取到用户后续可能访问的网页,因此并不能加快浏览器网页页面的显示。现有的第二种网页预读取方法则需要预读取大量的数据并载入本地缓存,严重占用缓存空间,甚至造成缓存空间不足的情况发生。另外,人们也提出一些新的预读取方法来试图改善用户体验。例如,提出了基于网页上的热点链接来“猜测”用户可能访问的网页的思路,然后对这些网页进行有针对性的预读取,以提高预读取的有效性。例如,2012年9月12日公开的申请号为201210074771.6的中国专利文献,名称为“一种网页预加载方法及系统”,该方法为:确定源网页内包含的热点链接,对热点链接对应的目标网页进行预加载;但是,该专利文献中公开的确定热点链接的方式还是本领域技术人员容易想到的方法,例如根据源网页A中某链接被点击的总次数来确定是否为热点链接;以用户对各个链接的点击顺序。这种方法确定热点链接的准确率偏低。例如,该申请号为201210074771.6的专利文献的第0099段中就自述了“在实际应用中,可能存在虽然用户点击了某链接,但是用户可能并不喜欢或者不是特别喜欢这个链接的情况,在这种情况下,如果单纯地通过点击次数来区分一个链接是否为热点链接,可能会使得结果不够准确”。同样,以用户对各个链接的点击顺序来确定热点链接的准确率也是偏低的。例如,还存在用户对源网页上包含的多个热点链接都感兴趣的情况,其不一定每天都是按照一定顺序点击,当某个热点链接出现热点信息时,用户也许先点击该热点链接。例如足球世界杯期间,用户会先点击世界杯比赛新闻;在世界杯期间,某款非常著名品牌召开新品发布会,用户会先点击关于该新品的热点链接。因此,即便将这两种方式组合,用该组合方式确定热点链接的准确率也将偏低。另外,申请号为201210074771.6的专利文献并没有考虑热点链接还存在热度随着时间衰减的问题。例如,美国篮球NBA总比赛结束后的一段时间,用户关注NBA栏目的热度会显著降低。还例如,热点新闻或热点头条每天都在出现,今天的热点新闻或热点头条到明天也许热度就降低了,一星期之后也许就没人关注了。再例如,还提出了一种基于用户的浏览习惯来“猜测”用户可能访问的网页的思路,然后对这些网页进行有针对性的预读取,以提高预读取的有效性。例如,2012年10月17日公开的申请号为201110086435.9的中国专利文献,名称为“一种网页预读取的方法、装置及一种浏览器”,该方法为:读取用户的浏览习惯信息;在用户浏览当前网页的过程中,根据所述用户的浏览习惯信息分析出将要预读取的网页链接,从服务器端预读取所述网页链接对应的网页数据并保存到本地缓存。但是,其公开的预读取方法为:将用户常常点击网页上的那部分内容的位置区域的一条或多条网页链接预读取出来,或者记录在用户点击某网页A上的关键词,当下次再打开该网页A是,将匹配关键词的前几条或大部分网页链接进行预读取。这种网页预读取方法的缺点是显而易见的,其预读取一条网页链接或者匹配关键词的前几条网页链接,则给用户预读取出网页数据的命中率很低,如果预读取多条网页链接或者匹配关键词的大部分网页链接,则需要预读取大量的数据并载入本地缓存,严重占用缓存空间,甚至造成缓存空间不足的情况发生。因此,目前需要一种新的网页页面的预读取方法。
技术实现思路
本专利技术的目的在于提供一种网页页面的预读取方法、装置及智能终端设备,以改善上述的问题。在本专利技术的实施例中提供了一种网页页面的预读取方法,其特征在于,包括:获取一个或多个用户在第一时间段内对第一多个网页页面的访问信息;确定从第一多个网页页面中的第一网页页面点击进入第二网页页面的点击路径及其点击次数;基于上述步骤得到的数据信息确定点击路径的第一置信度;基于所述第一置信度将多条点击路径制成网页页面的第一预读取列表;从第一预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据。优选的,在获取一个或多个用户在第一时间段内对第一多个网页页面的访问信息的过程中对每个网页页面的数据进行数据清洗的预处理的步骤。优选的,在确定从第一多个网页页面中的第一网页页面点击进入第二网页页面的点击路径及其点击次数的步骤中,先以每个网页页面被访问的时间顺序方式将获取的对第一多个网页页面的访问信息制成第一网页页面访问序列表,按一定时间间隔将所述第一网页页面访问序列表中的多个网页页面分成多个页面块,确定每个页面块中从第一网页页面点击进入第二网页页面的点击路径及其点击次数,其中用在每个页面块内的点击路径上的第一和第二网页页面之间的第一衰减系数乘以该点击路径在该页面块内发生的点击次数得到经衰减处理的点击次数,将所有页面块内的相同点击路径的经衰减处理的点击次数线性相加,得到该点击路径的最终点击次数。优选的,计算第一衰减系数的方法为:exp(-A*(D-1)),其中A是常数,D是排序距离。优选的,在确定点击路径的第一置信度的过程中或之前筛选掉点击路径的点击次数低于第一点击阈值的点击路径。优选的,确定点击路径的第一置信度的方法为:NPMI(a,b)=logx(p(a,b)/(p(a)*p(b))/-logx(p(a,b));式中:NPMI(a,b)表示从第一网页页面a点击进入第二网页页面b的点击路径a->b的第一置信度,x为底数变量,p(a,b)表示点击路径a->b的最终点击次数/页面块的总数量,p(a)表示第一页面a所在页面块的数量/页面块的总数量,和p(b)表示第二页面b所在页面块的数量/页面块的总数量。优选的,在制成网页页面的第一预读取列表之前,先筛选掉第一置信度低于第一本文档来自技高网
...

【技术保护点】
一种网页页面的预读取方法,其特征在于,包括:获取一个或多个用户在第一时间段内对第一多个网页页面的访问信息;确定从第一多个网页页面中的第一网页页面点击进入第二网页页面的点击路径及其点击次数;基于上述步骤得到的数据信息确定点击路径的第一置信度;基于所述第一置信度将多条点击路径制成网页页面的第一预读取列表;从第一预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据。

【技术特征摘要】
1.一种网页页面的预读取方法,其特征在于,包括:获取一个或多个用户在第一时间段内对第一多个网页页面的访问信息;确定从第一多个网页页面中的第一网页页面点击进入第二网页页面的点击路径及其点击次数;基于上述步骤得到的数据信息确定点击路径的第一置信度;基于所述第一置信度将多条点击路径制成网页页面的第一预读取列表;从第一预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据。2.根据权利要求1所述的网页页面的预读取方法,其特征在于,还包括:在获取一个或多个用户在第一时间段内对第一多个网页页面的访问信息的过程中对每个网页页面的数据进行数据清洗的预处理的步骤。3.根据权利要求1所述的网页页面的预读取方法,其特征在于,还包括:在确定从第一多个网页页面中的第一网页页面点击进入第二网页页面的点击路径及其点击次数的步骤中,先以每个网页页面被访问的时间顺序方式将获取的对第一多个网页页面的访问信息制成第一网页页面访问序列表,按一定时间间隔将所述第一网页页面访问序列表中的多个网页页面分成多个页面块,确定每个页面块中从第一网页页面点击进入第二网页页面的点击路径及其点击次数,其中用在每个页面块内的点击路径上的第一和第二网页页面之间的第一衰减系数乘以该点击路径在该页面块内发生的点击次数得到经衰减处理的点击次数,将所有页面块内的相同点击路径的经衰减处理的点击次数线性相加,得到该点击路径的最终点击次数。4.根据权利要求3所述的网页页面的预读取方法,其特征在于,还包括:计算第一衰减系数的方法为:exp(-A*(D-1)),其中A是常数,D是排序距离。5.根据权利要求1所述的网页页面的预读取方法,其特征在于,还包括:在确定点击路径的第一置信度的过程中或之前筛选掉点击路径的点击次数低于第一点击阈值的点击路径。6.根据权利要求1-5之一所述的网页页面的预读取方法,其特征在于,还包括:确定点击路径的第一置信度的方法为:NPMI(a,b)=logx(p(a,b)/(p(a)*p(b))/-logx(p(a,b));式中:NPMI(a,b)表示从第一网页页面a点击进入第二网页页面b的点击路径a->b的第一置信度,x为底数变量,p(a,b)表示点击路径a->b的最终点击次数/页面块的总数量,p(a)表示第一页面a所在页面块的数量/页面块的总数量,和p(b)表示第二页面b所在页面块的数量/页面块的总数量。7.根据权利要求1所述的网页页面的预读取方法,其特征在于,还包括:在制成网页页面的第一预读取列表之前,先筛选掉第一置信度低于第一置信度阈值的点击路径。8.根据权利要求1所述的网页页面的预读取方法,其特征在于,还包括:基于所述第一置信度将多条点击路径制成网页页面的第一预读取列表的步骤中,以第一置信度值大小进行有序排列的方式将多条点击路径制成网页页面的第一预读取列表。9.根据权利要求1所述的网页页面的预读取方法,其特征在于,还包括:在从第一预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据的步骤中,当在第一预读取列表中查询到从当前浏览的网页能够点击进入多个目标网页的多条点击路径时,选择最大第一置信度的点击路径来预读取相
\t应待浏览的目标网页数据,或者按第一置信度的降序方式预读取多个相应待浏览的目标网页数据。10.根据权利要求1所述的网页页面的预读取方法,其特征在于,还包括:当第一预读取列表中不存在从当前浏览的网页点击进入目标网页的点击路径时,不触发预读取操作。11.根据权利要求1所述的网页页面的预读取方法,其特征在于,还包括:在从第一预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据的步骤之前,制作第二预读取列表并从第二预读取列表中查询当前浏览的网页页面的点击路径,当第二预读取列表中存在该点击路径时预读取相应待浏览的目标网页数据;当第二预读取列表中不存在该点击路径时执行从第一预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标网页数据的步骤,该制作第二预读取列表的方法包括:获取每个用户在涵盖了第一时间段的第二时间段内对第二多个网页页面的访问信息;确定从第二多个网页页面中的每个页面点击进入另一个页面的点击路径及其点击次数,和分析确定每条点击路径的路径点击率以及从每个页面点击进入多个不同页面的多条点击路径的路径点击率的熵;根据所述点击路径的点击次数和所述路径点击率的熵确定每条点击路径的第二置信度;基于所述第二置信度将多条点击路径制成网页页面的第二预读取列表。12.根据权利要求11所述的网页页面的预读取方法,其特征在于,还包括:在获取每个用户在涵盖了第一时间段的第二时间段
\t内对第二多个网页页面的访问信息的过程中对每个网页页面的数据进行数据清洗的步骤。13.根据权利要求11所述的网页页面的预读取方法,其特征在于,还包括:第二时间段的时长大于或等于第一时间段的时长且该第一时间段在该第二时间段...

【专利技术属性】
技术研发人员:梁捷蒋喻新姚文清吴伙成许延伟梁延俊芦焱仇家伟
申请(专利权)人:广州市动景计算机科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1