当前位置: 首页 > 专利查询>福州大学专利>正文

面向信息发布类网站的移动版自动生成的方法技术

技术编号:14826055 阅读:36 留言:0更新日期:2017-03-16 13:32
本发明专利技术涉及一种面向信息发布类网站的移动版自动生成的方法,其包括以下步骤:利用爬虫技术,根据用户指定转化网站的入口地址,爬取该网站中的所有网页;对爬取网站中的所有网页进行分析,针对每一个网页提取导航栏中的数据和网页中的主要内容;将提取的结构化数据经过适配转化为适应移动端页面展示风格的数据。采用本发明专利技术技术方案用户只需要给出该网站的入口地址,就能够自动生成适合手机浏览移动版网站。在这个过程中通过网页爬取,数据提取,网页适配完成来完成移动端页面的生成。本发明专利技术极大地较少了开发移动版的成本并且减少了移动版网站的开发周期,具有很强的商业价值。

【技术实现步骤摘要】

本专利技术涉及大数据挖掘生成领域,具体涉及一种面向信息发布类网站的移动版自动生成的方法
技术介绍
随着3G、4G网络的普及,手机上网日趋便利,智能手机成为互联网用户一种重要的信息获取设备。但是,传统的信息发布类网站通常针对PC终端进行开发,其页面布局和内容字号等网页风格仅适合电脑屏幕,而不适合手机屏幕,通过手机浏览网页用户体验差。其次,与PC端网页不同,因为带宽和流量的限制,移动端的网页无法像PC端那样具有丰富的动态功能和大量的图片,事实上,移动端网站的设计应该尽可能的简洁。于是,大型企业往往针对同一个信息发布类网站,分别开发一个PC版本和一个移动版本,并根据接入终端的类型,提供不同的服务。然而,额外开发一个移动版本费用较高,给小微型企业带来较大的负担。因此,通过较低的成本获得一个基本可用的网站移动版本,是大量小微型企业的迫切需求。为了满足市场需求本文提出了一种信息发布类网站的移动版自动生成的方法。利用本方法用户只需要输入网站的网址就可以将该站点的所有页面转化为适应移动端的页面大小的网页,并且在PC端页面转化为移动端页面的同时去除页面中与主要内容无关的部分,只展示PC端页面中的主要内容部分。这种方法不仅能够节省网页下载的时间和流量,也方便用户浏览页面。信息发布类网站的自动生成的方法主要存在两个方面的挑战:一方面,PC端页面展示的内容与移动端页面展示的内容存在差异,移动端页面只需要展示主体内容,所以,如何抽取网站的组织架构和每个网页的主要内容是一个难题。另一方面,PC端复杂的网页页面结构如何适配到移动端相对简单的页面结构。
技术实现思路
本专利技术的目的是提供一种面向信息发布类网站的移动版自动生成的方法,用于解决现有技术的缺陷。为实现上述目的,本专利技术采用以下技术方案:一种面向信息发布类网站的移动版自动生成的方法,其特征在于,包括以下步骤:步骤S1:利用爬虫技术,根据用户指定转化网站的入口地址,爬取该网站中的所有网页;步骤S2:对爬取网站中的所有网页进行分析,针对每一个网页提取导航栏中的数据和网页中的主要内容;步骤S3:将提取的结构化数据经过适配转化为适应移动端页面展示风格的数据。与现有技术相比,本专利技术解决了现有技术中大多数的网站设计都是基于PC端,无法满足移动端浏览的需求。本专利技术提出一种能够将PC端网站转化为适用移动端用户使用的网站的方法。用户只需要给出该网站的入口地址,就能够自动生成适合手机浏览移动版网站。在这个过程中通过网页爬取,数据提取,网页适配完成来完成移动端页面的生成。本专利技术极大地较少了开发移动版的成本并且减少了移动版网站的开发周期,具有很强的商业价值。附图说明图1为本专利技术提到的信息发布类网站的移动版自动生成框架示意图。图2为主要内容块获取方法框架示意图。图3为本专利技术一实施例中导航页结构图。图4为本专利技术中主要内容块获取方法框架示意图。图5为本专利技术一实施例中移动端导航栏模板。图6本专利技术具体实施例中网页适配结果示意图。具体实施方式下面结合附图和具体实施例对本专利技术做进一步解释说明。本专利技术提出一种面向信息发布类网站的移动版自动生成的方法,该方法由三个部分组成:统一模型、对单一云资源进行管理的云资源模型以及模型同步中间件,如图1所示。主要步骤如下:步骤S1:利用爬虫技术,根据用户指定转化网站的入口地址,爬取该网站中的所有网页;步骤S2:对爬取网站中的所有网页进行分析,针对每一个网页提取导航栏中的数据和网页中的主要内容;步骤S3:将提取的结构化数据经过适配转化为适应移动端页面展示风格的数据。该方法的设计过程中主要存在三个难点:(1)在一个网站中,并不是所有的网页都有导航栏。所以,首先要判断网页中是否存在导航栏。其次,在一个网站的不同的网页中,其导航栏所处的位置和展示的风格可能也各不相同,所以,针对每一个存在导航栏的网页要去判断导航栏所在的位置和范围。因此,导航栏数据的提取是一个技术难点。(2)Web网页的排版格式没有统一的标准,所以从多源、海量、异构、价值密度低的网页中精准提取网页所要表达的内容是极具挑战性的问题。因此,网页内容的提取是一个技术难点。(3)Web网页中PC端的数据展示风格不适用于移动端,所以从网页中抽取出来的数据要经过一定的处理,按照移动端页面风格再次展示出来。如何保证在移动端展示的内容不会发生页面溢出是网页适配的一个技术难点。信息发布类网站的移动版自动生成实际上是将PC端网站中的网页通过一系列处理转化为适应移动版的网页。在完成从PC端到移动端的转化过程中,需要对网页中的数据进行提取,清洗,去除不适合在移动端展示的数据。所以,网站内容的获取是移动版自动生成的关键技术。每一个网站都有其固定的组织结构,根据网页的url特征或网页间的链接关系,可以得到网站的组织结构。在用户浏览网页的过程中,网站的组织结构可以引导用户在一定范围内去查找目标网页。我们通过网页爬取获得所有一个网站中的所有网页,但是这些网页都是无序的,如何将爬取的网页按照原有的组织结构重新构建移动版网站是网站自动生成中的重要部分。在一个网站中网页的导航栏可以很好地体现网站的组织结构,所以在面向移动端网站内容获取的过程中需要对页面的导航栏进行抽取,并在移动端重现。信息发布类网站移动版的自动生成主要是为了解决两个问题:第一,PC端网页其页面布局和内容字号等风格仅适合电脑屏幕,而不适合移动端屏幕。第二,在PC端的网页中通常带有广告,大量的图片和版权声明等,因为移动端的流量限制使得这些内容不应该再次出现在移动版的网页中。所以我们需要从PC端的网页中抽取出主要内容,经过一定的处理,再将主要内容适配到移动端。综上所诉,网站内容的抽取应该包含两个部分:导航栏获取和主要内容块获取。网页的切割和分块一直是Web页面数据挖掘领域的研究重点。利用准确的切割和分块可以很容易的提取出网页中的内容。网页的切割和分块的研究主要方向有:基于视觉的网页分块,基于节点密度的网页分块和基于html标签及其包含文字信息特性的分块。为了能够方便确定导航栏的HTML源码的边界和网页内容的提取,本文基于html的<div>标签对网页进行切割分块,方便网页内容的提取。导航栏抽取的难点在于Web网页的HTML源码中不存在统一标签来表示导航栏,而且在每一个网页中导航栏的位置并不固定。为了能够准确提取导航栏,我们需要去寻找导航栏的特征。通过大量的实例分析发现,网页中的导航栏存在三个显著特征:1)HTML源码中导航栏对应标签的id属性或class属性通常含有字符“nav”;2)导航栏中的超链接通常是站内链接;3)导航栏中的超链接对应的文本通常是短文本。因此本专利技术步骤S2中的网页提取导航栏中的数据包括以下具体步骤:步骤S21:每一个Web页面均可以表示成一个DOM树Td,Td是一个有向图<V,E>,其中V为顶点的集合,V={v|v∈html标签集Tag本文档来自技高网...
面向信息发布类网站的移动版自动生成的方法

【技术保护点】
一种面向信息发布类网站的移动版自动生成的方法,其特征在于,包括以下步骤:步骤S1:利用爬虫技术,根据用户指定转化网站的入口地址,爬取该网站中的所有网页;步骤S2:对爬取网站中的所有网页进行分析,针对每一个网页提取导航栏中的数据和网页中的主要内容;步骤S3:将提取的结构化数据经过适配转化为适应移动端页面展示风格的数据。

【技术特征摘要】
1.一种面向信息发布类网站的移动版自动生成的方法,其特征在于,包括以下步骤:步骤S1:利用爬虫技术,根据用户指定转化网站的入口地址,爬取该网站中的所有网页;步骤S2:对爬取网站中的所有网页进行分析,针对每一个网页提取导航栏中的数据和网页中的主要内容;步骤S3:将提取的结构化数据经过适配转化为适应移动...

【专利技术属性】
技术研发人员:陈星王一洲戴远飞
申请(专利权)人:福州大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1