当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于Jsoup的网页新闻列表的抓取及保存方法技术

技术编号:17007811 阅读:128 留言:0更新日期:2018-01-11 04:03
本发明专利技术涉及一种基于Jsoup的网页新闻列表的抓取及保存方法,包括:建立保存新闻列表的txt文档,设置写入txt中的新闻列表的编码方式;写入待抓取的新闻列表网页的URL地址;用Jsoup解析器将网页的HTML语言格式解析成能被后台直接处理的文本格式;将解析后的文本格式数据封装成对象或数组类型,通过遍历生成流文件;将流文件导出至txt中,实现网页新闻列表的抓取及保存。本发明专利技术的有益效果:直接在本地创建txt文档保存抓取内容,避免了安装及创建数据库的麻烦,大大减小了程序的运行负担与操作难度,节约了时间;使用Jsoup解析器,采用内置的选择器方法,能够更加简单直观地抓取新闻的标题、链接及发布时间等内容。

【技术实现步骤摘要】
一种基于Jsoup的网页新闻列表的抓取及保存方法
本专利技术属于网页信息技术分析处理
,具体涉及一种基于Jsoup的网页新闻列表的抓取及保存方法。
技术介绍
新闻是社会信息传播的主要手段,互联网的飞速发展使新闻的传播更加方便与快捷,许多行业常常需要各种新闻信息,通常会从网络上大规模搜索信息,因而新闻的采集工作成为各行各业都要关心的问题。现有的技术中,新闻列表采集技术一般先在本地建立数据库进行存储,然后利用爬虫技术进行网页抓取,这种操作模式比较繁杂,需要提前安装数据库,对于非IT行业来说,难免耗费多余的财力与人力。因此,如何把Web中的新闻列表信息转化成简单的文本格式信息,并方便保存浏览,简化采集程序,成为解决企业新闻信息获取的良好手段。
技术实现思路
针对现有新闻抓取程序操作较繁杂,专业性强的特点,本专利技术提供一种基于Jsoup的网页新闻列表的抓取及保存方法,该方法适合存在<table>、<div>、<li>等标记的Html新闻网页,能够实现对新闻列表的标题内容、链接地址及发布时间的准确抓取,将抓本文档来自技高网...
一种基于Jsoup的网页新闻列表的抓取及保存方法

【技术保护点】
基于Jsoup的网页新闻列表的抓取及保存方法,其特征在于:在本地服务器中建立txt空文档,在Java程序中给txt文档构造一个文件对象(FileWriter),并设置写入内容的编码格式;使用Jsoup解析器解析新闻列表页面URL的Html,创建Document对象获取解析后的文本内容;对Document对象进一步解析,采用select的方法,包括table、div等,实现对指定元素的过滤,返回Elements对象,继续使用select方法或getElementsByClass/Tag方式将对象中的各元素节点的数据进行细化识别,区分标题内容、链接地址及发布时间;定义若干字符串分别获取Elemen...

【技术特征摘要】
1.基于Jsoup的网页新闻列表的抓取及保存方法,其特征在于:在本地服务器中建立txt空文档,在Java程序中给txt文档构造一个文件对象(FileWriter),并设置写入内容的编码格式;使用Jsoup解析器解析新闻列表页面URL的Html,创建Document对象获取解析后的文本内容;对Document对象进一步解析,采用select的方法,包括table、div等,实现对指定元素的过滤,返回Elemen...

【专利技术属性】
技术研发人员:周翠英樊进刘镇杜子纯
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1