一种基于Jsoup的网页新闻列表的抓取及保存方法技术

技术编号：17007811 阅读：128 留言：0更新日期：2018-01-11 04:03

本发明专利技术涉及一种基于Jsoup的网页新闻列表的抓取及保存方法，包括：建立保存新闻列表的txt文档，设置写入txt中的新闻列表的编码方式；写入待抓取的新闻列表网页的URL地址；用Jsoup解析器将网页的HTML语言格式解析成能被后台直接处理的文本格式；将解析后的文本格式数据封装成对象或数组类型，通过遍历生成流文件；将流文件导出至txt中，实现网页新闻列表的抓取及保存。本发明专利技术的有益效果：直接在本地创建txt文档保存抓取内容，避免了安装及创建数据库的麻烦，大大减小了程序的运行负担与操作难度，节约了时间；使用Jsoup解析器，采用内置的选择器方法，能够更加简单直观地抓取新闻的标题、链接及发布时间等内容。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Jsoup的网页新闻列表的抓取及保存方法
本专利技术属于网页信息技术分析处理
，具体涉及一种基于Jsoup的网页新闻列表的抓取及保存方法。
技术介绍
新闻是社会信息传播的主要手段，互联网的飞速发展使新闻的传播更加方便与快捷，许多行业常常需要各种新闻信息，通常会从网络上大规模搜索信息，因而新闻的采集工作成为各行各业都要关心的问题。现有的技术中，新闻列表采集技术一般先在本地建立数据库进行存储，然后利用爬虫技术进行网页抓取，这种操作模式比较繁杂，需要提前安装数据库，对于非IT行业来说，难免耗费多余的财力与人力。因此，如何把Web中的新闻列表信息转化成简单的文本格式信息，并方便保存浏览，简化采集程序，成为解决企业新闻信息获取的良好手段。
技术实现思路
针对现有新闻抓取程序操作较繁杂，专业性强的特点，本专利技术提供一种基于Jsoup的网页新闻列表的抓取及保存方法，该方法适合存在<table>、<div>、<li>等标记的Html新闻网页，能够实现对新闻列表的标题内容、链接地址及发布...

【技术保护点】
基于Jsoup的网页新闻列表的抓取及保存方法，其特征在于：在本地服务器中建立txt空文档，在Java程序中给txt文档构造一个文件对象(FileWriter)，并设置写入内容的编码格式；使用Jsoup解析器解析新闻列表页面URL的Html，创建Document对象获取解析后的文本内容；对Document对象进一步解析，采用select的方法，包括table、div等，实现对指定元素的过滤，返回Elements对象，继续使用select方法或getElementsByClass/Tag方式将对象中的各元素节点的数据进行细化识别，区分标题内容、链接地址及发布时间；定义若干字符串分别获取Elemen...

【技术特征摘要】
1.基于Jsoup的网页新闻列表的抓取及保存方法，其特征在于：在本地服务器中建立txt空文档，在Java程序中给txt文档构造一个文件对象(FileWriter)，并设置写入内容的编码格式；使用Jsoup解析器解析新闻列表页面URL的Html，创建Document对象获取解析后的文本内容；对Document对象进一步解析，采用select的方法，包括table、div等，实现对指定元素的过滤，返回Elemen...

【专利技术属性】
技术研发人员：周翠英，樊进，刘镇，杜子纯，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人