【技术实现步骤摘要】
一种基于Jsoup的网页新闻列表的抓取及保存方法
本专利技术属于网页信息技术分析处理
,具体涉及一种基于Jsoup的网页新闻列表的抓取及保存方法。
技术介绍
新闻是社会信息传播的主要手段,互联网的飞速发展使新闻的传播更加方便与快捷,许多行业常常需要各种新闻信息,通常会从网络上大规模搜索信息,因而新闻的采集工作成为各行各业都要关心的问题。现有的技术中,新闻列表采集技术一般先在本地建立数据库进行存储,然后利用爬虫技术进行网页抓取,这种操作模式比较繁杂,需要提前安装数据库,对于非IT行业来说,难免耗费多余的财力与人力。因此,如何把Web中的新闻列表信息转化成简单的文本格式信息,并方便保存浏览,简化采集程序,成为解决企业新闻信息获取的良好手段。
技术实现思路
针对现有新闻抓取程序操作较繁杂,专业性强的特点,本专利技术提供一种基于Jsoup的网页新闻列表的抓取及保存方法,该方法适合存在<table>、<div>、<li>等标记的Html新闻网页,能够实现对新闻列表的标题内容、链接地址及发布 ...
【技术保护点】
基于Jsoup的网页新闻列表的抓取及保存方法,其特征在于:在本地服务器中建立txt空文档,在Java程序中给txt文档构造一个文件对象(FileWriter),并设置写入内容的编码格式;使用Jsoup解析器解析新闻列表页面URL的Html,创建Document对象获取解析后的文本内容;对Document对象进一步解析,采用select的方法,包括table、div等,实现对指定元素的过滤,返回Elements对象,继续使用select方法或getElementsByClass/Tag方式将对象中的各元素节点的数据进行细化识别,区分标题内容、链接地址及发布时间;定义若干字符串 ...
【技术特征摘要】
1.基于Jsoup的网页新闻列表的抓取及保存方法,其特征在于:在本地服务器中建立txt空文档,在Java程序中给txt文档构造一个文件对象(FileWriter),并设置写入内容的编码格式;使用Jsoup解析器解析新闻列表页面URL的Html,创建Document对象获取解析后的文本内容;对Document对象进一步解析,采用select的方法,包括table、div等,实现对指定元素的过滤,返回Elemen...
【专利技术属性】
技术研发人员:周翠英,樊进,刘镇,杜子纯,
申请(专利权)人:中山大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。