一种基于java平台的目标网站内容获取方法技术

技术编号:17248666 阅读:29 留言:0更新日期:2018-02-11 06:53
本发明专利技术公开了一种基于java平台的目标网站内容获取方法,用于提高网站内容的获取效率。在该方法中,在用户启动网站内容自动获取开关后,根据生成的功能实例读取用户导入的jar配置文件,jar配置文件包括:线程数量、数据源地址和模板;根据jar配置文件设定的线程数量实例化相应数量的工作线程;使用相应数量的工作线程分别请求jar配置文件设定的数据源地址,从数据源地址获取符合搜索规则的目标网站内容,搜索规则包括:用户要求搜索的关键字;将目标网站内容填充到jar配置文件设定的模板中,形成流式文档数据;将流式文档数据存储到流式文档素材库中,以使用户从流式文档素材库中查找匹配目标网站的素材内容。

【技术实现步骤摘要】
一种基于java平台的目标网站内容获取方法
本专利技术涉及计算机
,具体涉及一种基于java平台的目标网站内容获取方法。
技术介绍
网站需要靠丰富的内容吸引访客来访,因此需要积累大量与网站主题相关的素材内容,特别像提供综合信息服务的网站尤为如此。例如门户类网站,需要提供可供用户浏览的服务内容。进一步的需求可能需要网站提供文档供访客下载、查看。现有技术中对于网站的素材内容,需要由人工采编、录入完成,在项目初期这样的投入尤为需要,但需要耗费不少的人力物力。随着项目进展、访客流量增大,对信息、文档的及时性和数量都有更高的要求,基于传统方式去实现需求将不可避免的出现堰塞湖效应,倒逼项目投入更多的资源去应对,因此对于现有技术中网站内容的获取,存在效率低的问题。
技术实现思路
本专利技术的目的在于提供一种基于java平台的目标网站内容获取方法,用于提高网站内容的获取效率。为了达到上述目的,本专利技术采用这样的如下技术方案:本专利技术提供一种基于java平台的目标网站内容获取方法,包括:在用户启动网站内容自动获取开关后,根据生成的功能实例读取用户导入的jar配置文件,所述jar配置文件包括:线程数量、数据源地址和模板;根据所述jar配置文件设定的线程数量实例化相应数量的工作线程;使用所述相应数量的工作线程分别请求所述jar配置文件设定的数据源地址,从所述数据源地址获取符合搜索规则的目标网站内容,所述搜索规则包括:所述用户要求搜索的关键字;将所述目标网站内容填充到所述jar配置文件设定的模板中,形成流式文档数据;将所述流式文档数据存储到流式文档素材库中,以使所述用户从所述流式文档素材库中查找匹配目标网站的素材内容。采用上述技术方案后,本专利技术提供的技术方案将有如下优点:本专利技术实施例用户可以启动网站内容自动获取开关,通过jar配置文件启动多个工作线程,各个工作线程可以请求数据源地址,从数据源地址获取符合搜索规则的目标网站内容,该目标网站内容匹配于用户需要搜索的关键字,通过模板填充的方式可以将目标网站内容保存为流式文档数据,流式文档数据可存储到流式文档素材库中,从而可以实现流式文档素材库的自动更新,用户查找该流式文档素材库,可以找出匹配目标网站的素材内容。本专利技术实施例中替代人工采编网站内容,并制成流式文档录入素材库中。通过采用本技术方案,可自定义关键词对用户指定的网站内容进行抓取,并根据用户定义的输出模板将符合搜索规则的内容保存到素材库,结合检索、抓取、流式文件构建技术,用户通过应用本专利技术主张的技术方案,通过设定关键字对目标网站进行内容过滤抓取,并转化成流式文档进行存储,因此本专利技术实施例中可以实现网站文档的快速积累,提高网站内容的获取效率。附图说明图1为本专利技术实施例提供一种基于java平台的目标网站内容获取方法的流程方框示意图;图2为本专利技术实施例提供的抓取指定网站内容构建流式文档数据存储的实现流程示意图。具体实施方式本专利技术实施例提供了一种基于java平台的目标网站内容获取方法,用于提高网站内容的获取效率。为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域的技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。以下分别进行详细说明。本专利技术基于java平台的目标网站内容获取方法的一个实施例,可应用于java平台中的目标网站内容自动获取场景中,本专利技术实施例提供抓取指定网站内容构建流式文档数据存储的技术,主要基于Java技术平台实现,用户的项目可通过引入技术所封装的jar,并在自己的用户工程中配置相应的文件,即可以实现本专利技术所主张的内容。请参阅图1和图2所示,本专利技术提供的基于java平台的目标网站内容获取方法,可以包括如下步骤:101、在用户启动网站内容自动获取开关后,根据生成的功能实例读取用户导入的jar配置文件,jar配置文件包括:线程数量、数据源地址和模板。在本专利技术实施例中,可以在服务器的输出界面上设置网站内容自动获取开关,用户可以设置是否开启该开关,当用户触发该开关之后,按照本专利技术实施例提供的基于java平台的目标网站内容获取方法执行目标网站内容的自动获取流程。当用户触发网站内容自动获取开关后,首先生成功能实例,进行功能实例化,使用该功能实例读取用户导入的jar(JavaARchive)配置文件。jar配置文件即可以是jar包,在jar包有用户预先写入的类,这些类被打包到jar配置问中,因此可以将jar包引入用户工程,然后就可以直接使用这些jar包中的类和属性以及方法。jar文件可以跨平台使用,多个文件合并到一个jar文件里以后,只需向远程服务器发出一次请求即可。同时,由于采用了压缩技术,所以可在更短的时间里获得全部数据。该jar配置文件具体可以包括:线程数量、数据源地址和模板。需要说明的是,jar配置文件包括的内容可以根据场景灵活确定,此处不做限定。在本专利技术的一些实施例中,步骤101用户启动网站内容自动获取开关之前,本专利技术实施例提供的方法还包括如下步骤:获取用户导入到用户工程中的jar配置文件;将jar配置文件放入到工程类路径下,并根据jar配置文件配置用户工程的数据源地址、模板地址、模板注入属性和模板;使用模板注入属性对模板进行排版,并将模板更新到模板地址。其中,本专利技术实施例中具体可以通过用户工程的方式来完成目标网站内容的自动下载。用户工程也就是工程项目,本专利技术实施例中所使用的用户工程具体可以使用java项目。具体用户工程部署步骤如下:首先用户在工程中导入本专利技术集成的jar配置文件,该jar配置文件可以包括httpclient与jsoup解析器,基础jar可以通过服务器来下载。其中httpclient主要用于发起请求,爬取网页数据;jsoup相当于解析网页信息的作用,使用方式类似java版的jquery,可以灵活使用。然后将配置文件放入工程类路径下,配置用户所需抓取的深度和广度、数据源地址、模板地址、模板注入属性等属性,模板。其中模板是指生成用户所需要的文档内容,模板注入属性指的是模板中存在变量定义,根据变量的映射关系进行数据填充。接下来根据前述步骤设定的模板注入属性,对模板进行排版,并将模板放置到前述步骤指定的地址,即模板的存储地址。最后在用户工程中引入启动本专利技术的功能代码模块,调用后即可执行相应的配置操作,本专利技术实施例提供的功能代码模块,具体如后续实施例中所描述。102、根据jar配置文件设定的线程数量实例化相应数量的工作线程。在本专利技术实施例中,用户可以通过jar配置文件设定线程数,根据预先设定的线程数来实例化相应数量的工作线程,例如用户通过jar配置文件设置了N个数量的线程数量,则可以实例化N个的工作线程,即同时启动N个工作线程,本专利技术实施例中通过工作线程可以使用多线程执行任务,从而提高目标本文档来自技高网...
一种基于java平台的目标网站内容获取方法

【技术保护点】
一种基于java平台的目标网站内容获取方法,其特征在于,包括:在用户启动网站内容自动获取开关后,根据生成的功能实例读取用户导入的jar配置文件,所述jar配置文件包括:线程数量、数据源地址和模板;根据所述jar配置文件设定的线程数量实例化相应数量的工作线程;使用所述相应数量的工作线程分别请求所述jar配置文件设定的数据源地址,从所述数据源地址获取符合搜索规则的目标网站内容,所述搜索规则包括:所述用户要求搜索的关键字;将所述目标网站内容填充到所述jar配置文件设定的模板中,形成流式文档数据;将所述流式文档数据存储到流式文档素材库中,以使所述用户从所述流式文档素材库中查找匹配目标网站的素材内容。

【技术特征摘要】
1.一种基于java平台的目标网站内容获取方法,其特征在于,包括:在用户启动网站内容自动获取开关后,根据生成的功能实例读取用户导入的jar配置文件,所述jar配置文件包括:线程数量、数据源地址和模板;根据所述jar配置文件设定的线程数量实例化相应数量的工作线程;使用所述相应数量的工作线程分别请求所述jar配置文件设定的数据源地址,从所述数据源地址获取符合搜索规则的目标网站内容,所述搜索规则包括:所述用户要求搜索的关键字;将所述目标网站内容填充到所述jar配置文件设定的模板中,形成流式文档数据;将所述流式文档数据存储到流式文档素材库中,以使所述用户从所述流式文档素材库中查找匹配目标网站的素材内容。2.根据权利要求1所述的一种基于java平台的目标网站内容获取方法,其特征在于,所述用户启动网站内容自动获取开关之前,所述方法还包括:获取用户导入到用户工程中的jar配置文件;将所述jar配置文件放入到工程类路径下,并根据所述jar配置文件配置所述用户工程的数据源地址、模板地址、模板注入属性和模板;使用所述模板注入属性对所述模板进行排版,并将所述模板更新到所述模...

【专利技术属性】
技术研发人员:何祥利周华宋小厚
申请(专利权)人:南威软件股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1