一种文章采集的方法技术

技术编号:6718092 阅读:217 留言:0更新日期:2012-04-11 18:40
一种文章采集的方法,先选定采集来源,采用正则表达式制定采集规则,使用关键信息处理方式确定采集内容的范围,将采集的内容和目标站点的栏目进行绑定;开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站点采集;根据设定的采集规则,把采集到的内容存放在各自对应的栏目下;若需要自动发布,则调用文章合并模板进行发布;本发明专利技术根据用户自定义的任务配置,批量而精确地抽取目标网络媒体栏目中的新闻或文章,转化为结构化的记录保存或用于内部使用或外网发布,能快速实现外部信息的获取,对各类网站新闻的采集具有较快的速度和较高的准确率。

【技术实现步骤摘要】

本专利技术涉及一种针对各式各样的网站文章进行自动采集的方法。
技术介绍
文章采集是根据用户定义的关键词字,从各式各样的网站上检索出相关的数据, 并对数据进行合理的截取、分类、去重和过滤,然后以文件或数据库的方式保存下来。文章采集应用的关键在于如何从众多的网站获取所需要的准确内容到预期的中 心资源库中,然后进行快速的利用。文章采集的核心技术是模式定义和模式匹配。模式属 于人工智能的术语,是对前人积累的经验的抽象和升华。简单地说,就是从不断重复出现的 事件中发现和抽象出的规律,是解决问题的经验的总结。只要是一再重复出现的事物,就可 能存在某种模式。文章采集的模式大多不是程序自动发现的,目前几乎所有的文章采集产 品都需要通过人工来定义。但模式本身是个很复杂、很抽象的内容,所以所有的开发者精力 都花在怎样让模式定义更简单、更准确上,这也是文章采集技术竞争力的衡量标准。目前大 多采用正则表达式定义和文档结构定义。传统的文章采集存在几个方面的问题1、采集的是整篇文章,需要手工进行页面 处理才能被利用;2、不能分栏目采集;3、只支持单一站点的采集;4、采集的文章不能自动 套用自己网站的格式进行发布,需要进行手工处理。
技术实现思路
本专利技术的目的在于提供,支持网站群的多站点采集,可针对 文章进行分段采集和分栏目采集,采集的文章能自动套用自己网站的格式进行发布,不需 要进行手工处理。,具体包括如下步骤先选定采集来源,采用正则表达式制定 采集规则,使用关键信息处理方式确定采集内容的范围,将采集的内容和目标站点的栏目 进行绑定;开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站点采集; 根据设定的采集规则,把采集到的内容存放在各自对应的栏目下;若需要自动发布,则调用 文章合并模板进行发布。所述的采用正则表达式制定采集规则,是指输入需要采集的静态页面地址,确定 地址中到第N个“/”为需要被采集的静态文件内容的地址,并将其自动转换成正则表达式 规则。所述的关键信息处理方式,指确定需要采集内容的文章标题或者关键信息的字符 串位置。本专利技术采用正则表达式定义的方式,根据用户自定义的任务配置,批量而精确地 抽取目标网络媒体栏目中的新闻或文章,转化为结构化的记录(标题,作者,内容,采集时 间,来源,分类,相关图片等),保存在本地数据库中,用于内部使用或外网发布,快速实现外 部信息的获取,对各类网站新闻的采集具有较快的速度和较高的准确率。本专利技术可在自动、手动两种模式下运行,自动由系统定期到指定的站点更新最新的信息,手动提供了及时触 发的机制;支持不同的信息采集使用不同的模式。本专利技术对传统的文章采集技术进行改进,真正满足了用户的应用需求1、可以针 对文章进行分段采集,只获取所需要的内容;2、每个栏目都可以定制相应的采集任务,文章 采集后自动存放在对应栏目下;3、采用多线程技术,支持网站群的多站点采集;4、结合模 板弓I擎技术,文章采集后可以自动套用网站模板进行自动发布。附图说明图1为本专利技术的逻辑流程图。图2为本专利技术实施例中采集内容的字符串位置示意图。以下结合附图和具体实施例对本专利技术作进一步详述。具体实施例方式如图1所示,本专利技术,具体包括如下先选定采集来源,采用正则表达式制定采集规则,使用关键信息处理方式确定采 集内容的范围,将采集的内容和目标站点的栏目进行绑定。所述的采用正则表达式制定采集规则指输入需要采集的静态页面地址,该路径 指向待采集页面的某个栏目中的其中一篇文章,确定第N个“/”开始下的内容,自动转换成 正则表达式规则,符合表达式规则的静态文件内容将被采集。所述的关键信息处理方式指确定需要采集内容的文章标题或者关键信息的字符 串位置(如图2举例所示)。由于每个网站内容展示位置不一样,在配置采集时需先找到所 要采集内容的字符串位置,才能准确地采集到数据。所述的将采集的内容和目标站点的栏目进行绑定就是用户在采集配置中,用户 需选择所属栏目,或在创建栏目时,用户可选择指定的文章模板,开始采集时,通过栏目找 到指定的文章模板,在发布时合并生成静态页面。开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站点采集; 根据设定的采集规则,把采集到的内容存放在各自对应的栏目下;若需要自动发布,则调用 文章合并模板进行发布。所述的文章合并模板指将动态的文章数据通过调用模板引擎生成静态的HTML 页面。以上所述,仅是本专利技术较佳实施例而已,并非对本专利技术的技术范围作任何限制,故 凡是依据本专利技术的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属 于本专利技术技术方案的范围内。权利要求1.,其特征在于包括如下步骤先选定采集来源,采用正则表达 式制定采集规则,使用关键信息处理方式确定采集内容的范围,将采集的内容和目标站点 的栏目进行绑定;开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站 点采集;根据设定的采集规则,把采集到的内容存放在各自对应的栏目下;若需要自动发 布,则调用文章合并模板进行发布。2.根据权利要求1所述的,其特征在于所述的采用正则表达式 制定采集规则,是指输入需要采集的静态页面地址,确定地址中到第N个“/”为需要被采集 的静态文件内容的地址,并将其自动转换成正则表达式规则。3.根据权利要求1所述的,其特征在于所述的关键信息处理方 式,指确定需要采集内容的文章标题或者关键信息的字符串位置。全文摘要,先选定采集来源,采用正则表达式制定采集规则,使用关键信息处理方式确定采集内容的范围,将采集的内容和目标站点的栏目进行绑定;开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站点采集;根据设定的采集规则,把采集到的内容存放在各自对应的栏目下;若需要自动发布,则调用文章合并模板进行发布;本专利技术根据用户自定义的任务配置,批量而精确地抽取目标网络媒体栏目中的新闻或文章,转化为结构化的记录保存或用于内部使用或外网发布,能快速实现外部信息的获取,对各类网站新闻的采集具有较快的速度和较高的准确率。文档编号G06F17/30GK102096705SQ20101061842公开日2011年6月15日 申请日期2010年12月31日 优先权日2010年12月31日专利技术者曾文语, 林雅珊 申请人:南威软件股份有限公司 本文档来自技高网...

【技术保护点】
一种文章采集的方法,其特征在于包括如下步骤:先选定采集来源,采用正则表达式制定采集规则,使用关键信息处理方式确定采集内容的范围,将采集的内容和目标站点的栏目进行绑定;开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站点采集;根据设定的采集规则,把采集到的内容存放在各自对应的栏目下;若需要自动发布,则调用文章合并模板进行发布。

【技术特征摘要】

【专利技术属性】
技术研发人员:曾文语林雅珊
申请(专利权)人:南威软件股份有限公司
类型:发明
国别省市:35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1