一种文章采集的方法技术

技术编号：6718092 阅读：217 留言：0更新日期：2012-04-11 18:40

一种文章采集的方法，先选定采集来源，采用正则表达式制定采集规则，使用关键信息处理方式确定采集内容的范围，将采集的内容和目标站点的栏目进行绑定；开始采集文章时，先搜索采集来源，采用多线程技术，进行网站群的多站点采集；根据设定的采集规则，把采集到的内容存放在各自对应的栏目下；若需要自动发布，则调用文章合并模板进行发布；本发明专利技术根据用户自定义的任务配置，批量而精确地抽取目标网络媒体栏目中的新闻或文章，转化为结构化的记录保存或用于内部使用或外网发布，能快速实现外部信息的获取，对各类网站新闻的采集具有较快的速度和较高的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种针对各式各样的网站文章进行自动采集的方法。
技术介绍
文章采集是根据用户定义的关键词字，从各式各样的网站上检索出相关的数据，并对数据进行合理的截取、分类、去重和过滤，然后以文件或数据库的方式保存下来。文章采集应用的关键在于如何从众多的网站获取所需要的准确内容到预期的中心资源库中，然后进行快速的利用。文章采集的核心技术是模式定义和模式匹配。模式属于人工智能的术语，是对前人积累的经验的抽象和升华。简单地说，就是从不断重复出现的事件中发现和抽象出的规律，是解决问题的经验的总结。只要是一再重复出现的事物，就可能存在某种模式。文章采集的模式大多不是程序自动发现的，目前几乎所有的文章采集产品都需要通过人工来定义。但模式本身是个很复杂、很抽象的内容，所以所有的开发者精力都花在怎样让模式定义更简单、更准确上，这也是文章采集技术竞争力的衡量标准。目前大多采用正则表达式定义和文档结构定义。传统的文章采集存在几个方面的问题1、采集的是整篇文章，需要手工进行页面处理才能被利用；2、不能分栏目采集；3、只支持单一站点的采集；4、采集的文章不能自动套用自己网站的格式进行发布，需要进行手工处理。
技术实现思路
本专利技术的目的在于提供，支持网站群的多站点采集，可针对文章进行分段采集和分栏目采集，采集的文章能自动套用自己网站的格式进行发布，不需要进行手工处理。，具体包括如下步骤先选定采集来源，采用正则表达式制定采集规则，使用关键信息处理方式确定采集内容的范围，将采集的内容和目标站点的栏目进行绑定；开始采集文章时，先搜索采集来源，采用多线程技术...

【技术保护点】
一种文章采集的方法，其特征在于包括如下步骤：先选定采集来源，采用正则表达式制定采集规则，使用关键信息处理方式确定采集内容的范围，将采集的内容和目标站点的栏目进行绑定；开始采集文章时，先搜索采集来源，采用多线程技术，进行网站群的多站点采集；根据设定的采集规则，把采集到的内容存放在各自对应的栏目下；若需要自动发布，则调用文章合并模板进行发布。

【技术特征摘要】

【专利技术属性】
技术研发人员：曾文语，林雅珊，
申请(专利权)人：南威软件股份有限公司，
类型：发明
国别省市：35

全部详细技术资料下载我是这个专利的主人