一种基于互联网的信息定向抓取方法及系统技术方案

技术编号:18083996 阅读:268 留言:0更新日期:2018-05-31 12:29
本发明专利技术适用于互联网技术领域,提供了一种基于互联网的信息定向抓取方法,所述方法包括:设置目标网站的抓取配置信息;根据所述抓取配置信息,从目标网站内抓取文本数据;所述文本数据包括文档数据、word数据、excell数据和/或PDF数据;对抓取的文本数据进行整合和筛选,剔除无用的第一文本数据,保留具有用途的第二文本数据,并将保留的第二文本数据作为原始文本数据;对原始文本数据进行编译转换,转换成主机服务器可识别的原始文本数据,并将编译转换后的原始文本数据存储至数据库;将数据库内存储的原始文本数据进行逐条发布,能够在海量信息中准确、及时、方便的定向抓取目标信息,并将目标信息进行存储和逐条发布,满足用户信息查询需求。

【技术实现步骤摘要】
一种基于互联网的信息定向抓取方法及系统
本专利技术属于互联网
,尤其涉及一种基于互联网的信息定向抓取方法及系统。
技术介绍
对目前互联网上的信息搜索的技术,常见的有网络爬行、分词引索、搜索等技术。这些网络搜索信息只是面对互联网海量信息的积累。当我们采用现有搜索技术查询某个特定的确切信息时,用一个关键词即可搜索出来成千上万的链接网页结果。而在这些成千上万的搜索结果中不一定有用户所期望和关注的准确信息,用户也不可能有更多的时间去逐个翻看现有搜索技术所呈现出来的成千上万个网页链接结果。由此可知,现有的搜索技术和方法已经无法在海量信息中准确、及时、方便的搜索获取目标信息。因此,急需一种基于互联网的信息定向抓取方法定向抓取目标信息,满足用户信息查询需求。
技术实现思路
本专利技术实施例提供一种基于互联网的信息定向抓取方法,旨在解决现有的搜索技术和方法已经无法在海量信息中准确、及时、方便的搜索获取目标信息的问题。本专利技术实施例是这样实现的,一种基于互联网的信息定向抓取方法,所述方法包括如下步骤:设置目标网站的抓取配置信息;根据所述抓取配置信息,从目标网站内抓取文本数据;所述文本数据包括文档数据、word数据、excell数据和/或PDF数据;对抓取的文本数据进行整合和筛选,剔除无用的第一文本数据,保留具有用途的第二文本数据,并将保留的第二文本数据作为原始文本数据;对原始文本数据进行编译转换,转换成主机服务器可识别的原始文本数据,并将编译转换后的原始文本数据存储至数据库;将数据库内存储的原始文本数据进行逐条发布。优选地,所述对原始文本数据进行编译转换,转换成主机服务器可识别的原始文本数据的步骤包括:对原始文本数据中的图片信息进行编译转换,转换成主机服务器可识别的图片信息;对原始文本数据中的文字信息进行编译转换,转换成主机服务器可识别的文字信息;以及对原始文本数据中的音频信息进行编译转换,转换成主机服务器可识别的音频信息。优选地,对抓取的文本数据进行整合和筛选,剔除无用的第一文本数据,保留具有用途的第二文本数据,并将保留的第二文本数据作为原始文本数据之后,还包括:对保留的原始文本数据进行冗余判断,删除数据信息相同的文本数据。优选地,对原始文本数据进行编译转换,转换成主机服务器可识别的原始文本数据,并将编译转换后的原始文本数据存储至数据库之后,还包括:对数据库内存储的原始文本数据进行分割,得到分割的原始文本数据集;并通过校验值哈希算法,针对当前原始文本数据集计算其哈希值,并在已备份原始文本数据集中查找是否有相同哈希值的目标原始文本数据集;若在已备份原始文本数据集中查找到有相同哈希值的目标原始文本数据集,则将所述目标原始文本数据集与当前原始文本数据集进行逐字节比较;根据比较结果进行当前原始文本数据集的备份。优选地,所述文本数据包括新闻数据和公告数据,其中,所述新闻数据为单一文本数据;所述公告数据则需经下一轮编译提取出逐条关键词。本专利技术实施例还提供一种基于互联网的信息定向抓取系统,包括:设置模块,用于设置目标网站的抓取配置信息;抓取模块,用于根据所述抓取配置信息,从目标网站内抓取文本数据;所述文本数据包括文档数据、word数据、excell数据和/或PDF数据;整合筛选模块,用于对抓取的文本数据进行整合和筛选,剔除无用的第一文本数据,保留具有用途的第二文本数据,并将保留的第二文本数据作为原始文本数据;编译转换模块,用于对原始文本数据进行编译转换,转换成主机服务器可识别的原始文本数据,并将编译转换后的原始文本数据存储至数据库;以及发布模块,用于将数据库内存储的原始文本数据进行逐条发布。优选地,所述编译转换模块,包括:图片信息编译转换单元,用于对原始文本数据中的图片信息进行编译转换,转换成主机服务器可识别的图片信息;文字信息编译转换单元,用于对原始文本数据中的文字信息进行编译转换,转换成主机服务器可识别的文字信息;以及音频信息编译转换单元,用于对原始文本数据中的音频信息进行编译转换,转换成主机服务器可识别的音频信息。优选地,还包括:冗余判断模块,用于对保留的原始文本数据进行冗余判断,删除数据信息相同的文本数据。优选地,还包括:容灾备份模块,用于对数据库内存储的原始文本数据进行分割,得到分割的原始文本数据集;并通过校验值哈希算法,针对当前原始文本数据集计算其哈希值,并在已备份原始文本数据集中查找是否有相同哈希值的目标原始文本数据集;若在已备份原始文本数据集中查找到有相同哈希值的目标原始文本数据集,则将所述目标原始文本数据集与当前原始文本数据集进行逐字节比较;根据比较结果进行当前原始文本数据集的备份。优选地,所述文本数据包括新闻数据和公告数据,其中,所述新闻数据为单一文本数据;所述公告数据则需经下一轮编译提取出逐条关键词。本专利技术实施例提供的基于互联网的信息定向抓取方法及系统,首先设置目标网站的抓取配置信息;根据所述抓取配置信息,从目标网站内抓取文本数据;所述文本数据包括文档数据、word数据、excell数据和/或PDF数据;然后对抓取的文本数据进行整合和筛选,剔除无用的第一文本数据,保留具有用途的第二文本数据,并将保留的第二文本数据作为原始文本数据;对原始文本数据进行编译转换,转换成主机服务器可识别的原始文本数据,并将编译转换后的原始文本数据存储至数据库;最后将数据库内存储的原始文本数据进行逐条发布,能够在海量信息中准确、及时、方便的定向抓取目标信息,并将目标信息进行存储和逐条发布,满足用户信息查询需求。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。以下附图仅旨在于对本专利技术做示意性说明和解释,并不限定本专利技术的范围。图1是本专利技术实施例提供的提供的一种基于互联网的信息定向抓取方法的实现流程;图2是本专利技术实施例提供的另一种基于互联网的信息定向抓取方法的实现流程;图3是本专利技术实施例提供的又一种基于互联网的信息定向抓取方法的实现流程;图4是本专利技术实施例提供的一种基于互联网的信息定向抓取系统的结构示意图;图5是本专利技术实施例提供的编译转换模块的结构示意图;图6是本专利技术实施例提供的另一种基于互联网的信息定向抓取系统的结构示意图;图7是本专利技术实施例提供的又一种基于互联网的信息定向抓取系统的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些本文档来自技高网...
一种基于互联网的信息定向抓取方法及系统

【技术保护点】
一种基于互联网的信息定向抓取方法,其特征在于,所述方法包括如下步骤:设置目标网站的抓取配置信息;根据所述抓取配置信息,从目标网站内抓取文本数据;所述文本数据包括文档数据、word数据、excell数据和/或PDF数据;对抓取的文本数据进行整合和筛选,剔除无用的第一文本数据,保留具有用途的第二文本数据,并将保留的第二文本数据作为原始文本数据;对原始文本数据进行编译转换,转换成主机服务器可识别的原始文本数据,并将编译转换后的原始文本数据存储至数据库;将数据库内存储的原始文本数据进行逐条发布。

【技术特征摘要】
1.一种基于互联网的信息定向抓取方法,其特征在于,所述方法包括如下步骤:设置目标网站的抓取配置信息;根据所述抓取配置信息,从目标网站内抓取文本数据;所述文本数据包括文档数据、word数据、excell数据和/或PDF数据;对抓取的文本数据进行整合和筛选,剔除无用的第一文本数据,保留具有用途的第二文本数据,并将保留的第二文本数据作为原始文本数据;对原始文本数据进行编译转换,转换成主机服务器可识别的原始文本数据,并将编译转换后的原始文本数据存储至数据库;将数据库内存储的原始文本数据进行逐条发布。2.如权利要求1所述的基于互联网的信息定向抓取方法,其特征在于,所述对原始文本数据进行编译转换,转换成主机服务器可识别的原始文本数据的步骤包括:对原始文本数据中的图片信息进行编译转换,转换成主机服务器可识别的图片信息;对原始文本数据中的文字信息进行编译转换,转换成主机服务器可识别的文字信息;以及对原始文本数据中的音频信息进行编译转换,转换成主机服务器可识别的音频信息。3.如权利要求1所述的基于互联网的信息定向抓取方法,其特征在于,所述对抓取的文本数据进行整合和筛选,剔除无用的第一文本数据,保留具有用途的第二文本数据,并将保留的第二文本数据作为原始文本数据之后,还包括:对保留的原始文本数据进行冗余判断,删除数据信息相同的文本数据。4.如权利要求1所述的基于互联网的信息定向抓取方法,其特征在于,所述对原始文本数据进行编译转换,转换成主机服务器可识别的原始文本数据,并将编译转换后的原始文本数据存储至数据库之后,还包括:对数据库内存储的原始文本数据进行分割,得到分割的原始文本数据集;并通过校验值哈希算法,针对当前原始文本数据集计算其哈希值,并在已备份原始文本数据集中查找是否有相同哈希值的目标原始文本数据集;若在已备份原始文本数据集中查找到有相同哈希值的目标原始文本数据集,则将所述目标原始文本数据集与当前原始文本数据集进行逐字节比较;根据比较结果进行当前原始文本数据集的备份。5.如权利要求1所述的基于互联网的信息定向抓取方法,其特征在于,所述文本数据包括新闻数据和公告数据,其中,所述新闻数据...

【专利技术属性】
技术研发人员:陈卿
申请(专利权)人:深圳市知小兵科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1