基于网络爬虫的批量提取处理文本信息的系统及方法技术方案

技术编号:28747612 阅读:25 留言:0更新日期:2021-06-06 19:06
本发明专利技术公开一种基于网络爬虫的批量提取处理文本信息的系统及方法,其中,系统包括:格式解析单元,其用于对存储的所有文档的格式进行分析,转换为文本信息,并统一为HTML语言的格式文档;解析库单元,其与格式解析单元通信连接,用于存储经格式解析单元转换格式后的格式文档;爬虫单元,其与解析库单元通信连接,用于提供文本信息的文本特征值集合,通过构建爬虫获取解析库单元中与文本特征值集合相匹配的格式文档,爬取出目标文本信息;以及统计单元,其与爬虫单元通信连接,用于抽取目标文本信息并进行统计。信息并进行统计。信息并进行统计。

【技术实现步骤摘要】
基于网络爬虫的批量提取处理文本信息的系统及方法


[0001]本专利技术涉及文件处理领域,尤其涉及一种任创新型批量提取处理文件信息的系统及方法。

技术介绍

[0002]随着互联网、办公电子化的的快速发展,文本信息也呈现爆炸式增长趋势,生成的文本数量超越了以往任何时代。一方面文本包含大量有价值的信息,另一方面海量文本显著增加了有效信息的发现代价。对于监管而言,其已经不可能对收集的文档集中的每一篇文档进行阅读来发现有效信息,如何从海量文本中辅助挖掘有价值的信息,并且使得这些信息方便后续的使用成为亟待解决的重要问题。
[0003]文本挖掘根据目标信息的特点可以分为两类:第一类是有效信息可以清晰定义的文本挖掘,比如分类或者有明确目标的搜索,现有计算机通过匹配计算基本可以满足日常需要;第二种是有效信息难以清晰定义的文本挖掘,比如搜索需求模糊的场景,现有办法一般通过“探索式”的方式进行信息发现。“探索式”信息发现底层利用搜索功能:用户输入查询词,人工查看搜索结果,形成下一次的查询词继续搜索,该过程不断重复直到找到结果为止。对于“探索式”信息发现,随着用户对结果的理解,最后使用的查询很可能与最初的查询完全不同。
[0004]网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
[0005]现有的网络爬虫应用的组网图包括控制节点和爬虫节点。网络爬虫技术是通过控制节点控制爬虫节点按照一定的规则,自动地抓取万维网信息的程序或者脚本,为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。搜索引擎使用网络爬虫寻找网络内容,网络上的HTML文档使用超链接连接了起来,就像织成了一张网,网络爬虫也叫网络蜘蛛,顺着这张网爬行,每到一个网页就用抓取程序将这个网页抓下来,将内容抽取出来,同时抽取超链接,作为进一步爬行的线索。
[0006]如中国专利申请201810705012.2公开了一种基于网络爬虫的文本信息爬取方法,通过服务器获取网络爬虫任务的配置文件和第一文本;所述服务器根据所述配置文件开启网络URL信息爬取,并将爬取的信息整合为待处理信息;所述服务器对所述待处理信息进行查重及删除重复内容处理后,得到第二文本;所述服务器计算第一文本与第二文本之间的
相似度,若相似度超出预设阈值,则输出第二文本。本专利技术基于网络爬虫进行信息获取,并针对第一文本和第二文本的相似度判定本次爬取的信息是否符合要求,所以提高了信息爬取的效率。但是,该基于网络爬虫的文本信息爬取方法难以实现批量提取处理文本信息,而且也无法实现对文本信息的后续统计处理。
[0007]又如中国专利申请200610160832.5公开了一种基于大数据的用户行为分析方法及系统,通过客户端实时采集用户行为数据,将用户行为和页面URL的上下文信息相结合,最大限度地重现用户浏览Web页面的真实场景,提取全面的用户行为轨迹,为分析用户行为提供有效的数据保障;并通过安全分析模块为用户行为数据提供安全保障,还利用用户行为数据本体模型对用户行为建模,实现行为信息语义级的共享和重用,提高了模型互操作性和可靠性;实时采集用户行为及上下文数据进行分析,使结果更可靠;以列存储数据库对本体和行为信息进行存储,为海量数据管理奠定基础;将云计算技术的强大处理能力和大规模数据存储能力、本体及其推理、知识发现方法相结合,实时分析海量用户行为数据,及时获取用户兴趣,从而实现有效与精准的用户推送,该公开的专利采用的技术对于大量数据收集、存储、分析就会显得能力不足,效率低,准确性也会偏低。
[0008]因此,提供一种可统一文件格式、快速统计抽取目标数据、可建立结构化数据且安全性高的基于网络爬虫思维的创新型批量提取处理文本信息的系统及方法成为业内急需解决的问题。

技术实现思路

[0009]本专利技术的目的是提供一种基于网络爬虫的批量提取处理文本信息的系统及方法,其是为监管部门提供批量提取处理文本信息的系统,能够统一文件格式、快速统计抽取目标数据、建立结构化数据,并具有较高的安全性。
[0010]本专利技术的第一个目的在于提供一种基于网络爬虫的批量提取处理文本信息的系统,其包括:格式解析单元,其用于对存储的所有文档的格式进行分析,转换为文本信息,并统一为HTML语言的格式文档;解析库单元,其与格式解析单元通信连接,用于存储经格式解析单元转换格式后的格式文档;爬虫单元,其与解析库单元通信连接,用于提供文本信息的文本特征值集合,通过构建爬虫获取解析库单元中与文本特征值集合相匹配的格式文档,爬取出目标文本信息;以及统计单元,其与爬虫单元通信连接,用于抽取目标文本信息并进行统计。
[0011]可选择地,还包括结构化数据单元,其与统计单元通信连接,用于表格内容提取目标文本信息并存储为结构化数据。
[0012]可选择地,还包括风险预警单元,其与结构化数据单元通信连接,用于在结构化数据中标示出符合预设规则的结构化数据,并以高亮输出显示。
[0013]可选择地,爬虫单元采用深度优先遍历策略对解析文档进行爬取。
[0014]可选择地,还包括数据缓冲单元,其与爬虫单元及统计单元通信连接,用于对进入统计单元之前的目标文本信息进而二次逻辑判断。
[0015]可选择地,还包括日志执行单元,其与爬虫单元通信连接,用于记录爬虫单元的爬取日志。
[0016]本专利技术的第二个目的在于提供一种基于网络爬虫的批量提取处理文本信息的方
法,其包括如下步骤:(1)、对存储的所有文档的格式进行分析,转换为文本信息,并统一为HTML语言的格式文档;(2)、存储经转换格式后的格式文档;(3)、提供文本信息的文本特征值集合,通过构建爬虫获取与文本特征值集合相匹配的格式文档,爬取出目标文本信息;以及(4)、抽取目标文本信息并进行统计。
[0017]可选择地,还包括:(5)、表格内容提取目标文本信息并存储为结构化数据。
[0018]可选择地,还包括:(6)、在结构化数据中标示出符合预设规则的结构化数据,并以高亮输出显示。
[0019]可选择地,在步骤(3)与步骤(4)之间还包括:对目标文本信息进而二次逻辑判断的步骤及记录获取目标文本信息的爬取日志的步骤。
[0020]本专利技术的有益效果是:(1)、将各种格式文件转为文本信息,最终统一为HTML语言,满足了批量文本信息处理的要求,极大地缩短本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于网络爬虫的批量提取处理文本信息的系统,其特征在于,包括:格式解析单元,其用于对存储的所有文档的格式进行分析,转换为文本信息,并统一为HTML语言的格式文档;解析库单元,其与所述格式解析单元通信连接,用于存储经所述格式解析单元转换格式后的格式文档;爬虫单元,其与所述解析库单元通信连接,用于提供文本信息的文本特征值集合,通过构建爬虫获取所述解析库单元中与所述文本特征值集合相匹配的格式文档,爬取出目标文本信息;以及统计单元,其与所述爬虫单元通信连接,用于抽取所述目标文本信息并进行统计。2.如权利要求1所述的基于网络爬虫的批量提取处理文本信息的系统,其特征在于,还包括结构化数据单元,其与所述统计单元通信连接,用于表格内容提取所述目标文本信息并存储为结构化数据。3.如权利要求2所述的基于网络爬虫的批量提取处理文本信息的系统,其特征在于,还包括风险预警单元,其与所述结构化数据单元通信连接,用于在所述结构化数据中标示出符合预设规则的结构化数据,并以高亮输出显示。4.如权利要求1所述的基于网络爬虫的批量提取处理文本信息的系统,其特征在于,所述爬虫单元采用深度优先遍历策略对所述解析文档进行爬取。5.如权利要求1所述的基于网络爬虫的批量提取处理文本信息的系统,其特征在于,还包括数据缓冲单元,其与所述爬虫单...

【专利技术属性】
技术研发人员:郭振江杨成凯戴薇谢亚飞
申请(专利权)人:中金云金融北京大数据科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1