基于网络爬虫的批量提取处理文本信息的系统及方法技术方案

技术编号：28747612 阅读：25 留言：0更新日期：2021-06-06 19:06

本发明专利技术公开一种基于网络爬虫的批量提取处理文本信息的系统及方法，其中，系统包括：格式解析单元，其用于对存储的所有文档的格式进行分析，转换为文本信息，并统一为HTML语言的格式文档；解析库单元，其与格式解析单元通信连接，用于存储经格式解析单元转换格式后的格式文档；爬虫单元，其与解析库单元通信连接，用于提供文本信息的文本特征值集合，通过构建爬虫获取解析库单元中与文本特征值集合相匹配的格式文档，爬取出目标文本信息；以及统计单元，其与爬虫单元通信连接，用于抽取目标文本信息并进行统计。信息并进行统计。信息并进行统计。

全部详细技术资料下载

【技术实现步骤摘要】
基于网络爬虫的批量提取处理文本信息的系统及方法

[0001]本专利技术涉及文件处理领域，尤其涉及一种任创新型批量提取处理文件信息的系统及方法。

技术介绍

[0002]随着互联网、办公电子化的的快速发展，文本信息也呈现爆炸式增长趋势，生成的文本数量超越了以往任何时代。一方面文本包含大量有价值的信息，另一方面海量文本显著增加了有效信息的发现代价。对于监管而言，其已经不可能对收集的文档集中的每一篇文档进行阅读来发现有效信息，如何从海量文本中辅助挖掘有价值的信息，并且使得这些信息方便后续的使用成为亟待解决的重要问题。
[0003]文本挖掘根据目标信息的特点可以分为两类：第一类是有效信息可以清晰定义的文本挖掘，比如分类或者有明确目标的搜索，现有计算机通过匹配计算基本可以满足日常需要；第二种是有效信息难以清晰定义的文本挖掘，比如搜索需求模糊的场景，现有办法一般通过“探索式”的方式进行信息发现。“探索式”信息发现底层利用搜索功能：用户输入查询词，人工查看搜索结果，形成下一次的查询词继续搜索，该过程不断重复直到找到结果为止。对于“探索式”信息发现，随着用户对结果的理解，最后使用的查询很可能与最初的查询完全不同。
[0004]网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过...

【技术保护点】

【技术特征摘要】
1.一种基于网络爬虫的批量提取处理文本信息的系统，其特征在于，包括：格式解析单元，其用于对存储的所有文档的格式进行分析，转换为文本信息，并统一为HTML语言的格式文档；解析库单元，其与所述格式解析单元通信连接，用于存储经所述格式解析单元转换格式后的格式文档；爬虫单元，其与所述解析库单元通信连接，用于提供文本信息的文本特征值集合，通过构建爬虫获取所述解析库单元中与所述文本特征值集合相匹配的格式文档，爬取出目标文本信息；以及统计单元，其与所述爬虫单元通信连接，用于抽取所述目标文本信息并进行统计。2.如权利要求1所述的基于网络爬虫的批量提取处理文本信息的系统，其特征在于，还包括结构化数据单元，其与所述统计单元通信连接，用于表格内容提取所述目标文本信息并存储为结构化数据。3.如权利要求2所述的基于网络爬虫的批量提取处理文本信息的系统，其特征在于，还包括风险预警单元，其与所述结构化数据单元通信连接，用于在所述结构化数据中标示出符合预设规则的结构化数据，并以高亮输出显示。4.如权利要求1所述的基于网络爬虫的批量提取处理文本信息的系统，其特征在于，所述爬虫单元采用深度优先遍历策略对所述解析文档进行爬取。5.如权利要求1所述的基于网络爬虫的批量提取处理文本信息的系统，其特征在于，还包括数据缓冲单元，其与所述爬虫单...

【专利技术属性】
技术研发人员：郭振江，杨成凯，戴薇，谢亚飞，
申请(专利权)人：中金云金融北京大数据科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人