一种互联网数据智能采集方法技术

技术编号:32828895 阅读:10 留言:0更新日期:2022-03-26 20:36
本发明专利技术属于计算机数据挖掘技术领域,具体涉及一种互联网数据智能采集方法。本发明专利技术根据网络爬虫技术的基本原理和最新进展,对网络智能采集技术和系统设计相关工作进行了整合,并结合聚焦爬虫和通用爬虫技术设计智能数据采集系统。主要是基于需求分类,设计了不同的分类采集规则,并利用互联网站点主体,提出的权威站点分类和根据数据类型主体分类的采集方法。该方法适用于互联网公开数据,能够实现对数据采集时的需求进行自动理解,对采集目标的合理分类、对采集到的数据智能解析并存储,能够提高数据获取的效率和准确性,并满足数据的深度和广度,可对进一步数据挖掘奠定良好基础。础。础。

【技术实现步骤摘要】
一种互联网数据智能采集方法


[0001]本专利技术属于计算机数据挖掘
,具体涉及一种互联网数据智能采集方法。

技术介绍

[0002]互联网的信息非常丰富,大数据及其应用正是基于互联网海量信息的价值提取。目前互联网数据采集的方法有通过日志获取数据、通过代码埋点跟踪数据、通过网络爬虫采集数据。通过日志和埋点获取数据一般是服务端来分析或监测用户数据,而通过网络爬虫只要是互联网公开数据均可根据需求采集所需数据。
[0003]网络爬虫是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。但因传统数据采集的局限性,数据采集往往需要在网络爬虫开发的封闭环境进行,数据生成和管理都由第三方提供,这导致数据采集具有成本高、数据管理复杂化等问题。
[0004]目前的网络爬虫分为两种,通用爬虫和聚焦爬虫。传统的通用爬虫例如搜索引擎Baidu,Yahoo和Google等。作为一个辅助人们检索信息的工具,这些通用搜索引擎也存在着一定的局限性,如:(1)不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎大多是基于关键字的通用检索,难以满足需求,通用性限制了聚焦性。
[0005](2)通用搜索引擎的宗旨是尽可能大的网络覆盖率,导致所返回的结果包含大量用户不关心的网页。
[0006](3)通用搜索引擎往往对图片、数据库、音频、视频等不同数据类型不能很好地发现和获取。
[0007]为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫和通用爬虫相反,更注重需求的定向性和数据的准确性。聚焦爬虫需要有明确的采集目标(网址)和采集网页的数据解析规则。所以相对于通用网络爬虫,聚焦爬虫还需要解决两个主要问题:(1)对抓取目标(需求)的描述或定义;(2)对网页或数据的分析与过滤。

技术实现思路

[0008]针对目前数据抓取方法存在的缺陷和问题,本专利技术提供一种互联网数据智能采集方法和系统。本专利技术解决其技术问题所采用的方案是:一种互联网数据智能采集方法,包括以下步骤:步骤一、数据采集:提供程序输入入口输入采集需求文字,对输入的采集需求文字进行处理得到命名实体识别结果,对命名实体识别结果进行采集规则分类得到需求分类结果;步骤二、页面数据解析:根据不同需求分类结果选择对应的解析策略进行页面数
据解析,得到解析结果;步骤三、数据存储:将采集完成的数据进行云端存储。
[0009]上述的互联网数据智能采集方法,步骤一具体包括以下步骤:S1、提供程序输入入口,让使用者输入文字来描述采集需求;S2、使用自然语言处理技术和语义识别技术,将输入内容进行分词和词性识别,提取名词、动词、副词、数词、形容词,完成命名实体识别;S3、对命名实体识别结果进行采集规则分类:根据采集需求分别提供智能采集、垂直采集、定制采集三种选择标签,让使用者自行选择对应的需求分类规则,得到需求分类结果。
[0010]上述的互联网数据智能采集方法,步骤S2中分别采用基于Hmm和Viterbi算法进行中文分词和词性标注,包括以下步骤:(1)通过正则检测输入字符串的中文字符,根据邻近词词典对中文字符进行预分词;(2)基于HMM模型得出状态序列并采用Viterbi算法得出状态序列的最优路径,完成中文分词;(3)根据词性标注语料库对分词结果进行分类,并基于Viterbi算法完成命名实体识别。
[0011]上述的互联网数据智能采集方法,步骤(3)包括以下步骤:a、通过正则表达式从输入的字符串的匹配出中文字符,非中文则保留原有字符;b、加载相邻词词典进行分词:遍历中文字符串,以字符串每两个相邻的字为一组,在词典中进行匹配。如果两个字在词典中则为一组普通词语。就把词语的第一字保留下来,遍历第二组词。如果第二组词在相邻词典中匹配不到,则认为第一组词为正常词语,否则继续遍历,直到匹配不到内容;c、分词后通过查词性标注语料库,标上所有可能的词类,组成词性序列,采用Hmm模型将词性序列作为隐藏序列,将词语序列作为观测序列,然后通过Viterbi算法遍历所有词;每个词都计算各个词性下的一阶HMM值,取值最大的为最终词性,保存该词性和概率,得出最优词性序列;d、根据得出的最优词性序列,提取出关键信息,最后返回命名实体识别结果,所述关键信息包括采集目标,采集规则,采集内容。
[0012]上述的互联网数据智能采集方法,步骤S3中智能采集是自动根据命名实体识别结果进行需求分类,对识别后的采集目标进行网页主体类型识别,具体是运用基于Web结构特征的数据挖掘算法进行网页主体识别,网页主体识别流程为:爬虫系统获取网页源码并解析成 DOM 树,然后对DOM树的节点预处理,提取文本特征,使用TF

IDF算法计算关键词权重,然后构造分类器,最后通过分类器完成网页类型的自动识别。
[0013]上述的互联网数据智能采集方法,采用主体解析方式对智能采集的分类结果进行页面数据解析;采用模板解析的方式对垂直采集的分类结果进行页面数据解析;采用定制解析的方式对定制采集的分类结果进行页面数据解析。
[0014]上述的互联网数据智能采集方法,定制解析是由人工确定解析规则或者由使用者自行配置解析规则,可以根据需要采集的字段名称、HTML标签、DOM节点配置解析规则。
[0015]上述的互联网数据智能采集方法,步骤三中数据存储包括以下步骤:S1、数据存储:采集者选择存储类型对采集完成的数据进行云端存储,并实时查看当前采集内容和采集效率;所述存储类型包括关系型、文档型、音视频文件型;S2、数据管理:对采集完成的数据按照规则进行去重、过滤、清洗、转换、分组等,进行数据分析和数据可视化;S3、数据导出:将采集完成的数据下载下来,并可按照需求类型将数据。
[0016]本专利技术的有益效果:本专利技术能够面向不同领域的企业、人群,实现基于网络爬虫的智能数据采集技术。
[0017]本专利技术适用场景是互联网公开数据,同时遵守网络爬虫协议,提高数据获取的效率和准确性,并满足数据的深度和广度,可对进一步数据挖掘奠定良好基础。
附图说明
[0018]图1为本专利技术方法整体流程图。
[0019]图2为数据采集流程图。
[0020]图3为网页主体类型识别流程图。
[0021]图4为页面数据解析流程图。
[0022]图5为数据存储流程图。
具体实施方式
[0023]本专利技术面向不同领域的企业、人群需求,提供一种基于网络爬虫的智能数据采集技术,该技术结合通用爬虫和聚焦爬虫的网络爬虫技术,可采集的数据来源动态且多样,可满足数据的深度和广度,可对进一步数据分析奠定良好基础。下面结合附图和实施例对本专利技术进一步说明。
[0024]实施例1:本实施例提供一种互联网数据智能采集方法,如图1所示,该方法包括以下步骤:步骤一、数据采集根据情况把采集需求分为三类:智能采集,垂直采集,定制采集其中:智能采集是根据某一项关键信息所进行的数据挖掘,是对领域和范围准确度要求不高的相关数据采集。首先根据输入的需求基于算法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种互联网数据智能采集方法,其特征在于:包括以下步骤:步骤一、数据采集:提供程序输入入口输入采集需求文字,对输入的采集需求文字进行处理得到命名实体识别结果,对命名实体识别结果进行采集规则分类得到需求分类结果;步骤二、页面数据解析:根据不同需求分类结果选择对应的解析策略进行页面数据解析,得到解析结果;步骤三、数据存储:将采集完成的数据进行云端存储。2.根据权利要求1所述的互联网数据智能采集方法,其特征在于:步骤一具体包括以下步骤:S1、提供程序输入入口,让使用者输入文字来描述采集需求;S2、使用自然语言处理技术和语义识别技术,将输入内容进行分词和词性识别,提取名词、动词、副词、数词、形容词,完成命名实体识别;S3、对命名实体识别结果进行采集规则分类:根据采集需求分别提供智能采集、垂直采集、定制采集三种选择标签,让使用者自行选择对应的需求分类规则,得到需求分类结果。3.根据权利要求2所述的互联网数据智能采集方法,其特征在于:步骤S2中分别采用基于Hmm和Viterbi算法进行中文分词和词性标注,包括以下步骤:(1)通过正则检测输入字符串的中文字符,根据邻近词词典对中文字符进行预分词;(2)基于HMM模型得出状态序列并采用Viterbi算法得出状态序列的最优路径,完成中文分词;(3)根据词性标注语料库对分词结果进行分类,并基于Viterbi算法完成命名实体识别。4.根据权利要求3所述的互联网数据智能采集方法,其特征在于:步骤(3)包括以下步骤:a、通过正则表达式从输入的字符串的匹配出中文字符,非中文则保留原有字符;b、加载相邻词词典进行分词:遍历中文字符串,以字符串每两个相邻的字为一组,在词典中进行匹配;如果两个字在词典中则为一组普通词语,就把词语的第一字保留下来,遍历第二组词;如果第二组词在相邻词典中匹配不到,则认为第一组词为正常词语,否则继续遍历,直到匹配不到内容;c、分词后通过查词性标注语料库,...

【专利技术属性】
技术研发人员:李玺彭亮冯凯王元卓
申请(专利权)人:中科大数据研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1