一种互联网数据智能采集方法技术

技术编号：32828895 阅读：10 留言：0更新日期：2022-03-26 20:36

本发明专利技术属于计算机数据挖掘技术领域，具体涉及一种互联网数据智能采集方法。本发明专利技术根据网络爬虫技术的基本原理和最新进展，对网络智能采集技术和系统设计相关工作进行了整合,并结合聚焦爬虫和通用爬虫技术设计智能数据采集系统。主要是基于需求分类,设计了不同的分类采集规则，并利用互联网站点主体,提出的权威站点分类和根据数据类型主体分类的采集方法。该方法适用于互联网公开数据，能够实现对数据采集时的需求进行自动理解，对采集目标的合理分类、对采集到的数据智能解析并存储，能够提高数据获取的效率和准确性，并满足数据的深度和广度,可对进一步数据挖掘奠定良好基础。础。础。

全部详细技术资料下载

【技术实现步骤摘要】
一种互联网数据智能采集方法

[0001]本专利技术属于计算机数据挖掘
，具体涉及一种互联网数据智能采集方法。

技术介绍

[0002]互联网的信息非常丰富,大数据及其应用正是基于互联网海量信息的价值提取。目前互联网数据采集的方法有通过日志获取数据、通过代码埋点跟踪数据、通过网络爬虫采集数据。通过日志和埋点获取数据一般是服务端来分析或监测用户数据，而通过网络爬虫只要是互联网公开数据均可根据需求采集所需数据。
[0003]网络爬虫是一种按照一定的规则，自动地抓取互联网信息的程序或者脚本。但因传统数据采集的局限性,数据采集往往需要在网络爬虫开发的封闭环境进行，数据生成和管理都由第三方提供，这导致数据采集具有成本高、数据管理复杂化等问题。
[0004]目前的网络爬虫分为两种，通用爬虫和聚焦爬虫。传统的通用爬虫例如搜索引擎Baidu，Yahoo和Google等。作为一个辅助人们检索信息的工具，这些通用搜索引擎也存在着一定的局限性，如：（1）不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎大多是基于关键字的通用检索，难以满足需求，通用性限制了聚焦性。
[0005]（2）通用搜索引擎的宗旨是尽可能大的网络覆盖率，导致所返回的结果包含大量用户不关心的网页。
[0006]（3）通用搜索引擎往往对图片、数据库、音频、视频等不同数据类型不能很好地发现和获取。
[0007]为了解决上述问题，定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫和通用爬虫相反，更注重需求的定向性和数据的...

【技术保护点】

【技术特征摘要】
1.一种互联网数据智能采集方法，其特征在于：包括以下步骤：步骤一、数据采集：提供程序输入入口输入采集需求文字，对输入的采集需求文字进行处理得到命名实体识别结果，对命名实体识别结果进行采集规则分类得到需求分类结果；步骤二、页面数据解析：根据不同需求分类结果选择对应的解析策略进行页面数据解析，得到解析结果；步骤三、数据存储：将采集完成的数据进行云端存储。2.根据权利要求1所述的互联网数据智能采集方法，其特征在于：步骤一具体包括以下步骤：S1、提供程序输入入口，让使用者输入文字来描述采集需求；S2、使用自然语言处理技术和语义识别技术，将输入内容进行分词和词性识别，提取名词、动词、副词、数词、形容词，完成命名实体识别；S3、对命名实体识别结果进行采集规则分类：根据采集需求分别提供智能采集、垂直采集、定制采集三种选择标签，让使用者自行选择对应的需求分类规则，得到需求分类结果。3.根据权利要求2所述的互联网数据智能采集方法，其特征在于：步骤S2中分别采用基于Hmm和Viterbi算法进行中文分词和词性标注，包括以下步骤：（1）通过正则检测输入字符串的中文字符，根据邻近词词典对中文字符进行预分词；（2）基于HMM模型得出状态序列并采用Viterbi算法得出状态序列的最优路径，完成中文分词；（3）根据词性标注语料库对分词结果进行分类，并基于Viterbi算法完成命名实体识别。4.根据权利要求3所述的互联网数据智能采集方法，其特征在于：步骤（3）包括以下步骤：a、通过正则表达式从输入的字符串的匹配出中文字符,非中文则保留原有字符；b、加载相邻词词典进行分词：遍历中文字符串，以字符串每两个相邻的字为一组，在词典中进行匹配；如果两个字在词典中则为一组普通词语，就把词语的第一字保留下来，遍历第二组词；如果第二组词在相邻词典中匹配不到，则认为第一组词为正常词语，否则继续遍历，直到匹配不到内容；c、分词后通过查词性标注语料库，...

【专利技术属性】
技术研发人员：李玺，彭亮，冯凯，王元卓，
申请(专利权)人：中科大数据研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人