一种网页数据分析处理方法技术

技术编号：15639578 阅读：105 留言：0更新日期：2017-06-16 00:26

本发明专利技术公开了一种网页数据分析处理方法。该方法基于网页数据服务平台实现，所述网页数据服务平台包括客户端、内容服务器及分词云服务器，所述内容服务器上安装有网页抓取系统、内容提取系统、内容分析系统及数据库，该方法具体包括以下步骤：S1、网页抓取；S2、内容提取；S3、中文分词；S4、内容分析；S5、结果呈现，客户端从数据库中调取数据结果，并呈现给用户。本发明专利技术采用基于阅读习惯的网页内容提取技术，能够快速识别出网页的主题内容并进行提取，采用云分词技术实现高效中文分词，为大数据分析提供了基础保障，用户无需投入软硬件资源，能够满足中小企业和普通个人用户的大数据分析服务的低成本、定向化要求。

全部详细技术资料下载

【技术实现步骤摘要】
一种网页数据分析处理方法
本专利技术涉及互联网数据挖掘分析
，尤其涉及一种网页数据分析处理方法。
技术介绍
目前，互联网充斥着大量各式各样的信息，人们处于数据庞大、信息海量的时代。这些大量数据需要通过一定的发现方法，才能实现对企业或者社会发展有意义的信息进行深度挖掘。以往的信息挖掘的方式一般通过信息检索或者数理统计的方法进行，比如普通个人用户使用的百度、谷歌等搜索引擎，虽然可以检索到词条相关内容，但是绝大多数都是无用信息，在这样大量的数据条件下很难得到所希望的精准结果。而其深度挖掘和分析的功能往往都是面向大型企业或事业单位，相对于广大中小企业或普通个人用户来说成本及其昂贵。因此迫切需要面向广大中小企业和普通个人用户的低成本、定向化、精准化的大数据分析平台，为其提供精准的情报搜集、舆情分析及决策服务，使得广大中小企业能够在大数据时代的机遇与挑战中充分掘取更多商业价值，提升企业核心竞争力。
技术实现思路
本专利技术的目的在于提供一种网页数据分析处理方法，该方法具有低成本、定向化、精准化的特点。为实现上述目的，本专利技术的技术方案是：一种网页数据分析处理方法，该方法基于一网页数据服务平台实现，所述网页数据服务平台包括客户端、内容服务器和分词云服务器，所述内容服务器上安装有网页抓取系统、内容提取系统、内容分析系统和数据库，所述方法具体实现步骤如下：S1、网页抓取所述网页抓取系统获取爬取任务，将待爬取URL加入爬虫队列，抓取网页页面；S2、内容提取所述内容提取系统基于阅读习惯对步骤S1抓取的网页页面进行分割，生成多个区块，所述多个区块包括主题块和噪音块，剔除所述噪...
一种网页数据分析处理方法

【技术保护点】
一种网页数据分析处理方法，其特征在于：该方法基于一网页数据服务平台实现，所述网页数据服务平台包括客户端、内容服务器和分词云服务器，所述内容服务器上安装有网页抓取系统、内容提取系统、内容分析系统和数据库，所述方法具体实现步骤如下：S1、网页抓取所述网页抓取系统获取爬取任务，将待爬取 URL 加入爬虫队列，抓取网页页面；S2、内容提取所述内容提取系统基于阅读习惯对步骤S1抓取的网页页面进行分割，生成多个区块，所述多个区块包括主题块和噪音块，剔除所述噪音块，提取主题块的核心文本数据；S3、中文分词向所述分词云服务器发送分词任务请求，并提交步骤S2提取的核心文本数据，分词云服务器对核心文本数据进行中文分词处理，并将分词结果发送给所述内容分析系统；S4、内容分析预先建立实体关系数据集，所述实体关系数据集包含一组命名实体以及与每个命名实体对应的特征信息知识库，内容分析系统针提取所述步骤S3得到的分词结果的关键词，得到关键词数据集，针对每个关键词在特征信息知识库搜索与该关键词对应的匹配结果，将该匹配结果对应的命名实体作为属性索引项添加到结构化数据表，将该关键词作为属性值添加到结构化数据表，遍历关键词...

【技术特征摘要】
1.一种网页数据分析处理方法，其特征在于：该方法基于一网页数据服务平台实现，所述网页数据服务平台包括客户端、内容服务器和分词云服务器，所述内容服务器上安装有网页抓取系统、内容提取系统、内容分析系统和数据库，所述方法具体实现步骤如下：S1、网页抓取所述网页抓取系统获取爬取任务，将待爬取URL加入爬虫队列，抓取网页页面；S2、内容提取所述内容提取系统基于阅读习惯对步骤S1抓取的网页页面进行分割，生成多个区块，所述多个区块包括主题块和噪音块，剔除所述噪音块，提取主题块的核心文本数据；S3、中文分词向所述分词云服务器发送分词任务请求，并提交步骤S2提取的核心文本数据，分词云服务器对核心文本数据进行中文分词处理，并将分词结果发送给所述内容分析系统；S4、内容分析预先建立实体关系数据集，所述实体关系数据集包含一组命名实体以及与每个命名实体对应的特征信息知识库，内容分析系统针提取所述步骤S3得到的分词结果的关键词，得到关键词数据集，针对每个关键词在特征信息知识库搜索与该关键词对应的匹配结果，将该匹配结果对应的命名实体作为属性索引项添加到结构化数据表，将该关键词作为属性值添加到结构化数据表，遍历关键词数据集中的所有关键词，得到结构化数据集，基于结构化数据集对核心文本数据及对应的网页页面进行分类，并存储到数据库；S5、结果呈现客户端从数据库中调取数据结果，并呈现给用户。2.根据权利要求1所述的一种网页数据分析处理方法，其特征在于：所述步骤S2具体实现步骤如下：S21、内容提取系统针对步骤S1抓取的网页页面生成初始DOM树；S22、清理初始DOM树中无用节点，构建目标DOM树；S23、利用基于视觉信息的网页分块算法对网页页面进行分割，生成多个区块，所述区块携带有语义属性，所述语义属性包括链接个数、链接长度及文本长度；S24、根据网页页面的链接数量和链接密度判断网页类型，若网页类型为导航页，则中止，若网页类型为主题页，则执行步骤S25；S25、根据各个区块的语义属性，对各个区块进行分类，分为主题块及噪音...

【专利技术属性】
技术研发人员：杨爱华，陈林水，
申请(专利权)人：漳州科技职业学院，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人