一种网页数据分析处理方法技术

技术编号:15639578 阅读:105 留言:0更新日期:2017-06-16 00:26
本发明专利技术公开了一种网页数据分析处理方法。该方法基于网页数据服务平台实现,所述网页数据服务平台包括客户端、内容服务器及分词云服务器,所述内容服务器上安装有网页抓取系统、内容提取系统、内容分析系统及数据库,该方法具体包括以下步骤:S1、网页抓取;S2、内容提取;S3、中文分词;S4、内容分析;S5、结果呈现,客户端从数据库中调取数据结果,并呈现给用户。本发明专利技术采用基于阅读习惯的网页内容提取技术,能够快速识别出网页的主题内容并进行提取,采用云分词技术实现高效中文分词,为大数据分析提供了基础保障,用户无需投入软硬件资源,能够满足中小企业和普通个人用户的大数据分析服务的低成本、定向化要求。

【技术实现步骤摘要】
一种网页数据分析处理方法
本专利技术涉及互联网数据挖掘分析
,尤其涉及一种网页数据分析处理方法。
技术介绍
目前,互联网充斥着大量各式各样的信息,人们处于数据庞大、信息海量的时代。这些大量数据需要通过一定的发现方法,才能实现对企业或者社会发展有意义的信息进行深度挖掘。以往的信息挖掘的方式一般通过信息检索或者数理统计的方法进行,比如普通个人用户使用的百度、谷歌等搜索引擎,虽然可以检索到词条相关内容,但是绝大多数都是无用信息,在这样大量的数据条件下很难得到所希望的精准结果。而其深度挖掘和分析的功能往往都是面向大型企业或事业单位,相对于广大中小企业或普通个人用户来说成本及其昂贵。因此迫切需要面向广大中小企业和普通个人用户的低成本、定向化、精准化的大数据分析平台,为其提供精准的情报搜集、舆情分析及决策服务,使得广大中小企业能够在大数据时代的机遇与挑战中充分掘取更多商业价值,提升企业核心竞争力。
技术实现思路
本专利技术的目的在于提供一种网页数据分析处理方法,该方法具有低成本、定向化、精准化的特点。为实现上述目的,本专利技术的技术方案是:一种网页数据分析处理方法,该方法基于一网页数据服务平台实现,所述网页数据服务平台包括客户端、内容服务器和分词云服务器,所述内容服务器上安装有网页抓取系统、内容提取系统、内容分析系统和数据库,所述方法具体实现步骤如下:S1、网页抓取所述网页抓取系统获取爬取任务,将待爬取URL加入爬虫队列,抓取网页页面;S2、内容提取所述内容提取系统基于阅读习惯对步骤S1抓取的网页页面进行分割,生成多个区块,所述多个区块包括主题块和噪音块,剔除所述噪音块,提取主题块的核心文本数据;S3、中文分词向所述分词云服务器发送分词任务请求,并提交步骤S2提取的核心文本数据,分词云服务器对核心文本数据进行中文分词处理,并将分词结果发送给所述内容分析系统;S4、内容分析预先建立实体关系数据集,所述实体关系数据集包含一组命名实体以及与每个命名实体对应的特征信息知识库,内容分析系统针提取所述步骤S3得到的分词结果的关键词,得到关键词数据集,针对每个关键词在特征信息知识库搜索与该关键词对应的匹配结果,将该匹配结果对应的命名实体作为属性索引项添加到结构化数据表,将该关键词作为属性值添加到结构化数据表,遍历关键词数据集中的所有关键词,得到结构化数据集,基于结构化数据集对核心文本数据及对应的网页页面进行分类,并存储到数据库;S5、结果呈现客户端从数据库中调取数据结果,并呈现给用户。在本专利技术一实施例中,所述步骤S2具体实现步骤如下:S21、内容提取系统针对步骤S1抓取的网页页面生成初始DOM树;S22、清理初始DOM树中无用节点,构建目标DOM树;S23、利用基于视觉信息的网页分块算法对网页页面进行分割,生成多个区块,所述区块携带有语义属性,所述语义属性包括链接个数、链接长度及文本长度;S24、根据网页页面的链接数量和链接密度判断网页类型,若网页类型为导航页,则中止,若网页类型为主题页,则执行步骤S25;S25、根据各个区块的语义属性,对各个区块进行分类,分为主题块及噪音块;S26、剔除所述噪音块,提取主题块的核心文本数据。在本专利技术一实施例中,所述步骤S22中的无用节点为初始DOM树种与内容提取无关的节点,其包括脚本、样式控制信息、注释及空格文本节点。在本专利技术一实施例中,所述内容服务器上安装有第一压缩/解压缩系统,所述分词云服务器上安装有第二压缩/解压缩系统以及中文分词系统,第一压缩/解压缩系统和第二压缩/解压缩系统均具有压缩词典,所述第一压缩/解压缩系统还包括第一压缩模块、第一解压缩模块及词典升级模块,所述第二压缩/解压缩系统还包括第二压缩模块、第二解压缩模块及词典更新模块;所述步骤S3具体实现步骤如下:S31、内容服务器向分词云服务器发送分词任务请求,并利用第一压缩模块基于压缩词典对所述核心文本数据进行数据压缩处理,发送给分词云服务器;S32、分词云服务器对分词任务请求进行安全验证,验证通过后利用第二解压缩模块进行数据解压缩处理,还原出核心文本数据;S33、中文分词系统对核心文本数据进行中文分词处理,生成分词结果;S34、利用第二压缩模块基于压缩词典对分词结果进行数据压缩处理,发送给内容服务器,同时将分词结果存储在分词云服务器,对第二压缩/解压缩系统的压缩词典进行更新;S35、内容服务器利用第一解压缩模块进行数据解压缩处理,还原出分词结果,同时与分词云服务器进行通信,对第一压缩/解压缩系统的压缩词典进行升级。在本专利技术一实施例中,所述步骤S33中的中文分词处理通过以下步骤实现:汉转音剔除错误字词;通过同义匹配、词性确认、语法切割、固定词匹配、标点规范、缩进规范、冗余感知及网络修正进行分词处理。在本专利技术一实施例中,所述步骤S4还包括:计算每个关键词在核心文本数据出现的频度,找出未与特征信息知识库实现匹配且频度高于预设频度阈值的关键词,并将该关键词计入候选词库,存储到数据库中。相较于现有技术,本专利技术具有以下有益效果:1、本专利技术采用基于阅读习惯的网页内容提取技术,能够快速识别出网页的主题内容并进行提取,采用云分词技术实现高效中文分词,为大数据分析提供了基础保障,用户无需投入软硬件资源,能够满足中小企业和普通个人用户的大数据分析服务的低成本、定向化要求;2、本专利技术基于关系抽取技术来实现网页内容分析和网页分类,通过针对不同行业和需求设定实体关系数据集,可实现数据分析的精准性;3、本专利技术采用云分词技术进行中文分词处理的过程中,通过配备压缩词典及相应的压缩、解压缩模块,可较小分词数据上传、回传的数量,提升了中文分词的效率,压缩词典可进行更新升级(自动或定时),进一步确保了分词数据的压缩效果。附图说明图1为本专利技术网页数据服务平台的结构示意图;图2为本专利技术的工作流程图。具体实施方式下面结合附图,对本专利技术的技术方案进行具体说明。本专利技术的一种网页数据分析处理方法,该方法基于一网页数据服务平台实现,所述网页数据服务平台包括客户端、内容服务器和分词云服务器,所述内容服务器上安装有网页抓取系统、内容提取系统、内容分析系统和数据库,所述方法具体实现步骤如下:S1、网页抓取所述网页抓取系统获取爬取任务,将待爬取URL加入爬虫队列,抓取网页页面;S2、内容提取所述内容提取系统基于阅读习惯对步骤S1抓取的网页页面进行分割,生成多个区块,所述多个区块包括主题块和噪音块,剔除所述噪音块,提取主题块的核心文本数据;S3、中文分词向所述分词云服务器发送分词任务请求,并提交步骤S2提取的核心文本数据,分词云服务器对核心文本数据进行中文分词处理,并将分词结果发送给所述内容分析系统;S4、内容分析预先建立实体关系数据集,所述实体关系数据集包含一组命名实体以及与每个命名实体对应的特征信息知识库,内容分析系统针提取所述步骤S3得到的分词结果的关键词,得到关键词数据集,针对每个关键词在特征信息知识库搜索与该关键词对应的匹配结果,将该匹配结果对应的命名实体作为属性索引项添加到结构化数据表,将该关键词作为属性值添加到结构化数据表,遍历关键词数据集中的所有关键词,得到结构化数据集,基于结构化数据集对核心文本数据及对应的网页页面进行分类,并存储到数据库;S5、结果呈现客户端从数据库本文档来自技高网...
一种网页数据分析处理方法

【技术保护点】
一种网页数据分析处理方法,其特征在于:该方法基于一网页数据服务平台实现,所述网页数据服务平台包括客户端、内容服务器和分词云服务器,所述内容服务器上安装有网页抓取系统、内容提取系统、内容分析系统和数据库,所述方法具体实现步骤如下:S1、网页抓取所述网页抓取系统获取爬取任务,将待爬取 URL 加入爬虫队列,抓取网页页面;S2、内容提取所述内容提取系统基于阅读习惯对步骤S1抓取的网页页面进行分割,生成多个区块,所述多个区块包括主题块和噪音块,剔除所述噪音块,提取主题块的核心文本数据;S3、中文分词向所述分词云服务器发送分词任务请求,并提交步骤S2提取的核心文本数据,分词云服务器对核心文本数据进行中文分词处理,并将分词结果发送给所述内容分析系统;S4、内容分析预先建立实体关系数据集,所述实体关系数据集包含一组命名实体以及与每个命名实体对应的特征信息知识库,内容分析系统针提取所述步骤S3得到的分词结果的关键词,得到关键词数据集,针对每个关键词在特征信息知识库搜索与该关键词对应的匹配结果,将该匹配结果对应的命名实体作为属性索引项添加到结构化数据表,将该关键词作为属性值添加到结构化数据表,遍历关键词数据集中的所有关键词,得到结构化数据集,基于结构化数据集对核心文本数据及对应的网页页面进行分类,并存储到数据库;S5、结果呈现客户端从数据库中调取数据结果,并呈现给用户。...

【技术特征摘要】
1.一种网页数据分析处理方法,其特征在于:该方法基于一网页数据服务平台实现,所述网页数据服务平台包括客户端、内容服务器和分词云服务器,所述内容服务器上安装有网页抓取系统、内容提取系统、内容分析系统和数据库,所述方法具体实现步骤如下:S1、网页抓取所述网页抓取系统获取爬取任务,将待爬取URL加入爬虫队列,抓取网页页面;S2、内容提取所述内容提取系统基于阅读习惯对步骤S1抓取的网页页面进行分割,生成多个区块,所述多个区块包括主题块和噪音块,剔除所述噪音块,提取主题块的核心文本数据;S3、中文分词向所述分词云服务器发送分词任务请求,并提交步骤S2提取的核心文本数据,分词云服务器对核心文本数据进行中文分词处理,并将分词结果发送给所述内容分析系统;S4、内容分析预先建立实体关系数据集,所述实体关系数据集包含一组命名实体以及与每个命名实体对应的特征信息知识库,内容分析系统针提取所述步骤S3得到的分词结果的关键词,得到关键词数据集,针对每个关键词在特征信息知识库搜索与该关键词对应的匹配结果,将该匹配结果对应的命名实体作为属性索引项添加到结构化数据表,将该关键词作为属性值添加到结构化数据表,遍历关键词数据集中的所有关键词,得到结构化数据集,基于结构化数据集对核心文本数据及对应的网页页面进行分类,并存储到数据库;S5、结果呈现客户端从数据库中调取数据结果,并呈现给用户。2.根据权利要求1所述的一种网页数据分析处理方法,其特征在于:所述步骤S2具体实现步骤如下:S21、内容提取系统针对步骤S1抓取的网页页面生成初始DOM树;S22、清理初始DOM树中无用节点,构建目标DOM树;S23、利用基于视觉信息的网页分块算法对网页页面进行分割,生成多个区块,所述区块携带有语义属性,所述语义属性包括链接个数、链接长度及文本长度;S24、根据网页页面的链接数量和链接密度判断网页类型,若网页类型为导航页,则中止,若网页类型为主题页,则执行步骤S25;S25、根据各个区块的语义属性,对各个区块进行分类,分为主题块及噪音...

【专利技术属性】
技术研发人员:杨爱华陈林水
申请(专利权)人:漳州科技职业学院
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1