网页数据分析及可视化方法、装置、电子设备及介质制造方法及图纸

技术编号:32646602 阅读:26 留言:0更新日期:2022-03-12 18:29
本发明专利技术涉及数据可视化领域,揭露了一种网页数据分析及可视化方法,包括:获取网页数据信息,在所述网页数据信息中爬取预定字段的原始网页数据;将所述原始网页数据进行文件格式转换,得到标准网页数据;利用预构建的分词组件对所述标准网页数据进行分词操作,得到关键词频数;通过预构建的数据可视化组件,将所述关键词频数进行图表可视化转换,得到可视化网页数据。本发明专利技术还提出一种网页数据分析及可视化装置、电子设备以及计算机可读存储介质。本发明专利技术可以解决用户往往不能便捷直观的获取需要的网络信息数据,导致用户获取信息的体验感差,效率低的问题。效率低的问题。效率低的问题。

【技术实现步骤摘要】
网页数据分析及可视化方法、装置、电子设备及介质


[0001]本专利技术涉及数据可视化领域,尤其涉及一种网页数据分析及可视化方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着网络技术的快速发展,互联网由于拥有快速、便捷、高效的信息获取模式,开始逐渐成为人们获取信息的主要来源。
[0003]但当前网络信息数据开始呈现爆炸性增长,且普遍出现多且杂的缺点,随着时间的积累,将会产生大量无用的网络信息数据,因此用户往往不能便捷直观的获取需要的网络信息数据,导致用户获取信息的体验感差,效率低的现象。

技术实现思路

[0004]本专利技术提供一种网页数据分析及可视化方法、装置及计算机可读存储介质,其主要目的在于解决用户往往不能便捷直观的获取需要的网络信息数据,导致用户获取信息的体验感差,效率低的问题。
[0005]为实现上述目的,本专利技术提供的一种网页数据分析及可视化方法,包括:
[0006]获取网页数据信息,在所述网页数据信息中爬取预定字段的原始网页数据;
[0007]将所述原始网页数据进行文件格式转换,得到标准网页数据;
[0008]利用预构建的分词组件对所述标准网页数据进行分词操作,得到关键词频数;
[0009]通过预构建的数据可视化组件,将所述关键词频数进行图表可视化转换,得到可视化网页数据。
[0010]可选地,所述在所述网页数据信息中爬取预定字段的原始网页数据,包括:
[0011]构建需爬取字段;
[0012]利用预构建的封装文件封装所述需爬取字段,得到字段爬取文件;
[0013]利用预构建的爬虫程序,根据所述字段爬取文件,在所述网页数据信息中爬取网页数据,得到所述原始网页数据。
[0014]可选地,所述将所述原始网页数据进行文件格式转换,得到标准网页数据,包括:
[0015]定义文件处理方法,得到标准格式转换方法;
[0016]利用所述标准格式转换方法,将所述原始网页数据进行数据转换,得到所述标准网页数据。
[0017]可选地,所述利用所述标准格式转换方法,将所述原始网页数据进行数据转换,得到所述标准网页数据,包括:
[0018]提取所述原始网页数据的网页节点名称及所述网页节点名称对应的节点内容;
[0019]创建字段存储文件;
[0020]在所述字段存储文件中,利用预构建的字典存储方法,将所述网页节点名称转为键,并将所述节点内容转为值;
[0021]根据所述键及值,将所述原始网页数据进行字典式存储,得到标准存储数据;
[0022]利用预构建的数据读取方法,读取所述标准存储数据中的键;
[0023]根据所述标准存储数据中的键,索引所述标准存储数据中的值;
[0024]将所述标准存储数据中的键及值写入预构建的分词文档中,得到所述标准网页数据。
[0025]可选地,所述利用预构建的分词组件对所述标准网页数据进行分词操作,得到关键词频数,包括:
[0026]使用预构建的分词方法,对所述标准网页数据进行关键词切分,得到关键词集;
[0027]对所述关键词集进行筛选,得到目标关键词集;
[0028]汇总所述目标关键词集中每一个关键词出现的次数,得到所述关键词频数。
[0029]可选地,所述通过预构建的数据可视化组件,将所述关键词频数进行图表可视化转换,得到可视化网页数据,包括:
[0030]创建窗口对象;
[0031]在所述窗口对象中,确定画布尺寸;
[0032]利用预构建的函数绘制图形,根据所述关键词频数,绘制对应的图表,得到所述可视化网页数据。
[0033]可选地,所述可视化网页数据的获取方法,还包括:
[0034]接收预构建的绘图库;
[0035]利用预构建的数据导入模块,将所述关键词频数导入所述绘图库中,在所述绘图库中选择目标展示图样式;
[0036]根据所述目标展示图样式,将所述关键词频数进行图表展示,得到所述可视化网页数据。
[0037]为了解决上述问题,本专利技术还提供一种网页数据分析及可视化装置,所述装置包括:
[0038]原始网页数据获取模块,用于获取网页数据信息,在所述网页数据信息中爬取预定字段的原始网页数据;
[0039]标准网页数据转换模块,用于将所述原始网页数据进行文件格式转换,得到标准网页数据;
[0040]标准网页数据分词模块,用于利用预构建的分词组件对所述标准网页数据进行分词操作,得到关键词频数;
[0041]关键词频数可视化模块,用于通过预构建的数据可视化组件,将所述关键词频数进行图表可视化转换,得到可视化网页数据。
[0042]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0043]存储器,存储至少一个指令;及
[0044]处理器,执行所述存储器中存储的指令以实现上述所述的网页数据分析及可视化方法。
[0045]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的网页数据分析及可视化方法。
[0046]相比于
技术介绍
所述:用户往往不能便捷直观的获取需要的网络信息数据,导致用户获取信息的体验感差,效率低的现象,本专利技术实施例通过获取所述网页数据信息,并在所述网页数据信息中爬取预定字段的原始网页数据,进而得到后续分析处理需要的原始数据材料。通过对所述原始网页数据执行文件格式转换,得到所述标准网页数据,方便了后续对所述原始网页数据的处理。在得到所述标准网页数据后,可以根据所述标准网页数据的标准化格式,并利用所述分词组件来对所述标准网页数据进行分词操作,得到所述网页数据信息中的关键词,通过分析汇总所述关键词出现的频次,可以计算得到所述关键词频数。进而利用所述数据可视化组件对所述关键词频数进行图表可视化转换,得到所述可视化网页数据。因此本专利技术提出的网页数据分析及可视化方法、装置、电子设备及计算机可读存储介质,可以解决用户往往不能便捷直观的获取需要的网络信息数据,导致用户获取信息的体验感差,效率低的问题。
附图说明
[0047]图1为本专利技术一实施例提供的网页数据分析及可视化方法的流程示意图;
[0048]图2为图1中其中一个步骤的详细实施流程示意图;
[0049]图3为图1中另一个步骤的详细实施流程示意图;
[0050]图4为本专利技术一实施例提供的网页数据分析及可视化装置的功能模块图;
[0051]图5为本专利技术一实施例提供的实现所述网页数据分析及可视化方法的电子设备的结构示意图。
[0052]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0053]应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0054]本申请实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页数据分析及可视化方法,其特征在于,所述方法包括:获取网页数据信息,在所述网页数据信息中爬取预定字段的原始网页数据;将所述原始网页数据进行文件格式转换,得到标准网页数据;利用预构建的分词组件对所述标准网页数据进行分词操作,得到关键词频数;通过预构建的数据可视化组件,将所述关键词频数进行图表可视化转换,得到可视化网页数据。2.如权利要求1所述的网页数据分析及可视化方法,其特征在于,所述在所述网页数据信息中爬取预定字段的原始网页数据,包括:构建需爬取字段;利用预构建的封装文件封装所述需爬取字段,得到字段爬取文件;利用预构建的爬虫程序,根据所述字段爬取文件,在所述网页数据信息中爬取网页数据,得到所述原始网页数据。3.如权利要求2所述的网页数据分析及可视化方法,其特征在于,所述将所述原始网页数据进行文件格式转换,得到标准网页数据,包括:定义文件处理方法,得到标准格式转换方法;利用所述标准格式转换方法,将所述原始网页数据进行数据转换,得到所述标准网页数据。4.如权利要求3所述的网页数据分析及可视化方法,其特征在于,所述利用所述标准格式转换方法,将所述原始网页数据进行数据转换,得到所述标准网页数据,包括:提取所述原始网页数据的网页节点名称及所述网页节点名称对应的节点内容;创建字段存储文件;在所述字段存储文件中,利用预构建的字典存储方法,将所述网页节点名称转为键,并将所述节点内容转为值;根据所述键及值,将所述原始网页数据进行字典式存储,得到标准存储数据;利用预构建的数据读取方法,读取所述标准存储数据中的键;根据所述标准存储数据中的键,索引所述标准存储数据中的值;将所述标准存储数据中的键及值写入预构建的分词文档中,得到所述标准网页数据。5.如权利要求4所述的网页数据分析及可视化方法,其特征在于,所述利用预构建的分词组件对所述标准网页数据进行分词操作,得到关键词频数,包括:使用预构建的分词方法,对所述标...

【专利技术属性】
技术研发人员:胥小艳
申请(专利权)人:宁波柠清信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1