当前位置: 首页 > 专利查询>李璐专利>正文

一种基于大数据的信息处理方法及系统技术方案

技术编号:37775663 阅读:16 留言:0更新日期:2023-06-06 13:46
本发明专利技术属于大数据的信息处理技术领域,尤其涉及一种基于大数据的信息处理方法及系统。所述方法包括以下步骤:采集网络信息平台的用户信息数据,从而获得模糊用户信息数据集;对模糊用户信息数据集进行数据特征处理,从而生成用户信息标准数据集;对用户信息标准数据集进行分块存储处理,从而获得用户信息存储数据;对用户信息存储数据进行数据分析处理,获得用户信息分析数据;根据用户信息分析数据进行用户喜好预测处理,从而获得用户喜好信息,将用户喜好信息推送分发至对应的智能终端。本发明专利技术通过大数据的信息处理方法对网络信息平台的数据进行采集、处理、存储、分析与推荐,已解决现有大数据对信息处理的问题。解决现有大数据对信息处理的问题。解决现有大数据对信息处理的问题。

【技术实现步骤摘要】
一种基于大数据的信息处理方法及系统


[0001]本专利技术涉及大数据的
,尤其是涉及一种基于大数据的信息处理方法集系统。

技术介绍

[0002]大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理,换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。大数据推送能够实现对用户的持续性分析和挖掘,并在一定程度上保障推送的针对性,专利技术人对大数据定向推送进行长期研究和分析之后发现,大数据推送的质量与推送分析依据紧密相关,推送分析依据的丰富程度和合理性是确保大数据推送能够正常实施的关键。信息处理方法已经成为大数据基础架构的重要一环,针对大数据对信息的分析与推送已经成为亟需解决的技术问题。

技术实现思路

[0003]本专利技术提供一种大数据的信息处理方法,以解决至少一个上述技术问题。
[0004]为实现上述目的,本专利技术一种基于大数据的信息处理方法,包括以下步骤:
[0005]步骤S1:采集网络信息平台的用户信息数据,从而获得模糊用户信息数据集;
[0006]步骤S2:对模糊用户信息数据集进行数据特征处理,从而生成用户信息标准数据集;
[0007]步骤S3:对用户信息标准数据集进行分块存储处理,从而获得用户信息存储数据;
[0008]步骤S4:对用户信息存储数据进行数据分析处理,获得用户信息分析数据;
[0009]步骤S5:根据用户信息分析数据进行用户喜好预测处理,从而获得用户喜好信息,将用户喜好信息推送分发至对应的智能终端。
[0010]本实施例通过在人工智能系统内对大数据的信息数据进行处理,并利用处理完的数据进行分析得到用户喜好信息并发送至对应终端,对网络信息平台的用户信息数据进行数据采集,在网络信息平台的数据库中利用爬虫引擎采集用户的所有相关信息数据,从而获得模糊用户信息数据集,采集到的模糊用户信息数据集由于有很多杂乱数据或无效数据,则需要先将模糊用户信息数据集进行数据清洗、数据降噪等数据特征处理,将数据进行数据清洗可以去除数据中的无用数据,数据降噪是为了去除数据中的噪点,从而获得用户信息标准数据集,将用户信息标准数据集进行分块存储处理,由于用户信息标准数据集的数据量庞大,直接进行存储或调用会造成数据堵塞,分块存储可以提高存储速度,并且块文件非常适合用于数据备份进而提供数据容错能力和可用性,从而获得用户信息存储数据,再对用户信息存储数据进行数据分析,可以根据用户信息存储数据对用户信息标准数据集
进行分类,掌握用用户信息标准数据集的规律,从而获得用户信息分析数据,对用户信息分析数据进行用户喜好预测处理,通过用户信息分析数据了解用户喜好信息,并将用户喜好信息推送分发至对应的智能终端。
[0011]在本说明书的一个实施例中,步骤S1包括以下步骤:
[0012]根据预设的爬虫引擎获得用户信息爬虫指令集;
[0013]根据用户信息爬虫指令集对网络信息平台进行用户信息数据采集处理,将采集到零散的用户信息数据集进行整合,从而获得模糊用户信息数据集。
[0014]本实施例根据人工智能系统预设的爬虫引擎从而获得用户信息爬虫指令集,再根据用户信息爬虫指令集对网络信息平台进行用户信息数据采集处理,采集到零散的用户信息数据集,将零散的数据集进行整合标记,从而获得模糊用户信息数据集,若出现采集的数据量不够,则再次利用爬虫指令集采集用户信息数据以获得足够的数据量。
[0015]在本说明书的一个实施例中,步骤S2包括以下步骤:
[0016]步骤S201:对模糊用户信息数据集进行数据清洗,将模糊用户信息数据集转化成统一格式后进行筛选,判断筛选数据是否满足预设的模糊用户信息数据集标准,不满足则标记为用户信息异常值,并对用户信息异常值的数据进行删除,缺失值的数据用均值代替,从而生成用户信息清洗数据集;
[0017]步骤S202:对用户信息清洗数据集进行用户信息降噪处理,并通过用户信息降噪处理公式进行计算,从而生成用户信息降噪数据集;
[0018]步骤S203:对用户信息降噪数据集进行数据特征处理,从而生成用户信息标准数据集。
[0019]本实施例对模糊用户数据集进行数据清洗,防止数据中的杂乱数据或无用数据影响后续步骤的正常运行,从而生成用户信息清洗数据集,对用户信息清洗数据集进行降噪处理,处理数据中的噪点信息,使后续的数据处理能得到更精确的处理结果,从而生成用户信息降噪数据集,对用户信息降噪数据集进行数据特征处理,将数据进行提取、计算、分组与转换数据加工,从而生成用户信息标准数据集。
[0020]在本说明书的一个实施例中,步骤S202中的用户信息降噪处理公式为:
[0021]用户信息降噪处理公式为:
[0022][0023]其中,K表示为用户信息降噪指数,n表示数据集数量,表示为常数项,x
i
表示为第一个到第i个用户信息数据,z表示历史用户信息数据集权重信息,β
i
表示为第一个到第i个用户信息数据的修正项,ε表示为异常指数的调整项;
[0024]本实施例通过用户信息降噪处理公式对每个用户信息进行降噪处理,当中加入z历史用户信息数据集的权重信息,是通过历史用户计算得出对用户信息进行降噪的数据,历史用户信息数据集权重信息z对用户信息数据比例值进行数据降噪处理,再利用用户信息数据的修正项β
i
,对用户信息噪点进行累计误差修复得到用户信息降噪指数K。
[0025]在本说明书的一个实施例中,步骤S3包括以下步骤:
[0026]对用户信息标准数据集进行数据分块处理,将数据分成等量的离散块文件,从而生成用户信息数据集的块文件;
[0027]对用户信息数据集的块文件以多副本的方式分散存储处理到组织存储资源对象中,从而生成用户信息存储数据,当调用用户信息存储数据提供了透明的数据基础。
[0028]本实施例对用户信息标准数据集进行数据分块处理,将数据分成等量的离散块文件,是由于用户信息标准数据集的数据量庞大,直接进行存储或调用会造成数据堵塞,分成等量的离散块文件存储可以提高存储速度,并且块文件非常适合用于数据备份进而提供数据容错能力和可用性,从而生成用户信息数据集的块文件,再对用户信息数据集的块文件以多副本的方式分散存储处理到组织存储资源对象中,防止存储时因为数据遗漏导致不能正常存储数据或后续调用数据出现了问题,从而生成用户信息存储数据,当后续操作步骤需要调用数据时提供透明的数据基础。
[0029]在本说明书的一个实施例中,步骤S4包括以下步骤:
[0030]步骤S401:对用户信息存储数据进行划分,从而获得用户位置信息数据、用户浏览信息数据与用户检索信息数据;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的信息处理方法,其特征在于,应用于人工智能系统,所述方法包括以下步骤:步骤S1:采集网络信息平台的用户信息数据,从而获得模糊用户信息数据集;步骤S2:对模糊用户信息数据集进行数据特征处理,从而生成用户信息标准数据集;步骤S3:对用户信息标准数据集进行分块存储处理,从而获得用户信息存储数据;步骤S4:对用户信息存储数据进行数据分析处理,获得用户信息分析数据;步骤S5:根据用户信息分析数据进行用户喜好预测处理,从而获得用户喜好信息,将用户喜好信息推送分发至对应的智能终端。2.根据权利要求1所述的基于大数据的信息处理方法,其特征在于,步骤S1包括以下步骤:根据预设的爬虫引擎获得用户信息爬虫指令集;根据用户信息爬虫指令集对网络信息平台进行用户信息数据采集处理,将采集到零散的用户信息数据集进行整合,从而获得模糊用户信息数据集。3.根据权利要求1所述的基于大数据的信息处理方法,其特征在于,步骤S2包括以下步骤:步骤S201:对模糊用户信息数据集进行数据清洗,将模糊用户信息数据集转化成统一格式后进行筛选,判断筛选数据是否满足预设的模糊用户信息数据集标准,不满足则标记为用户信息异常值,并对用户信息异常值的数据进行删除,缺失值的数据用均值代替,从而生成用户信息清洗数据集;步骤S202:对用户信息清洗数据集进行用户信息降噪处理,并通过用户信息降噪处理公式进行计算,从而生成用户信息降噪数据集;步骤S203:对用户信息降噪数据集进行数据特征处理,从而生成用户信息标准数据集。4.根据权利要求3所述的基于大数据的信息处理方法,其特征在于,步骤S202中的用户信息降噪处理公式为:用户信息降噪处理公式为:其中,K表示为用户信息降噪指数,n表示数据集数量,表示为常数项,x
i
表示为第一个到第i个用户信息数据,z表示历史用户信息数据集权重信息,β
i
表示为第一个到第i个用户信息数据的修正项,ε表示为异常指数的调整项。5.根据权利要求1所述的基于大数据的信息处理方法,其特征在于,步骤S3包括以下步骤:对用户信息标准数据集进行数据分块处理,将数据分成等量的离散块文件,从而生成用户信息数据集的块文件;对用户信息数据集的块文件以多副本的方式分散存储处理到组织存储资源对象中,从而生成用户信息存储数据,当调用用户信息存储数据提供了透明的数据基础。
6.根据权利要求1所述的基于大数据的信息处理方法,其特征在于,步骤S4包括以下步骤:步骤S401:对用户信息存储数据进行划分,从而获得用户位置信息数据、用户浏览信息数据与用户检索信息数据;步骤S402:根据用户位置信息数据进行划分,从而获得用户水平位置数据与用户海拔位置数据;步骤S403:预设用户水平范围阈值与用户海拔高度阈值;步骤S404:检测用户的位置移动,根据用户水平位置数据与用户海拔位置数据发生改变的差值,生成用户水平位置数据偏移量与用户海拔位置数据偏移量;步骤S405:当用户水平位置数据偏移量超过用户水平范围阈值,则生成新的用户水平位置...

【专利技术属性】
技术研发人员:李璐马朝辉
申请(专利权)人:李璐
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1