一种数字化营销大数据处理方法技术

技术编号:36228930 阅读:17 留言:0更新日期:2023-01-04 12:28
本发明专利技术涉及大数据处理技术领域,提出了一种数字化营销大数据处理方法,包括:获取数字化营销大数据并建立数据库;对数据库中的数字化营销大数据进行特征初步清洗;获取所有数字化营销大数据的特征,根据特征之间在数据库中的词条分布关系得到正联系参数及负联系参数,根据特征在数据库中的密度表现获取特征的收益性,根据正联系参数和负联系参数获取特征之间的联系性,再以联系性及收益性对特征进行敏感性量化;利用特征敏感性,获取数据库中词条的敏感性,得到其中敏感数据对应的词条;并对得到的数字化营销大数据中的敏感数据进行安全处理。本发明专利技术旨在解决对数字化营销大数据进行加密时,由于数据体量十分巨大而耗时过长的问题。问题。问题。

【技术实现步骤摘要】
一种数字化营销大数据处理方法


[0001]本申请涉及大数据处理领域,具体涉及一种数字化营销大数据处理方法。

技术介绍

[0002]随着科技的发展与数字化时代的到来,传统的营销方式,如线下实体店推销宣传因为覆盖面较小从而在商品的售卖过程中不占优势,相应的数字化营销因为其精准性与大面积的覆盖性愈受欢迎。而在进行数字化营销的过程中,每个企业的商品相应的会产生对应的大数据,这些大数据对于企业后续产品的更新和推行是十分重要的,所以数字化营销大数据安全性对于企业而言是个重要的问题,所以需要对数字化营销大数据进行相应的安全处理。

技术实现思路

[0003]本专利技术提供一种数字化营销大数据处理方法,以解决现有的利用算法对数字化营销大数据进行加密时,由于数据体量十分巨大而耗时过长的问题,所采用的技术方案具体如下:本专利技术一个实施例提供了一种数字化营销大数据处理方法,该方法包括以下步骤:构建数字化营销大数据的数据库,对数据库中的数字化营销大数据的所有词条进行特征清洗;获取所有词条的特征,根据同一词条内不同特征之间的位置关系获取每个特征在每个词条内的特征关联性,再将每个特征在所有词条中每个词条内的特征关联性的均值作为每个特征的正联系参数,根据从未在同一词条内出现的特征之间的整体出现次数及一定词条范围特征出现频率获取每个特征的负联系参数,根据正联系参数和负联系参数获取每个特征的联系性;根据特征在不同词条出现的词条间密度以及在同一词条内出现的词条内密度获取每个特征的收益性,再以每个特征的联系性及收益性获取每个特征的敏感性;利用数字化营销大数据中特征的敏感性,将同一词条内所有特征的敏感性之和作为该词条的敏感性,根据词条的敏感性获取词条包含的敏感数据,对敏感数据进行安全处理。
[0004]可选的,所述构建数字化营销大数据的数据库的步骤为:获取数字化营销大数据并基于来源进行分类及建立数据库,对数据库中相同来源的数字化营销大数据利用表格词条方式依照大数据的获得时间进行结构化处理,获得经过预处理的数字化营销大数据。
[0005]可选的,所述进行特征清洗的步骤为:获取数据库中所有数字化营销大数据对应的词条中的重复字符,对少部分未重复出现的特征对应的字符进行清洗,减少后续进行特征提取与特征敏感性计算的工作量。
[0006]可选的,所述获取所有词条的特征的方法为:将每个词条的文本数据作为命名体识别技术的输入,输出得到的实体即作为数字化营销大数据的特征。
[0007]可选的,所述获取每个特征在每个词条内的特征关联性的方法为:其中,表示第个词条中第个特征的特征关联性,为第个词条中所有特征的总数,表示第个词条中第个特征与第个特征的特征关联参数,由两个特征在同一词条内出现的位置关系得到。
[0008]可选的,所述每个特征的正联系参数的获取方法为:其中,表示第个特征的正联系参数,为数据库中的数字化营销大数据的结构化词条个数,表示第个词条中的第个特征出现的次数,表示第个词条中除第个特征之外其他特征的出现总次数,表示第个词条中第个特征的特征关联性。
[0009]可选的,所述获取每个特征的负联系参数的方法为:其中,表示第个特征的负联系参数,表示从未与第个特征在同一个词条中出现的特征中的第个特征,则表示这些从未与第个特征在同一词条出现的特征总个数,表示第个特征在数据库中出现的总次数,表示第个特征在数据库中出现的总次数,表示在第个词条范围内第个特征出现的频率,表示在第个词条范围内第个特征出现的频率,表示共有个词条范围,所述词条范围为一个一定数量词条构成的范围。
[0010]可选的,所述获取每个特征的联系性的方法为:其中,即为第个特征的联系性,为第个特征正联系归一化后的参数,为第个特征负联系归一化后的参数。
[0011]可选的,所述获取每个特征的收益性的方法为:
其中,为第个特征的词条间密度,为第次相邻出现的第个特征所在两个词条的距离,为最大相邻出现次数;所述的第个特征的词条内密度的计算方法为:其中,为第个特征的词条内密度,表示第个特征在第个词条中的出现的次数,表示第个特征在第个词条中第次出现的位置,表示第个特征在第个词条中第次出现的位置,表示第个词条的长度;根据特征的词条间密度、词条内密度以及出现总次数的乘积本专利技术的有益效果是:通过对数字化营销大数据的特征提取,利用特征特性来量化大数据的敏感性,节省大量的敏感数据筛选计算量;通过正负联系性及特征收益进行敏感性计算,更加准确的进行数字化营销大数据的敏感数据筛选,而后对数字化营销大数据进行安全处理,大量减少处理的基础数据量,缩短处理时间。
附图说明
[0012]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动力的前提下,还可以根据这些附图获得其他的附图。
[0013]图1为本专利技术的一个实施例所提供的一种数字化营销大数据处理方法的流程示意图。
具体实施方式
[0014]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0015]请参阅图1,其示出了本专利技术一个实施例所提供的一种数字化营销大数据处理方法的流程图,该方法包括以下步骤:步骤S001、获取数字化营销大数据并建立数据库。
[0016]因为数字化营销大数据相对于数据库中的结构化数据来说,是十分分散以及结构不规律的,这对后续进行特征提取以及特征敏感性计算是十分不方便的。具体表现在进行特征提取的时候需要进行不规则的数据(特指数据结构)之间的检索,从而使得计算量大增。并且不同来源的数据的联系性并不是很强,进行数据的特征识别以及利用数据特征进行特征敏感性计算的时候,因为不同来源的数据之间的联系性不强,导致特征提取过多,进
而造成特征敏感性计算不准确及维度灾难。所以需要对数字化营销大数据进行基于数据来源的数据库的建立,而后对数据库中的数字化营销大数据进行结构化处理。
[0017]首先获取数字化营销大数据,可通过企业对数字化营销大数据进行收集时记录得到,进一步的,根据数据来源进行分类,同一来源的数据即归为一类。
[0018]对每一个来源的数字化营销大数据建立数据库,优选的,利用现有技术如Hbase技术进行建立,该技术为公知技术,在此不作赘述。
[0019]对每一个数据库中相同来源的数字化营销大数据,利用表格词条的形式,依照大数据的获得时间进行结构化处理,共可获得个词条,其中每个数据库中的词条总数可能并不相同,在此为方便叙述,统一使用进行表示。
[0020]通过数字化营销大数据的获取,基于来源的分类及数据库建立以及相应的结构化处理,得到了预处理后的数字化营销大数据。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数字化营销大数据处理方法,其特征在于,该方法包括以下步骤:构建数字化营销大数据的数据库,对数据库中的数字化营销大数据的所有词条进行特征清洗;获取所有词条的特征,根据同一词条内不同特征之间的位置关系获取每个特征在每个词条内的特征关联性,再将每个特征在所有词条中每个词条内的特征关联性的均值作为每个特征的正联系参数,根据从未在同一词条内出现的特征之间的整体出现次数及一定词条范围特征出现频率获取每个特征的负联系参数,根据正联系参数和负联系参数获取每个特征的联系性;根据特征在不同词条出现的词条间密度以及在同一词条内出现的词条内密度获取每个特征的收益性,再以每个特征的联系性及收益性获取每个特征的敏感性;利用数字化营销大数据中特征的敏感性,将同一词条内所有特征的敏感性之和作为该词条的敏感性,根据词条的敏感性获取词条包含的敏感数据,对敏感数据进行安全处理。2.根据权利要求1所述的一种数字化营销大数据处理方法,其特征在于,所述构建数字化营销大数据的数据库的步骤为:获取数字化营销大数据并基于来源进行分类及建立数据库,对数据库中相同来源的数字化营销大数据利用表格词条方式依照大数据的获得时间进行结构化处理,获得经过预处理的数字化营销大数据。3.根据权利要求1所述的一种数字化营销大数据处理方法,其特征在于,所述进行特征清洗的步骤为:获取数据库中所有数字化营销大数据对应的词条中的重复字符,对少部分未重复出现的特征对应的字符进行清洗,减少后续进行特征提取与特征敏感性计算的工作量。4.根据权利要求1所述的一种数字化营销大数据处理方法,其特征在于,所述获取所有词条的特征的方法为:将每个词条的文本数据作为命名体识别技术的输入,输出得到的实体即作为数字化营销大数据的特征。5.根据权利要求1所述的一种数字化营销大数据处理方法,其特征在于,所述获取每个特征在每个词条内的特征关联性的方法为:其中,表示第个词条中第个...

【专利技术属性】
技术研发人员:孙晓琛葛强
申请(专利权)人:山东智豆数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1