一种基于大数据的PAS用户画像分析系统及其方法技术方案

技术编号:22135369 阅读:14 留言:0更新日期:2019-09-18 09:04
本发明专利技术公开了一种一种基于大数据的PAS用户画像分析系统及其方法,该基于大数据的PAS用户画像分析系统及其方法包括如下步骤:P1、数据采集;P2、特征显示;P3、样本处理;P4、建立模型;P5、模型训练与优化;P6、应用分析;P7、数据服务和开放展示;P8、数据库建立与备份。本发明专利技术提供的一种基于大数据的PAS用户画像分析系统及其方法通过网络大数据进行数据采集,保证样本源的广泛性,可以有效提高样本清晰度,保证画像准确度,同时进行数据关联存储和开放,能够进一步支撑多纬度科技用户画像的自动构建,并利用可视化技术实现多维度用户画像的灵活展示与服务,利于使用和推广。

A PAS User Portrait Analysis System Based on Large Data and Its Method

【技术实现步骤摘要】
一种基于大数据的PAS用户画像分析系统及其方法
本专利技术涉及画像分析
,尤其涉及一种基于大数据的PAS用户画像分析系统及其方法。
技术介绍
随着社会的发展与进步,用户画像的构建越来越重要,用户画像能够利用数据的多维度视图,客观真实的反映出用户的行为轨迹、习惯特点及服务需求等,为各领域的服务能力提升,数据分析的挖掘提供了必要的技术支撑。当前科技领域用户画像构建方法核心是收集并梳理数据,开展用户画像建模与分析,但是现有的方式在数据采集和处理时,样本源比较小,不利于真实反应客观状态,而且对于数据的预处理方式过于简单,不利于提高样本精度,同时在进行建模分析时,多是简单的采用人工打标签的方式,不仅耗费人力较大,而且标签与实际偏好的准确度不高,使用效果不理想。
技术实现思路
本专利技术的目的是为了解决现有技术中存在的缺点,而提出的一种基于大数据的PAS用户画像分析系统及其方法。为了实现上述目的,本专利技术采用了如下技术方案:一种基于大数据的PAS用户画像分析系统及其方法,该基于大数据的PAS用户画像分析系统及其方法包括如下步骤:P1、数据采集:通过互联网的数据采集渠道进行数据采集,利用互联网大数据进行充分的分析与处理;P2、特征显示:分析并处理数据,选择能准确描述网络状态和用户行为的特征,生成采样样本进行数据显示;P3、样本处理:对于数据层采样样本进行过采样或欠采样处理,对于算法层采样样本进行代价敏感和集成学习处理;P4、建立模型:建立用户数据模型结构,完成全过程用户画像数据的关联与存储;P5、模型训练与优化:采用多分类模型和二分类模型相结合,并且分析模型是过拟合或欠拟合,并对模型进行优化;P6、应用分析:对数据画像模型得到的结果进行分析,并将分析结果可视化呈现给网络管理员;P7、数据服务和开放展示:通过画像识别功能定义出以数据实体为中心的不同画像体系,最后通过可视化组件定义用户画像的图集进行数据开放;P8、数据库建立与备份:重复执行上述步骤,以得到多个用户数据模型,建立画像模型仓库。优选的,所述P2步骤的的特征显示还包括如下步骤:S1、将用户根据一预设条件分为多个用户区;S2、同时收集每个所述用户区对应的所述用户的特征数据;S3、判断所述用户的特征数据是否需要实时处理;S4、将特征数据送入实时消息队列中,以进行实时处理,得到所述特征数据中的所述显示特征,并将所述特征数据和所述显示特征保存一存储器。优选的,所述P3步骤中过采样为通过增加正样本提高少数类的分类性能,欠采样为剔除负样本。优选的,所述P5步骤的欠拟合为训练集和测试集的准确率低,进行数据清洗,增加有效特征,更换复杂的模型。优选的,所述P5步骤的过拟合为训练集的准确率高,测试集的准确率低,进行增加训练样本数据,更换简单的模型。优选的,所述P4步骤的建立模型步骤采用数据梳理模块进行数据输出和关联存储。优选的,所述数据梳理模块包括数据模块和模型定义模块包括模型模块,其中数据模块包括数据识别、数据抽取、数据关联和流程推理,模型定义模块包括模型设计和关系梳理。优选的,所述P7步骤的数据开放方式为以服务接口的形式开放用户画像数据。本专利技术提供的一种基于大数据的PAS用户画像分析系统及其方法通过网络大数据进行数据采集,保证样本源的广泛性,并且采用过采样和欠采样结合集成学习的处理方式进行预处理,可以有效提高样本清晰度,并且结合过拟合以及欠拟合的方式进行模型优化生成,保证画像准确度,同时进行数据关联存储和开放,能够进一步支撑多纬度科技用户画像的自动构建,并利用可视化技术实现多维度用户画像的灵活展示与服务,利于使用和推广。附图说明图1为本专利技术的分析方法流程图;图2为本专利技术的数据处理原理框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。实施例1一种基于大数据的PAS用户画像分析系统及其方法,该基于大数据的PAS用户画像分析系统及其方法包括如下步骤:P1、数据采集:通过互联网的数据采集渠道进行数据采集,利用互联网大数据进行充分的分析与处理,采集数据时,通过爬虫软件进行数据抓取,并且提出重复信息进行数据净化;P2、特征显示:分析并处理数据,选择能准确描述网络状态和用户行为的特征,生成采样样本进行数据显示,采样样本进行相互关联搜索,对相似样本进行归类;P3、样本处理:对于数据层采样样本进行过采样或欠采样处理,对于算法层采样样本进行代价敏感和集成学习处理;P4、建立模型:建立用户数据模型结构,完成全过程用户画像数据的关联与存储;P5、模型训练与优化:采用多分类模型和二分类模型相结合,并且分析模型是过拟合或欠拟合,并对模型进行优化;P6、应用分析:对数据画像模型得到的结果进行分析,并将分析结果可视化呈现给网络管理员;P7、数据服务和开放展示:通过画像识别功能定义出以数据实体为中心的不同画像体系,最后通过可视化组件定义用户画像的图集进行数据开放;P8、数据库建立与备份:重复执行上述步骤,以得到多个用户数据模型,建立画像模型仓库。作为优选的,所述P2步骤的的特征显示还包括如下步骤:S1、将用户根据一预设条件分为多个用户区,可以对每一个用户区进编号为001-001号区、001-002号区、005-002号区等,可以进行区分和分别读取;S2、同时收集每个所述用户区对应的所述用户的特征数据,根据特征数据进行短信编译和内容排版工作,生成数字信息,并且将数字信息推送至服务器和处理终端;S3、判断所述用户的特征数据是否需要实时处理,需要实时处理的进行下一步发送,不需要实时处理的进行临时排序等待;S4、将特征数据送入实时消息队列中,以进行实时处理,得到所述特征数据中的所述显示特征,并将所述特征数据和所述显示特征保存一存储器。作为优选的,所述S1步骤的编号方式为大区域编号加小区域编号结合的方式,可以提供较多标号,保证分区数量规模。作为优选的,所述S2步骤的数字信息推送的渠道和形式包括但不限于普通短信推送、彩信推送、数字短信推送、微信推送以及网关推送等。作为优选的,所述S3步骤的临时排序等待方式为进行堆栈保存,并且采取先进后出的原则进行排序读取。作为优选的,所述S4步骤还包括保存时,将特征数据和显示特征按照对应关系,成列保存,并且设置备份库,进行复制备份。作为优选的,所述P3步骤中过采样为通过增加正样本提高少数类的分类性能,欠采样为剔除负样本。作为优选的,所述P5步骤的欠拟合为训练集和测试集的准确率低,进行数据清洗,增加有效特征,更换复杂的模型。作为优选的,所述P5步骤的过拟合为训练集的准确率高,测试集的准确率低,进行增加训练样本数据,更换简单的模型。作为优选的,所述P4步骤的建立模型步骤采用数据梳理模块进行数据输出和关联存储。作为优选的,所述P6步骤的可视化呈现方式包括但不限于网络发送图片、数据包无线发送以及实时窗口发送等。作为优选的,所述数据梳理模块包括数据模块和模型定义模块包括模型模块,其中数据模块包括数据识别、数据抽取、数据关联和流程推理,模型定义模块包括模型设计和关系梳理。作为优选的,所述P7步骤的数据开放方式为以服务接口的形式开放用户画像数据,服务接口采用开本文档来自技高网...

【技术保护点】
1.一种基于大数据的PAS用户画像分析系统及其方法,其特征在于:该基于大数据的PAS用户画像分析系统及其方法包括如下步骤:P1、数据采集:通过互联网的数据采集渠道进行数据采集,利用互联网大数据进行充分的分析与处理;P2、特征显示:分析并处理数据,选择能准确描述网络状态和用户行为的特征,生成采样样本进行数据显示;P3、样本处理:对于数据层采样样本进行过采样或欠采样处理,对于算法层采样样本进行代价敏感和集成学习处理;P4、建立模型:建立用户数据模型结构,完成全过程用户画像数据的关联与存储;P5、模型训练与优化:采用多分类模型和二分类模型相结合,并且分析模型是过拟合或欠拟合,并对模型进行优化;P6、应用分析:对数据画像模型得到的结果进行分析,并将分析结果可视化呈现给网络管理员;P7、数据服务和开放展示:通过画像识别功能定义出以数据实体为中心的不同画像体系,最后通过可视化组件定义用户画像的图集进行数据开放;P8、数据库建立与备份:重复执行上述步骤,以得到多个用户数据模型,建立画像模型仓库。

【技术特征摘要】
1.一种基于大数据的PAS用户画像分析系统及其方法,其特征在于:该基于大数据的PAS用户画像分析系统及其方法包括如下步骤:P1、数据采集:通过互联网的数据采集渠道进行数据采集,利用互联网大数据进行充分的分析与处理;P2、特征显示:分析并处理数据,选择能准确描述网络状态和用户行为的特征,生成采样样本进行数据显示;P3、样本处理:对于数据层采样样本进行过采样或欠采样处理,对于算法层采样样本进行代价敏感和集成学习处理;P4、建立模型:建立用户数据模型结构,完成全过程用户画像数据的关联与存储;P5、模型训练与优化:采用多分类模型和二分类模型相结合,并且分析模型是过拟合或欠拟合,并对模型进行优化;P6、应用分析:对数据画像模型得到的结果进行分析,并将分析结果可视化呈现给网络管理员;P7、数据服务和开放展示:通过画像识别功能定义出以数据实体为中心的不同画像体系,最后通过可视化组件定义用户画像的图集进行数据开放;P8、数据库建立与备份:重复执行上述步骤,以得到多个用户数据模型,建立画像模型仓库。2.根据所述权利要求1的一种基于大数据的PAS用户画像分析系统及其方法,其特征在于:所述P2步骤的的特征显示还包括如下步骤:S1、将用户根据一预设条件分为多个用户区;S2、同时收集每个所述用户区对应的所述用户的特征数据;S3、判断所述用户的特征数据是否需要实时处理;S4、将...

【专利技术属性】
技术研发人员:孟宪坤田文郭杨
申请(专利权)人:浙江华坤道威数据科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1