【技术实现步骤摘要】
一种基于数据挖掘技术的用户行为分析系统及方法
本专利技术涉及互联网数据挖掘
,尤其涉及一种基于数据挖掘技术的用户行为分析系统及方法。
技术介绍
随着互联网技术的迅速发展,人们的生活和工作越来越依赖于互联网,用户在使用企业应用系统提供的服务,同时所生成的用户行为操作日志数据也在逐渐的增加。通过分析和挖掘日志数据中隐藏的信息可以得到一些有趣的模式,而这些有趣的模式对分析用户的各项需求和评估产品的效果有着重要的意义。计算机技术的发展促进了社会迈向大数据时代,在复杂、海量的数据中挖掘有用的时间序列数据是当前亟需解决的问题。近年来数据挖掘成为核心骨干技术被应用到数据处理中,数据挖掘技术的主要目的是将有价值的规律、知识和模式从海量数据中提取出来,并进行识别,根据挖掘识别结果对科学研究和商业决策进行指导。在时间序列数据分布的前提下,建立满足时间序列分布特征的数学模型,结合概率密度函数和相似性对时间序列数据进行挖掘。当前时间序列数据挖掘算法存在挖掘过程易受到噪声干扰、加速比低和可扩展性差的问题,需要研究时间序列数据挖掘算法。为 ...
【技术保护点】
1.一种基于数据挖掘技术的用户行为分析系统,其特征在于,包括温度数据采集单元、手机控制终端以及服务器端;/n所述温度数据采集单元由单片机、温度传感器、Wi-Fi通信模块和电源模块构成,单片机与温度传感器连接,接收到手机控制终端的唤醒命令后,通过I2C总线协议从温度传感器读取温度数据,通过Wi-Fi通信模块发送给手机控制终端,电源模块是单节锂聚合物电池和稳压芯片,分别与单片机、温度传感器、Wi-Fi通信模块的电源接口连接;/n所述手机控制终端为用户行为特征提取单元,通过Wi-Fi通信模块与温度数据采集单元通信,获取实时温度数据,对温度数据进行加工,添加对应的时间、GPS方位、 ...
【技术特征摘要】 【专利技术属性】
1.一种基于数据挖掘技术的用户行为分析系统,其特征在于,包括温度数据采集单元、手机控制终端以及服务器端;
所述温度数据采集单元由单片机、温度传感器、Wi-Fi通信模块和电源模块构成,单片机与温度传感器连接,接收到手机控制终端的唤醒命令后,通过I2C总线协议从温度传感器读取温度数据,通过Wi-Fi通信模块发送给手机控制终端,电源模块是单节锂聚合物电池和稳压芯片,分别与单片机、温度传感器、Wi-Fi通信模块的电源接口连接;
所述手机控制终端为用户行为特征提取单元,通过Wi-Fi通信模块与温度数据采集单元通信,获取实时温度数据,对温度数据进行加工,添加对应的时间、GPS方位、当前天气温度数据等数据,并对温度数据进行中位值平均滤波处理,通过分布式存储技术分割存储,并将数据经手机上传至服务器端;
所述服务器端包括用户群体分类单元、关联因素辨识及综合应用单元;所述用户群体分类单元结合基于时间序列的数据挖掘技术,对上传服务器端的不同时间、地点、天气下温度采集单元采集到的温度信息进行分类,建立用户分类模型;所述关联因素辨识及综合应用单元对经过整理和分类的温度信息进行分析,找出用户汽车内部温度信息与时间、地点、天气之间的潜在关联因子,实现对用户行为的分析、预测和对异常行为的检测。
2.一种基于数据挖掘技术的用户行为分析方法,通过权利要求1所述一种基于数据挖掘技术的用户行为分析系统实现,其特征在于:包括以下步骤:
步骤1:手机控制终端通过测温节点采集温度信息,经过添加外部环境信息作为用户行为信息,并上传至服务器,完成基于互联网的用户行为信息数据;
步骤2:对用户行为信息数据进行预处理,对上传到服务器的基于时间序列的温度信息进行预处理和等长处理,通过时间序列上升和下降点对时间序列数据进行近似处理,
步骤2.1:对时间序列进行预处理,将时间序列数据都映射到区间[0,1]内,消除时间序列数据中存在的噪声,公式如下:
其中,x*代表的是进行转换后得到的归一化或标准化数据;max(x)代表的是时间序列中存在的最大值;min(x)代表的是时间序列中存在的最小值;
步骤2.2:提取以r为半径、o(ti,xi)为中心区域的极值点;将o(ti,xi)作为中心,时间序列点(tp,xp)依次向后或向前采集第i个时间序列点,得到r为半径、o(ti,xi)为中心的区域G(o),通过下式判断区域中存在的极值点:
其中,f(xi,1)代表的是以r为半径、o(ti,xi)为中心区域内存在的数值特征;-1、1分别代表的是区域内的极小值点和极大值点;当f(xi,1)的值为零时,表明该时间序列点不是极值点;ti代表时间序列中第i个点的对应的时间、GPS方位、天气、车外温度构成的数组,xi代表归一化处理后第i个点对应的车内温度,tp代表时间序列中第p个点的对应的时间、GPS方位、天气、车外温度构成的数组,xp代表第p个点对应的车内温度;
步骤2.3:对提取的时间序列中的极值点进行等长处理;提取两个时间序列中存在的极值点并集,重新划分具有新极值点的时间序列,使时间序列的长度相等,时间序列等长处理的具体方法如下式所示:
其中,X、Y为等长时间序列,SX、SY为极值点对应的极值点序列,长度分别为m、n,SX′、SY′为经过等长处理后的时间序列;
步骤3:对用户行为信息进行数据挖掘,将多目标决策理论应用到时间序列数据挖掘中;
步骤3.1:根据提取得到的区间极值点序列构建标准决策矩阵Z,决策矩阵Z中的行列均为时间序列中存在的极值点以及极值点对应的对象属性;设向量A={a1,…,an}是由n个极值点构成的集合;向量C={c1,…,cm}是由m个极值点属性构成的集合,即为评价指标,通过下式比较不同指标对应的决策对象:
dk(ai,aj)=ck(ai)-ck(aj)
其中,dk(ai,aj)代表的是在评价指标ck上极值点ai、aj存在的差值;
步骤3.2:通过偏好函数用标准化的偏好度πk(ai,aj)代替差值dk(ai,aj),方法为:
πk(ai,aj)=fk(dk(ai,aj))
其中,fk()代表的是偏好函数;
步骤3.3:基于多目标决策的时间序列数据挖掘算法在线性特征的基础上对偏好函数进行选择,如下式所示:
其中,pk代表的是偏好阈值;qk代表的是无差异阈值;上述两个阈值可以对偏好度的分布态势进行预测;dk(ai,aj)在评价指标ck上极值点ai、aj存在的差值;
技术研发人员:胡旭光,李正,马大中,胡旌伟,孙秋野,李希博,王鹏程,李程晨,王雷,
申请(专利权)人:东北大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。