【技术实现步骤摘要】
一种基于大数据的同一用户识别分析模型
本专利技术涉及智能交通、数据挖掘及大数据处理分析领域,尤其涉及一种基于大数据的同一用户识别分析模型。
技术介绍
凝聚层次聚类算法(CondensedHierarchicalClusteringAlgorithm)是指在最初数据集中将每个样本点均作为一个簇,其次,根据制定的条件,每一步对这些最接近的簇进行合并,知道达到制定的条件方可结束迭代。呼叫指纹算法是基于TF-IDF权重算法对用户的交际圈号码的权重进行分析,生成用户的呼叫指纹。TF-IDF(termfrequency–inversedocumentfrequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(TermFrequency),IDF意思是逆文本频率指数(InverseDocumentFrequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TFIDF的主要思想是:如果某个词或短语在一篇文章中出 ...
【技术保护点】
1.一种基于大数据的同一用户识别分析模型,其特征在于,包括以下步骤:S1:采集道路上与行驶车辆相匹配的乘客手机数据,乘客手机数据包括用户的语音详单、短信详单、手机开关机上报日志以及经纬度位置数据;S2:对采集的基础数据进行筛选与标准化;S3:对用户实际的语音详单、短信详单和位置信息表的数据进行特征提取;S4:基于获取手机数据中的开关机日志对所需判别的卡号进行分析,若存在两卡号在同一时刻向网络发送attach消息或detach消息,则可以判定该两卡号属于同一用户,对属于同一用户的卡号进行标记;S5:读取数据库数据,对所有卡号前一周的静态位置信息中,每次采集的数据均进行聚类分析 ...
【技术特征摘要】
1.一种基于大数据的同一用户识别分析模型,其特征在于,包括以下步骤:S1:采集道路上与行驶车辆相匹配的乘客手机数据,乘客手机数据包括用户的语音详单、短信详单、手机开关机上报日志以及经纬度位置数据;S2:对采集的基础数据进行筛选与标准化;S3:对用户实际的语音详单、短信详单和位置信息表的数据进行特征提取;S4:基于获取手机数据中的开关机日志对所需判别的卡号进行分析,若存在两卡号在同一时刻向网络发送attach消息或detach消息,则可以判定该两卡号属于同一用户,对属于同一用户的卡号进行标记;S5:读取数据库数据,对所有卡号前一周的静态位置信息中,每次采集的数据均进行聚类分析,将小于或等于设定的阈值d合并为一类簇的卡号进行标记,说明合并类簇中的卡号在该时刻疑似为同一用户使用,将一周的标记结果进行汇总,若存在某些卡号一周中标记次数不小于阈值f,则说明这些卡号疑似属于同一用户;S6:对这些疑似属于同一用户的卡号通过语音特征及短信特征,基于改进的呼叫指纹识别算法分析确定是否属于同一用户,若属于同一用户将卡号划为一类;S7:最后将模型分析得出的实际用户数和对应的卡号入对应的数据库,完成同一...
【专利技术属性】
技术研发人员:刘云翔,陈斌,林涛,徐琛,李晓丹,施伟,
申请(专利权)人:上海应用技术大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。