一种基于大数据的同一用户识别分析模型制造技术

技术编号:21091056 阅读:31 留言:0更新日期:2019-05-11 10:30
本发明专利技术公开了一种基于大数据的同一用户识别分析模型,其将聚类算法和呼叫指纹识别算法进行组合的算法,运用组合算法以及通过挖掘与某一车辆相匹配的乘客手机数据,根据手机乘客携带手机的交往圈特征、位置特征、手机开关机上报日志时间等相关特征进行研究分析,首先,通过手机开关机上报日志时间进行初步判断,其次,基于凝聚层次聚类算法对位置特征进行分析,找出疑似同一用户的卡号,再对这些卡号基于改进的呼叫指纹识别算法得出车辆内乘客携带手机数量实际对应的乘客人数。本发明专利技术可以有效判别出车辆内乘客实际人数,尤其可以对当前HOV车道的车辆内乘客数进行实时监测。

【技术实现步骤摘要】
一种基于大数据的同一用户识别分析模型
本专利技术涉及智能交通、数据挖掘及大数据处理分析领域,尤其涉及一种基于大数据的同一用户识别分析模型。
技术介绍
凝聚层次聚类算法(CondensedHierarchicalClusteringAlgorithm)是指在最初数据集中将每个样本点均作为一个簇,其次,根据制定的条件,每一步对这些最接近的簇进行合并,知道达到制定的条件方可结束迭代。呼叫指纹算法是基于TF-IDF权重算法对用户的交际圈号码的权重进行分析,生成用户的呼叫指纹。TF-IDF(termfrequency–inversedocumentfrequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(TermFrequency),IDF意思是逆文本频率指数(InverseDocumentFrequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
技术实现思路
本专利技术主要解决的技术问题是提供一种基于大数据的同一用户识别分析模型。本专利技术所采用的技术方案是:一种基于大数据的同一用户识别分析模型,包括以下步骤:S1:采集道路上与行驶车辆相匹配的乘客手机数据,乘客手机数据包括用户的语音详单、短信详单、手机开关机上报日志以及经纬度位置数据;S2:对采集的基础数据进行筛选与标准化;S3:对用户实际的语音详单、短信详单和位置信息表的数据进行特征提取;S4:基于获取手机数据中的开关机日志对所需判别的卡号进行分析,若存在两卡号在同一时刻向网络发送attach消息或detach消息,则可以判定该两卡号属于同一用户,对属于同一用户的卡号进行标记;S5:读取数据库数据,对所有卡号前一周的静态位置信息中,每次采集的数据均进行聚类分析,将小于或等于设定的阈值d合并为一类簇的卡号进行标记,说明合并类簇中的卡号在该时刻疑似为同一用户使用,将一周的标记结果进行汇总,若存在某些卡号一周中标记次数不小于阈值f,则说明这些卡号疑似属于同一用户;S6:对这些疑似属于同一用户的卡号通过语音特征及短信特征,基于改进的呼叫指纹识别算法分析确定是否属于同一用户,若属于同一用户将卡号划为一类;S7:最后将模型分析得出的实际用户数和对应的卡号入对应的数据库,完成同一用户识别分析模型的建立。较佳的,所述对采集的基础数据进行筛选与标准化包括对运营商提供的号码中包括“86”、“0086”、区号开头在内的号码进行标准化,将其变成规范的11位电话号码,并剔除干扰语音及短信详单中的噪声数据。较佳的,所述对用户实际的语音详单、短信详单和位置信息表的数据进行特征提取包括将一天24小时中,每个小时选取同一时刻采集卡号所在位置,Vx(ti,logi,lati,LBSi)表示手机卡号x在时刻ti在基站LBSi釜盖范围并由经纬度(logi,lati)标记所在位置,统计行驶车辆匹配手机卡号当前时间前一周的位置数据,汇总成位置信息分析表,包含加密后的IMEI码、采集的时间,经纬度(logi,lati),小区代码。较佳的,所述改进的呼叫指纹识别算法是在TF-IDF权重算法的基础上,将语音频次TF-IDFt与短信频次TF-IDFm进行结合,并在语音频次的基础上,增加参数通话时长。与现有技术相比,本专利技术的有益效果是:本专利技术将聚类算法和呼叫指纹识别算法进行组合的算法CHC-CFA(CondensedHierarchicalClustering-CallfingerprintAlgorithm),运用组合算法结合车辆内乘客携带手机的实时轨迹数据以及历史呼叫指纹数据建立同一用户识别模型,可以有效的判别出车辆内乘客实际人数,尤其可以对当前HOV车道的车辆内乘客数进行实时监测。当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的全部优点。附图说明图1为本专利技术的一种基于大数据的同一用户识别分析模型的流程图。具体实施方式下面结合附图对本专利技术的较佳实施例进行详细阐述,以使本专利技术的优点和特征能更易于被本领域技术人员理解,从而对本专利技术的保护范围做出更为清楚明确的界定。参考图1,一种基于大数据的同一用户识别分析模型,包括以下步骤:Step1:采集道路上与行驶车辆相匹配的乘客手机数据,包括用户的语音详单、短信详单、手机开关机上报日志以及经纬度位置数据在内的乘客手机数据作为本次模型的基础数据;Step2:对采集的基础数据进行筛选与标准化;所述对采集的基础数据进行筛选与标准化包括对运营商提供的号码中包括“86”、“0086”、区号开头在内的号码进行标准化,将其变成规范的11位电话号码,并剔除干扰语音及短信详单中的噪声数据。一些可能对语音或短信的有效数据进行干扰的噪声数据如表1所示。表1Step3:对用户实际的语音详单(VoiceDetail)、短信详单(SMSList)和位置信息表的数据进行特征提取;所述对用户实际的语音详单、短信详单和位置信息表的数据进行特征提取包括将一天24小时中,每个小时选取同一时刻采集卡号所在位置,Vx(ti,logi,lati,LBSi)表示手机卡号x在时刻ti在基站LBSi釜盖范围并由经纬度(logi,lati)标记所在位置,统计行驶车辆匹配手机卡号当前时间前一周的位置数据,汇总成位置信息分析表,包含加密后的IMEI码、采集的时间,经纬度(logi,lati),小区代码。Step4:基于获取手机数据中的开关机日志(attach消息和detach消息)对所需判别的卡号进行分析,若存在两卡号在同一时刻向网络发送attach消息或detach消息,则可以判定该两卡号属于同一用户,对属于同一用户的卡号进行标记;Step5:读取数据库数据,对所有卡号前一周的静态位置信息中,每次采集的数据均进行聚类分析,将小于或等于设定的阈值d合并为一类簇的卡号进行标记,说明合并类簇中的卡号在该时刻疑似为同一用户使用,将一周的标记结果进行汇总,若存在某些卡号一周中标记次数不小于阈值f,则说明这些卡号疑似属于同一用户;由Step5可知,阈值d指两卡号静态位置之间的距离;阈值f是指设定存在某些卡号一周中通过静态位置聚类分析属于同一类簇进行标记的次数。Step6:对这些疑似属于同一用户的卡号进行语音特征及短信特征识别,基于改进的呼叫指纹识别算法分析确定是否属于同一用户,若属于同一用户将卡号划为一类;所述改进的呼叫指纹识别算法是在TF-IDF权重算法的基础上,将语音频次TF-IDFt与短信频次TF-IDFm进行结合,并在语音频次的基础上,增加参数通话时长。其中,TFIDF是指用户a与其在该月交际圈b号码的权重值;TF-IDFt_ab为用户a与其在该月语音详单中b号码的语音频次,TF-IDFm_ab为用户a与其在该月短信详单中b号码的短信频次,TFt_ab为用户a与其在该月语音详单中b号码的语音频率;IDFt_ab为用户a与其在该月语音详单中b号码的语音逆频率;TFm_ab为用户a与其在该月短信详单中本文档来自技高网...

【技术保护点】
1.一种基于大数据的同一用户识别分析模型,其特征在于,包括以下步骤:S1:采集道路上与行驶车辆相匹配的乘客手机数据,乘客手机数据包括用户的语音详单、短信详单、手机开关机上报日志以及经纬度位置数据;S2:对采集的基础数据进行筛选与标准化;S3:对用户实际的语音详单、短信详单和位置信息表的数据进行特征提取;S4:基于获取手机数据中的开关机日志对所需判别的卡号进行分析,若存在两卡号在同一时刻向网络发送attach消息或detach消息,则可以判定该两卡号属于同一用户,对属于同一用户的卡号进行标记;S5:读取数据库数据,对所有卡号前一周的静态位置信息中,每次采集的数据均进行聚类分析,将小于或等于设定的阈值d合并为一类簇的卡号进行标记,说明合并类簇中的卡号在该时刻疑似为同一用户使用,将一周的标记结果进行汇总,若存在某些卡号一周中标记次数不小于阈值f,则说明这些卡号疑似属于同一用户;S6:对这些疑似属于同一用户的卡号通过语音特征及短信特征,基于改进的呼叫指纹识别算法分析确定是否属于同一用户,若属于同一用户将卡号划为一类;S7:最后将模型分析得出的实际用户数和对应的卡号入对应的数据库,完成同一用户识别分析模型的建立。...

【技术特征摘要】
1.一种基于大数据的同一用户识别分析模型,其特征在于,包括以下步骤:S1:采集道路上与行驶车辆相匹配的乘客手机数据,乘客手机数据包括用户的语音详单、短信详单、手机开关机上报日志以及经纬度位置数据;S2:对采集的基础数据进行筛选与标准化;S3:对用户实际的语音详单、短信详单和位置信息表的数据进行特征提取;S4:基于获取手机数据中的开关机日志对所需判别的卡号进行分析,若存在两卡号在同一时刻向网络发送attach消息或detach消息,则可以判定该两卡号属于同一用户,对属于同一用户的卡号进行标记;S5:读取数据库数据,对所有卡号前一周的静态位置信息中,每次采集的数据均进行聚类分析,将小于或等于设定的阈值d合并为一类簇的卡号进行标记,说明合并类簇中的卡号在该时刻疑似为同一用户使用,将一周的标记结果进行汇总,若存在某些卡号一周中标记次数不小于阈值f,则说明这些卡号疑似属于同一用户;S6:对这些疑似属于同一用户的卡号通过语音特征及短信特征,基于改进的呼叫指纹识别算法分析确定是否属于同一用户,若属于同一用户将卡号划为一类;S7:最后将模型分析得出的实际用户数和对应的卡号入对应的数据库,完成同一...

【专利技术属性】
技术研发人员:刘云翔陈斌林涛徐琛李晓丹施伟
申请(专利权)人:上海应用技术大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1