一种基于用户位置日志的地址信息校验系统技术方案

技术编号:15938805 阅读:84 留言:0更新日期:2017-08-04 21:43
本发明专利技术涉及一种基于用户位置日志的地址信息校验系统,其包括收集及预处理用户数据信息,计算位置配置表并统计位置特征,建立用户与位置关系标签数据库;建立用户与位置关系的识别模型,利用模型识别用户行为模式并更新用户与位置关系标签数据库;利用用户实时位置日志、用户与位置关系标签数据库,校验用户提交的地址信息匹配度,最后得到校验结果;根据校验结果,更新地址信息和位置配置表、用户与位置关系标签数据库及识别模型。本发明专利技术能够提供一种前置数据要求低、数据收集处理简单且成本低、实时性强、校验准确度高的基于用户位置日志的地址信息校验系统。

Address information checking system based on user position log

The invention relates to an address information verification system based on the position of the user log, including the collection and pretreatment of user data, calculate the position configuration table statistics and position feature, establish a relationship between the user and the position tag database; identification model of relationship between the user and the location of the use of model identification of user behavior patterns and relations and update user location tags the use of real-time database; user logs, position relation between the user and the position tag database, check the user submitted address information matching, finally get the check results; according to the calibration results, more new address information and the location allocation table, a relationship between the user and the position tag database and recognition model. The invention can provide an address information verification system based on the user's position log, which has low data requirement, simple data collection and processing, low cost, good real-time performance and high verification accuracy.

【技术实现步骤摘要】
一种基于用户位置日志的地址信息校验系统
本专利技术涉及信息
,尤其涉及一种基于用户位置日志的地址信息校验系统。
技术介绍
以3G、4G为主的移动通讯网络的普及,产生了反映用户日常生活规律的大数据。通过数据挖掘技术可以从用户的位置日志中识别出用户的关键地点,比如居住场所,工作场所等。在互联网金融业务中,经常需要用户提交一些信息,这些位置数据可用于验证用户提交信息的真实性,可以应用于信用评估、反欺诈等场景。传统的用户行为识别技术基于用户的位置日志和与位置相关的语义信息,通过分类或聚类算法,区分用户的行为类别。其中,与位置相关的语义信息指的是小区、学校、超市等地点,用户行为类别指的是居家,出行,购物等活动。通过判断用户是否出现在某些特定地点以及出现的频率来进行位置信息校验。该传统识别技术具有以下缺点:依赖地点位置的语义信息进行行为模式识别,对前置数据要求高,数据收集代价大;在校验地点时,只关注用户出现在特定位置的频率,忽略用户的行动模式。
技术实现思路
本专利技术目的是为了克服现有技术的不足而提供一种基于用户位置日志的地址信息校验系统,该系统具备前置数据要求低、数据收集处理简单、成本低、实时性强、校验准确度高等优点。为达到上述目的,本专利技术采用了如下技术方案。本专利技术的一种基于用户位置日志的地址信息校验系统,其通过以下步骤实现:步骤一:收集及预处理用户数据信息,计算位置配置表并统计位置特征,建立用户与位置关系标签数据库;步骤二:建立用户与位置关系的识别模型,利用模型识别用户行为模式并更新用户与位置关系标签数据库;步骤三:利用用户实时位置日志、用户与位置关系标签数据库,校验用户提交的地址信息的匹配度,最后得到校验结果;步骤四:根据校验结果,更新地址信息和位置配置表、用户与位置关系标签数据库及识别模型。所述步骤一具体包括:(1)收集数据,每个用户有多条记录,每条记录包含用户标识UID、时间T、经度LNG、纬度LAT等信息的日志数据。(2)处理位置日志,计算位置配置表和位置特征:基于一定时间内(比如半年内)的全部用户位置日志进行集体行为分析;采用聚类方法将位置划分为连续的大小适当的区域,比如半径50m至500m,聚类的特征包括但不限于经纬度和集体行为特征(比如曾在位置周边出现的用户数,各时段在该位置的驻留人数、通过人数、抵达人数和离开人数);得到位置配置表,每条记录包含(聚类后)位置标识LID、位置清单((LNG0,LAT0),…,(LNGi,LATi))、集体行为特征(包括但不限于各时段在该位置驻留的用户数、流入用户数、流出用户数、流向邻近地点LIDj的用户数)、地址信息(以前缀树形式记录,行政区划统计)、标记结果统计信息(将地点作为工作地点的用户数、将该地点作为住所的用户数等)。所述聚类方法分为三步:第一步,使用聚类算法通过集体行为特征对位置进行第一次聚类,特征处理算法包括但不限于Iso-map,PCA等,聚类算法包括但不限于K-means,DBScan,SpectralClustering;第二步,将第一步的聚类特征和经纬度组合进行第二次聚类,聚类算法包括但不限于层次聚类,mean-shift,SOM算法;第三步,在第二次聚类结果上根据地理位置的连通性进行修正,使用的算法包括但不限于Dijkstra算法。(3)预处理每个用户的位置日志,统计用户-位置特征:对于每一位用户,基于一定时间内(比如半年内)的位置日志进行个体行为分析,得到形如(UID,LID,feature0,…,featureN)的特征;然后对位置日志进行预处理,包括但不限于:基于固定的时间粒度(比如5min)合并,匹配聚类结果LID,识别并消除乒乓现象,统计在每个LID周边的回转半径,将用户活动切分为移动和驻留;统计用户-位置特征数据,所述用户-位置特征包括但不限于:用户在该地点周边活动记录的比例、用户在该地点周边活动记录的回转半径、用户在法定工作日/节假日各时段到达/离开/驻留在该地点的频率、用户在法定工作日/节假日各时段离开该地点去往的地点LID及分布的回转半径、用户在到达该地点前离开的地点LID及分布的回转半径。(4)建立用户与位置关系标签数据库:用户与位置关系标签是指每一个用户标识UID和地点标识LID二元组的类别,标签包括但不限于住所、固定工作场所、工作区域、上下班、娱乐等,用户-位置关系标签记录形如(UID,LID,类别label,概率p);人工登记实际数据,如果用户UIDi有明显的夜间常驻地点LIDj,将(UIDi,LIDj)标记为“住所”,有明显的日间常驻地点LIDk,将(UIDi,LIDk)标注为“工作场所”,在住所和工作场所之间有地点LIDl、LIDm将其标注为(UIDi,LIDl),(UIDi,LIDm)标注为“上下班”。所述步骤二具体包括:(1)建立用户-位置关系识别模型:输入“用户-位置特征”和“位置特征”,输出“用户-位置关系标签”或“用户-位置关系标签的概率”。所述位置识别模型的类别包括但不限于:针对单个类别的单类分类模型,比如识别住所的OCSVM、识别工作场所的OCSVM等;针对多个类别的多类分类模型,比如Bayes分类器、神经网络、逻辑回归模型、梯度提升树、随机森林等;每个城市的模型和通用模型;手工逻辑规则;真实记录;不同类型模型的集成模型,集成方式包括但不限于结果投票、概率平均、模型堆叠等。特殊的,在建立模型时保留部分标签记录作为验证数据(比如20%的用户日志),供系统更新模型时使用。数据集划分的方式包括但不限于以用户为单位、根据活动地点层次采样等。(2)更新用户-位置关系标签。模型建立之后,批量标记除真实记录以外的所有用户-位置关系标签,同时系统保留手工规则修正标签的方式。所述步骤三具体包括:(1)收集待验证的地址信息:待验证地址信息是指用户提交资料时填写的常驻地址、单位地址等,比如(UID,住所,某省某市某区某街道某小区某栋某室),要求用户从省级行政区划开始填写,前三级行政区划需要填写完整。(2)记录/匹配待验证地址信息:从地图服务匹配经纬度,用户填写待验证地址后,从第三方或本地地图服务中匹配该地址经纬度;若经纬度匹配成功,根据经纬度从系统数据中匹配相应地点LID;若经纬度匹配不成功则进行模糊匹配。首先,从该用户-位置关系记录中选择地址信息匹配程度最高的LID;若失败,则从该行政区划之中选择地址信息匹配程度最高的LID;若模糊匹配失败,则该地址信息验证失败;若经纬度匹配成功或模糊匹配成功,则将该地址信息更新到匹配成功的LID所对应的位置配置表的地址记录中。(3)记录用户地址信息验证结果:验证地址是指通过对比用户提交的地址信息和用户的日志,返回两者的一致性,比如,匹配失败或匹配成功其住所的概率为0.72;验证的结果可以作为该信息真实性的参考,比如应用于信用评估、反欺诈等场景。所述步骤四具体包括:(1)更新地址信息和位置配置表:系统将定期更新记录的地址信息,包括但不限于清理真实性低的记录、清理过期记录等。系统将定期根据最新数据修正位置配置表,包括但不限于扩展或缩小经每个LID所属区域、合并和拆分LID。系统将提供统计功能,自动选择不确定程度高的区域,以便辅助人工调研补充信息等方式。(2)更新用户-位置标签本文档来自技高网...
一种基于用户位置日志的地址信息校验系统

【技术保护点】
一种基于用户位置日志的地址信息校验系统,其特征在于,通过以下步骤实现:步骤一:收集及预处理用户数据信息,计算位置配置表并统计位置特征,建立用户与位置关系标签数据库;步骤二:建立用户与位置关系的识别模型,利用模型识别用户行为模式并更新用户与位置关系标签数据库;步骤三:利用用户实时位置日志、用户与位置关系标签数据库,校验用户提交的地址信息的匹配度,最后得到校验结果;步骤四:根据校验结果,更新地址信息和位置配置表、用户与位置关系标签数据库及识别模型。

【技术特征摘要】
1.一种基于用户位置日志的地址信息校验系统,其特征在于,通过以下步骤实现:步骤一:收集及预处理用户数据信息,计算位置配置表并统计位置特征,建立用户与位置关系标签数据库;步骤二:建立用户与位置关系的识别模型,利用模型识别用户行为模式并更新用户与位置关系标签数据库;步骤三:利用用户实时位置日志、用户与位置关系标签数据库,校验用户提交的地址信息的匹配度,最后得到校验结果;步骤四:根据校验结果,更新地址信息和位置配置表、用户与位置关系标签数据...

【专利技术属性】
技术研发人员:饶翔
申请(专利权)人:南京安讯科技有限责任公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1