估算用户到物理事件距离的方法技术

技术编号:14153300 阅读:42 留言:0更新日期:2016-12-11 16:49
本发明专利技术公开了一种估算用户到物理事件距离的方法,用于解决现有预测用户到物理事件距离的方法实用性差的技术问题。技术方案是将用户与事件相关联,基于事件发生的位置,通过比较事件与用户在物理、信息和社会三个特征空间的相似性,并结合已知位置信息的用户数据,构建高斯过程回归模型,对位置信息未知的用户到事件的距离进行估算。能够在物理、信息和社会三个维度,解释用户的移动特性,并通过将用户与事件进行关联,发掘用户更深层的行为规律与模式,在公众安全与社会治安管理等应用场景中具有很强的现实意义。

【技术实现步骤摘要】

本专利技术属于社交网络数据挖掘与分析领域,特别涉及一种估算用户到物理事件距离的方法
技术介绍
随着社交网络的发展,越来越多的用户将身边发生的事情发布到社交媒体中去(例如:新浪微博、Facebook和Twitter等)。然而,由于涉及个人隐私,绝大部分用户不愿意共享自己的位置信息,为了解决用户信息未知的问题,大量工作面向用户行为轨迹学习与位置预测展开。文献1“专利申请号是201410104399.8的中国专利技术专利”公开了一种基于用户移动规则的位置预测方法,其通过研究用户的时空数据,挖掘用户移动模式,从历史移动轨迹中发掘用户移动规则,解决移动用户位置预测的快速响应与高精度问题。文献2“专利申请号是201510073153.3的中国专利技术专利”公开了一种位置预测系统,该系统分为三大模块,输入、位置预测以及输出模块:输入模块用于接受用户的签到数据或位置预测请求;位置预测模块通过结合预测模型与用户数据,对用户位置进行预测;输出模块则用于显示所述位置预测结果。该方法使用概率模型对用户的位置进行预测。除此之外,专利申请号是201310518476.X、201110308289.X和200810218368.X的中国专利技术专利都公开了基于用户历史轨迹信息的位置预测方法与系统模型,然而,在现有的方法中,未有提出将用户的位置与事件的地点进行关联的方法,仅通过历史轨迹对用户位置进行预测,所得到的结果大多为数据值型(GPS坐标),不能够面向应用提供用户与现实事件的关联关系;由于人的行为特征往往是与社会事件相互关联的,如何解释用户与事件的关系,通过事件发生时的物理、社会与信息空间上的特征,发掘用户与事件的关联关系在公众安全、社会治安管理等应用场景有着极其重要的意义。
技术实现思路
为了克服现有预测用户到物理事件距离的方法实用性差的不足,本专利技术提供一种估算用户到物理事件距离的方法。该方法将用户与事件相关联,基于事件发生的位置,通过比较事件与用户在物理、信息和社会三个特征空间的相似性,并结合已知位置信息的用户数据,构建高斯过程回归模型,对位置信息未知的用户到事件的距离进行估算。能够在物理、信息和社会三个维度,解释用户的移动特性,并通过将用户与事件进行关联,发掘用户更深层的行为规律与模式,在公众安全与社会治安管理等应用场景中具有很强的现实意义。本专利技术解决其技术问题所采用的技术方案:一种估算用户到物理事件距离的方法,其特点是包括以下步骤:步骤一、根据事件的主题关键词在社交网络中筛选用户,并提取与事件相关的用户数据;假设事件的关键词为EW,发生的时间段为ETP,则所有在时间ETP内提及关键词EW的用户将会被筛选为与事件相关的用户;针对这些用户,使用网络爬虫工具获取其历史数据,构建用户个体的数据模型,表示为公式(1)RU=〈L,C,F〉 (1)其中,L表示该用户的历史签到数据,C表示用户历史上发布的状态信息,F表示用户在社交网络中的好友信息。步骤二、根据事件发生时的位置信息、参与者信息以及事件的主题内容,构建事件的特征表示模型;针对事件在物理、信息和社会空间三个方面的特征,结合事件发生时的地理位置信息,参与者信息以及事件主题,构建事件的特征表达模型,其表示为公式(2)EF=<CM,ET,EA> (2)其中,CM表示事件在物理空间的特征,其通过提取所有事件参与者的历史移动轨迹,组建群体移动特征用于表示事件的物理空间属性,是所有参与事件的用户历史上到事件位置距离的概率分布函数;假设每个参与者的历史签到序列为PLS,当前事件的位置为EL,pdi表示任意一个PLSi到EL的距离,则计算出的所有pdi表示某一个参与者到事件位置的距离分布,那么,所有参与者的pdi构成的集合就是参与者群体到事件位置的距离分布,即为群组移动特征CM,是一种关于距离的概率分布函数。ET表示事件在信息空间的特征,其通过提取事件的话题与主题词得到;每名参与者在事件发生时期都会发布有关事件话题的状态,通过提取所有参与者发布的文本内容,并提取关键词,构成关键词特征向量,每个维度表示一类关键词,最终构成事件在信息空间的特征ET。EA表示事件在社会空间的特征,其通过提取参与事件的用户信息以及他们的社交关系得到。步骤三、基于步骤一中与事件相关的用户数据,提取用户个体在物理、信息和社会空间的特征表示模型;用户个体在物理、信息和社会三个空间的特征表达模型通过步骤一中建立的用户数据模型导出,其表示为公式(3)UF=<IM,HC,RF> (3)其中,IM通过用户数据中的历史签到地点与当前事件地点距离度量,表示的是用户到事件距离的概率分布函数;假设用户的历史签到地点序列为LS,当前事件的位置为EL,di表示地点序列中任意LSi到EL的距离,那么,计算得到的所有di的概率分布情况则为IM,即一种关于距离的概率分布函数。HC通过提取用户在社交媒体上的历史文本得到,表示的是用户历史上经常提及的文本信息;通过对历史文本信息关键词的提取,构建关键词特征向量,每个维度表示一类关键词信息,即可对比事件的话题关键词特征,计算二者的相似性。RF通过提取用户每条文本信息中与好友的交互信息得到,表示的是用户近期经常沟通的社交好友信息。步骤四、针对步骤二、步骤三中构建的事件与用户个体特征表示模型,定义用户与事件在物理、信息和社会三个特征空间的相似性,基于此构建用户与事件的关联度;针对步骤二、步骤三分别构建的事件与用户个体特征模型,定义这两个特征表达模型在物理、信息和社交空间的相似性,进而衡量用户与事件之间的关联度;针对用户u以及事件e,其物理空间相似性表示为公式(4) M ( u , e ) = Σ d ∈ D I M ( d ) l o g I M ( d ) C M ( d ) - - - ( 4 ) ]]>其中,IM(d)表示用户个体历史轨迹中相对事件位置距离的概率分布函数,CM(d)表示事件参与者群体相对于事件位置距离的概率分布函数,分别对应公式(3)、公式(2)中的IM与CM。该测量值越小,表明指定用户在物理空间特征上与对应事件相关性越高。其次,二者信息空间相似性表示为公式(5) C ( u , e ) = C ( u ) C 本文档来自技高网
...
估算用户到物理事件距离的方法

【技术保护点】
一种估算用户到物理事件距离的方法,其特征在于包括以下步骤:步骤一、根据事件的主题关键词在社交网络中筛选用户,并提取与事件相关的用户数据;假设事件的关键词为EW,发生的时间段为ETP,则所有在时间ETP内提及关键词EW的用户将会被筛选为与事件相关的用户;针对这些用户,使用网络爬虫工具获取其历史数据,构建用户个体的数据模型,表示为公式(1)RU=<L,C,F>   (1)其中,L表示该用户的历史签到数据,C表示用户历史上发布的状态信息,F表示用户在社交网络中的好友信息;步骤二、根据事件发生时的位置信息、参与者信息以及事件的主题内容,构建事件的特征表示模型;针对事件在物理、信息和社会空间三个方面的特征,结合事件发生时的地理位置信息,参与者信息以及事件主题,构建事件的特征表达模型,其表示为公式(2)EF=<CM,ET,EA>   (2)其中,CM表示事件在物理空间的特征,其通过提取所有事件参与者的历史移动轨迹,组建群体移动特征用于表示事件的物理空间属性,是所有参与事件的用户历史上到事件位置距离的概率分布函数;假设每个参与者的历史签到序列为PLS,当前事件的位置为EL,pdi表示任意一个PLSi到EL的距离,则计算出的所有pdi表示某一个参与者到事件位置的距离分布,那么,所有参与者的pdi构成的集合就是参与者群体到事件位置的距离分布,即为群组移动特征CM,是一种关于距离的概率分布函数;ET表示事件在信息空间的特征,其通过提取事件的话题与主题词得到;每名参与者在事件发生时期都会发布有关事件话题的状态,通过提取所有参与者发布的文本内容,并提取关键词,构成关键词特征向量,每个维度表示一类关键词,最终构成事件在信息空间的特征ET;EA表示事件在社会空间的特征,其通过提取参与事件的用户信息以及他们的社交关系得到;步骤三、基于步骤一中与事件相关的用户数据,提取用户个体在物理、信息和社会空间的特征表示模型;用户个体在物理、信息和社会三个空间的特征表达模型通过步骤一中建立的用户数据模型导出,其表示为公式(3)UF=<IM,HC,RF>   (3)其中,IM通过用户数据中的历史签到地点与当前事件地点距离度量,表示的是用户到事件距离的概率分布函数;假设用户的历史签到地点序列为LS,当前事件的位置为EL,di表示地点序列中任意LSi到EL的距离,那么,计算得到的所有di的概率分布情况则为IM,即一种关于距离的概率分布函数;HC通过提取用户在社交媒体上的历史文本得到,表示的是用户历史上经常提及的文本信息;通过对历史文本信息关键词的提取,构建关键词特征向量,每个维度表示一类关键词信息,即可对比事件的话题关键词特征,计算二者的相似性;RF通过提取用户每条文本信息中与好友的交互信息得到,表示的是用户近期经常沟通的社交好友信息;步骤四、针对步骤二、步骤三中构建的事件与用户个体特征表示模型,定义用户与事件在物理、信息和社会三个特征空间的相似性,基于此构建用户与事件的关联度;针对步骤二、步骤三分别构建的事件与用户个体特征模型,定义这两个特征表达模型在物理、信息和社交空间的相似性,进而衡量用户与事件之间的关联度;针对用户u以及事件e,其物理空间相似性表示为公式(4)M(u,e)=Σd∈DIM(d)logIM(d)CM(d)---(4)]]>其中,IM(d)表示用户个体历史轨迹中相对事件位置距离的概率分布函数,CM(d)表示事件参与者群体相对于事件位置距离的概率分布函数,分别对应公式(3)、公式(2)中的IM与CM;该测量值越小,表明指定用户在物理空间特征上与对应事件相关性越高;其次,二者信息空间相似性表示为公式(5)C(u,e)=C(u)C(e)||C(u)||||C(e)||---(5)]]>其中,C(u)与C(e)分别指代用户u和事件e在信息空间的特征,即公式(3)和公式(2)中的用户历史文本信息HC以及事件发生时的主题ET,该公式计算两者的余弦相似度,值越大,表明指定用户在信息空间特征上与对应事件相关性越高;其中,由于用户发布的历史文本具有时间先后顺序,越靠近当前事件发生的时间段,其内容更能表现用户当前的文本兴趣偏好,故在构建用户关键词特征向量C(u)的时候考虑到了时间因素,其表达如公式(6)和公式(7)C(u)=<w1,w2,......,wn>   (6)wi=Σj=1mwi,j*exp{-(Te-tj)}---(7)]]>其中,wi表示某一维的关键词权重,其通过公式(7)计算得到;其中,wi,j表示第i维关键词在tj时刻出现的次数,Te表示事件发生时的时刻,通过计算,最终得到每一维关键词的权重大小,越靠近事件发生时发布的文本关键词,其权重越高;再次,在社会空间中,用户u与事件...

【技术特征摘要】
1.一种估算用户到物理事件距离的方法,其特征在于包括以下步骤:步骤一、根据事件的主题关键词在社交网络中筛选用户,并提取与事件相关的用户数据;假设事件的关键词为EW,发生的时间段为ETP,则所有在时间ETP内提及关键词EW的用户将会被筛选为与事件相关的用户;针对这些用户,使用网络爬虫工具获取其历史数据,构建用户个体的数据模型,表示为公式(1)RU=<L,C,F> (1)其中,L表示该用户的历史签到数据,C表示用户历史上发布的状态信息,F表示用户在社交网络中的好友信息;步骤二、根据事件发生时的位置信息、参与者信息以及事件的主题内容,构建事件的特征表示模型;针对事件在物理、信息和社会空间三个方面的特征,结合事件发生时的地理位置信息,参与者信息以及事件主题,构建事件的特征表达模型,其表示为公式(2)EF=<CM,ET,EA> (2)其中,CM表示事件在物理空间的特征,其通过提取所有事件参与者的历史移动轨迹,组建群体移动特征用于表示事件的物理空间属性,是所有参与事件的用户历史上到事件位置距离的概率分布函数;假设每个参与者的历史签到序列为PLS,当前事件的位置为EL,pdi表示任意一个PLSi到EL的距离,则计算出的所有pdi表示某一个参与者到事件位置的距离分布,那么,所有参与者的pdi构成的集合就是参与者群体到事件位置的距离分布,即为群组移动特征CM,是一种关于距离的概率分布函数;ET表示事件在信息空间的特征,其通过提取事件的话题与主题词得到;每名参与者在事件发生时期都会发布有关事件话题的状态,通过提取所有参与者发布的文本内容,并提取关键词,构成关键词特征向量,每个维度表示一类关键词,最终构成事件在信息空间的特征ET;EA表示事件在社会空间的特征,其通过提取参与事件的用户信息以及他们的社交关系得到;步骤三、基于步骤一中与事件相关的用户数据,提取用户个体在物理、信息和社会空间的特征表示模型;用户个体在物理、信息和社会三个空间的特征表达模型通过步骤一中建立的用户数据模型导出,其表示为公式(3)UF=<IM,HC,RF> (3)其中,IM通过用户数据中的历史签到地点与当前事件地点距离度量,表示的是用户到事件距离的概率分布函数;假设用户的历史签到地点序列为LS,当前事件的位置为EL,di表示地点序列中任意LSi到EL的距离,那么,计算得到的所有di的概率分布情况则为IM,即一种关于距离的概率分布函数;HC通过提取用户在社交媒体上的历史文本得到,表示的是用户历史上经常提及的文本信息;通过对历史文本信息关键词的提取,构建关键词特征向量,每个维度表示一类关键词信息,即可对比事件的话题关键词特征,计算二者的相似性;RF通过提取用户每条文本信息中与好友的交互信息得到,表示的是用户近期经常沟通的社交好友信息;步骤四、针对步骤二、步骤三中构建的事件与用户个体特征表示模型,定义用户与事件在物理、信息和社会三个特征空间的相似性,基于此构建用户与事件的关联度;针对步骤二、步骤三分别构建的事件与用户个体特征模型,定义这两个特征表达模型在物理、信息和社交空间的相似性,进而衡量用户与事件之间的关联度;针对用户u以及事件e,其物理空间相似性表示为公式(4) M ( u , e ) = ...

【专利技术属性】
技术研发人员:於志文弋飞郭斌王柱周兴社
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1