【技术实现步骤摘要】
本专利技术属于数据挖掘和服务信息推荐领域,具体涉及一种基于不确定语义的社交网用户行为关系推演系统及方法。
技术介绍
在线社交网络成为了使用户之间相互联系,分享各种信息的重要平台,如Twitter、Facebook、Instagram等知名社交网络。其中,由于Twitter具有内容简洁性及强大的用户实时交互性,已经成为当今国外主流社交媒体。Tweet(推特)中的“@”字符表示“提及”,意思是“向某人说”,不难看出,“@”操作是揭示用户间紧密关系的有效途径之一。但查阅资料后得知,目前学术界和工业界对社交关系研究,一方面,仅局限于“关注/被关注”关系,或者是“Retweet关系”,即通过计算用户相似度、分析网络拓扑结构、度量用户交互性等手段来分析静态的社交网用户关系及其强度,缺乏对“@”关系的深入探讨,但事实是,在体现用户紧密程度方面,“@”关系比“关注/被关注”关系更强,因为只有关注了某个用户,才能去“@”该用户,因此目前社交网关系研究遗漏了对更紧密相似语义行为关系的挖掘。另一方面,尽管有些研究工作提出了与位置有关的用户关系推断,但只研究了“关注”和“推送”这种简单的显式连接关系,对用户间是否具有更复杂的隐式语义连接,比如通过“活动”所体现出来的餐饮、旅行、购物等语义关系尚未作出探讨,事实上,利用位置所体现的语义信息能更准确地找到相似用户,但这一点被忽略。综上所述,社交网用户行为关系的研究尚不够深入和完善,行为关系挖掘技术< ...
【技术保护点】
一种基于不确定语义的社交网用户行为关系推演系统,其特征在于,包括不确定词条活动库构建模块、未知地理位置推演模块、推特文本词条提取模块、推特文本词条表达活动概率值推演模块、用户对活动相似性概率矩阵计算模块、用户对物理位置相似度矩阵计算模块、用户对语义行为关系矩阵推演模块和用户对语义行为关系聚类推演模块;其中,不确定词条活动库构建模块:用于获取第三方应用中的活动类别及各活动类别中所包含的不确定词条,根据每个不确定词条在不同活动类别中的词频和每个不确定词条的逆向文本频率,获得每个不确定词条在不同活动类别中的重要性权重值,并根据设定的两个重要性权重阈值和每个不确定词条在不同活动类别中的重要性权重值,对每个不确定词条进行分类,再根据分类情况计算词条属于各活动类别的概率值,最终根据获得的活动类别、各活动类别中所包含的不确定词条、各不确定词条的类型和各不确定词条所属活动类别的概率值,构建不确定词条活动库;未知地理位置推演模块:用于获取社交网中提及目标用户的其他用户的已知物理位置经度和纬度,计算其他用户的已知物理位置方差,并根据上述方差,采用最大似然估计法获得目标用户的未知物理位置,发送至用户对物理位 ...
【技术特征摘要】
1.一种基于不确定语义的社交网用户行为关系推演系统,其特征在于,包括不确定词条活
动库构建模块、未知地理位置推演模块、推特文本词条提取模块、推特文本词条表达活动概
率值推演模块、用户对活动相似性概率矩阵计算模块、用户对物理位置相似度矩阵计算模
块、用户对语义行为关系矩阵推演模块和用户对语义行为关系聚类推演模块;其中,
不确定词条活动库构建模块:用于获取第三方应用中的活动类别及各活动类别中所包含
的不确定词条,根据每个不确定词条在不同活动类别中的词频和每个不确定词条的逆向文本
频率,获得每个不确定词条在不同活动类别中的重要性权重值,并根据设定的两个重要性权
重阈值和每个不确定词条在不同活动类别中的重要性权重值,对每个不确定词条进行分类,
再根据分类情况计算词条属于各活动类别的概率值,最终根据获得的活动类别、各活动类别
中所包含的不确定词条、各不确定词条的类型和各不确定词条所属活动类别的概率值,构建
不确定词条活动库;
未知地理位置推演模块:用于获取社交网中提及目标用户的其他用户的已知物理位置经
度和纬度,计算其他用户的已知物理位置方差,并根据上述方差,采用最大似然估计法获得
目标用户的未知物理位置,发送至用户对物理位置相似度矩阵计算模块中;
推特文本词条提取模块:用于通过分词工具将社交网中提及目标用户的其他用户所发文
本进行词条提取,并发送至推特文本词条表达活动概率值推演模块中;
推特文本词条表达活动概率值推演模块:用于在不确定词条活动库中对所提取的词条进
行匹配,并确定词条在不同活动类别中的词条类型和概率值,并获得所提取的词条所属活动
类别的所有组合情况,并计算各活动类别中每种词条组合情况的概率值;
用户对活动相似性概率矩阵计算模块:用于采用杰卡德相似系数计算获得任意用户对所
产生的各类活动的相似度和相似概率,并将大于设定阈值的相似度所对应的活动相似概率进
行求和,获得该用户对活动相似概率,进而获得所有目标用户对活动相似概率,并构建用户
对相似行为活动概率下三角矩阵;
用户对物理位置相似度矩阵计算模块:用于将目标用户的地理经度和纬度转换成平面距
离,根据平面距离计算任意用户对间物理位置的相似度,并获取用户对间物理位置的相似度
大于设定阈值的相似度值,并将上述相似度值保存至用户对物理位置相似度下三角矩阵中,
完成用户对物理位置相似度下三角矩阵的构建;
用户对语义行为关系矩阵推演模块:用于根据构建完成的用户对相似行为活动概率下三
角矩阵和用户对物理位置相似度下三角矩阵,获取目标用户对在用户对相似行为活动概率下
三角矩阵和用户对物理位置相似度下三角矩阵中对应位置的两数值,并将两数值相乘,获得
\t目标用户对用户对语义行为关系值,并构建用户对用户对语义行为关系矩阵;
用户对语义行为关系聚类推演模块;用于根据用户对用户对语义行为关系矩阵构建连通
图,即将用户作为连通图的节点,用户对间的用户对语义行为关系值作为连通图节点之间的
连通边,删除用户对语义行为关系值小于设定阈值的连通边,将剩余连通边构成的每个连通
子图作为一组用户对语义行为关系,完成社交网用户语义行为关系的推演。
2.采用权利要求1所述的基于不确定语义的社交网用户行为关系推演系统进行的推演方
法,其特征在于,包括以下步骤:
步骤1、构建不确定词条活动库,具体步骤如下:
步骤1-1、获取第三方应用中的活动类别及各活动类别中所包含的不确定词条;
步骤1-2、根据每个不确定词条在不同活动类别中的词频和每个不确定词条的逆向文本
频率,获得每个不确定词条在不同活动类别中的重要性权重值;
步骤1-3、设置不确定词条在不同活动类别中的两个重要性权重阈值,根据两个重要性
权重阈值和每个不确定词条在不同活动类别中的重要性权重值,对每个不确定词条进行分
类;
具体如下:
若不确定词条的重要性权重值同时小于两个重要性权重阈值,则该不确定词条为活动不
相关词条;
若不确定词条的重要性权重值同时大于两个重要性权重阈值,则该不确定词条为活动相
关词条;
若不确定词条的重要性权重值介于两个重要性权重阈值之间,则该不确定词条为活动半
相...
【专利技术属性】
技术研发人员:刘欣,于亚新,于双羽,李玉龙,
申请(专利权)人:东北大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。