当前位置: 首页 > 专利查询>苏州大学专利>正文

一种跨平台用户识别方法和系统技术方案

技术编号:10982783 阅读:197 留言:0更新日期:2015-01-30 19:51
本发明专利技术公开的跨平台用户识别方法和系统,充分考虑社交平台中用户消息的重要性,通过相应时间段内不同平台的两个账户中用户消息所反映的用户见闻、兴趣、偏好以及写作风格、用词习惯等个性化信息的相似情况,来识别用户是否为同一用户,具体地,本发明专利技术方法获取不同平台的两个账户中发布时间在预设时间段内的消息内容,并对两个账户的消息内容进行分词及特征抽取处理,在此基础上,利用两个账户消息的分词特征相似度识别所述不同平台的两个账户是否属于同一用户。可见,本发明专利技术解决了不同社交平台同一用户的识别问题,进而为同一用户的跨平台数据分析提供了支持。

【技术实现步骤摘要】
一种跨平台用户识别方法和系统
本专利技术属于自然语言处理技术及社交网络领域,尤其涉及一种跨平台用户识别方 法和系统。
技术介绍
近年来,随着社交网络的迅猛发展,各种类型的微博(Micro-blog),例如新浪微 博、腾讯微博、Twitter、Facebook等,日渐受到用户的青睐。 由于微博既具有媒体传播特性,又具有社交网络特性,吸引了众多研究人员对微 博数据进行分析研究。目前,同时拥有多个不同平台微博账户的用户越来越多,例如用户同 时拥有新浪账户及腾讯账户等,同时对相同用户在不同平台的微博数据(例如微博消息) 进行研究,更有利于对用户的兴趣、偏好等进行全面分析、深度挖掘,从而更有利于企业制 定个性化的营销策略、进行精准的广告投放;同时,也更利于对同用户在不同平台的使用动 机、使用习惯进行比对分析,为社交网络的运营或开发新的社交网络产品提供了更好的参 考作用。 然而,目前对于跨社交平台同一用户的识别研究几乎处于空白阶段,无法识别不 同平台的账户是否属于同一用户,因此,不同社交平台同一用户的识别问题成为当前亟需 解决的问题。 【专
技术实现思路
】 有本文档来自技高网
...

【技术保护点】
一种跨平台用户识别方法,其特征在于,包括:获取第一平台上第一用户账户的第一消息段,获取第二平台上第二用户账户的第二消息段,其中,所述第一消息段为由所述第一用户账户内发布时间在第一预设时间段内的所有消息组成的消息段,所述第二消息段为由所述第二用户账户内发布时间在第一预设时间段内的所有消息组成的消息段;分别对所述第一消息段及所述第二消息段进行分词处理,得到分词形式的第一消息段及分词形式的第二消息段;基于预设的分词特征对所述分词形式的第一消息段及分词形式的第二消息段进行特征抽取,并在特征抽取的基础上获取所述第一消息段与所述第二消息段的特征相似度数值;判断所述特征相似度数值是否在预设的相似度数值参考范...

【技术特征摘要】
1. 一种跨平台用户识别方法,其特征在于,包括: 获取第一平台上第一用户账户的第一消息段,获取第二平台上第二用户账户的第二消 息段,其中,所述第一消息段为由所述第一用户账户内发布时间在第一预设时间段内的所 有消息组成的消息段,所述第二消息段为由所述第二用户账户内发布时间在第一预设时间 段内的所有消息组成的消息段; 分别对所述第一消息段及所述第二消息段进行分词处理,得到分词形式的第一消息段 及分词形式的第二消息段; 基于预设的分词特征对所述分词形式的第一消息段及分词形式的第二消息段进行特 征抽取,并在特征抽取的基础上获取所述第一消息段与所述第二消息段的特征相似度数 值; 判断所述特征相似度数值是否在预设的相似度数值参考范围内; 若判断结果为是,则所述第一用户账户及所述第二用户账户属于同一用户。2.根据权利要去1所述的方法,其特征在于,所述基于预设的分词特征对所述分词形 式的第一消息段及分词形式的第二消息段进行特征抽取,并在特征抽取的基础上获取所述 第一消息段与所述第二消息段的特征相似度数值,包括: 分别对分词形式的第一消息段及分词形式的第二消息段进行三元词特征抽取,并基于 第一消息段及第二消息段中所包含的相同三元词的个数获取两者的词包含相似度数值; 分别对分词形式的第一消息段及分词形式的第二消息段进行高频词特征抽取,并基于 第一消息段及第二消息段中所包含的相同高频词的个数获取两者的高频词相似度数值; 分别对分词形式的第一消息段及分词形式的第二消息段进行单字符出现概率抽取,并 基于第一消息段及第二消息段中所包含的相同单字符的出现概率来获取两者的词分布相 似度数值; 分别对分词形式的第一消息段及分词形式的第二消息段的隐含主题进行抽取,并基于 第一消息段及第二消息段中所包含的相同主题的个数获取两者的主题相似度数值。3.根据权利要去1所述的方法,其特征在于,在对分词形式的第一消息段及分词形式 的第二消息段进行特征抽取之前,还包括:分别对所述分词形式的第一消息段及分词形式 的第二消息段进行过滤处理,所述过滤处理包括: 对所述分词形式的第一消息段进行去停用词和去低频词处理; 对所述分词形式的第二消息段进行去停用词和去低频词处理。4.根据权利要去1所述的方法,其特征在于,还包括: 预先利用设定个数的消息段样本对,并基于每个消息段样本对的特征相似度对最大熵 分类方法进行跨平台用户识别训练,得到最大熵分类器,以实现采用所述最大熵分类器识 别第一平台上第一用户账户与第二平台上第二用户账户是否属于同一用户,其中: 所述消息段样本对中包含的两个消息段分别属于不同平台的两个账户,所述两个账户 为相同用户的账户或不同用户的账户,所述消息段样本对中所包含消息的发布时间在第二 预设时间段内; 所述特征相似度包括词包含相似度、高频词相似度、词分布相似度和主题相似度。5.根据权利要求2所述的方法,其特征在于,通过计算第一消息段与第二消息段的相 对熵D(pIIq)来获取两者的词分布相似度数值; 其中,D(p Il q)= ^>(χ)Ιο§¥_,P、q分别表示第一消息段、第二消息段,P(X)、q(X) .V^A Cj(X) 表示相同...

【专利技术属性】
技术研发人员:李寿山黄磊周国栋王红玲
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1