基于社交媒体的动态用户属性提取方法技术

技术编号:14482000 阅读:132 留言:0更新日期:2017-01-25 23:57
本发明专利技术公开了一种基于社交媒体的动态用户属性提取方法。本发明专利技术首先对采集的训练样本集进行文本预处理后,进行主题词提取,得到K个主题以及各主题的m个主题词。再提取待处理用户的短文本并进行时间子段的划分,通过时间滑窗进行数据填充得到各时间子段的文本数据,并进行文本预处理后,统计各主题的主题词的出现频率,得到各主题的属性权重信息,再引入时间衰减系数,以时间顺序依次得到关联时间属性的用户属性特征,取最近时间子段的用户属性特征作为用户当前属性特征并输出。本发明专利技术在不需要利用外部知识的前提下,通过文本中无序的词实现对社交媒体的短文本的语义扩充,且可以从用户发布或者转发的微博文本中提取出用户的动态属性。

【技术实现步骤摘要】

本专利技术属于计算机领域,具体涉及一种基于社交媒体的动态用户属性提取方法
技术介绍
社交媒体服务定义了一种全新的用户在网络上相互沟通、自我表达和分享的方式。随着社交媒体的不断发展,越来越多的人在社交媒体平台上发表、分享即时消息,常见的社交媒体如新浪微博、Twitter、Facebook和LinkedIn等。例如:在新浪微博平台上,用户可以发表140字符以内的微博信息,这些微博可以由中英文、自定义字符、外部链接等组成。因此,有效地分析微博短文本流检测出用户的动态属性,对其相关领域的研究和应用都具有重要意义,例如社交推荐,个性化检索,在线推广等。用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌,这是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。结合当前社交网络的发展,越来越多的用户以各种形式在社交平台上表现自己,研究社交媒体环境下的用户画像是很有意义的。目前,基于社交媒体的用户画像还存在很多有待改进的地方,如用户本文档来自技高网...
基于社交媒体的动态用户属性提取方法

【技术保护点】
基于社交媒体的动态用户属性提取方法,其特征在于,包括下列步骤:步骤1:主题提取:101:采集训练样本集:提取用户在社交媒体上发表的短文本,筛选短文本数大于或等于阈值θ1的用户作为样本用户;由不同样本用户的各短文本构成训练样本集,并对训练样本进行文本预处理:包括去除短文本中的链接、非中文字符、自定义词后,对短文本进行分词操作,并过滤掉停用词和无意义高频词;102:对训练样本集进行文本主题提取处理,得到K个主题,并从每个主题的关键词中选择权重最大的前m个作为主题词;步骤2:用户动态属性提取:201:提取待处理用户在时间段T在社交媒体上发表的短文本,将时间段T分为q个时间子段,得到各时间子段发表的短...

【技术特征摘要】
1.基于社交媒体的动态用户属性提取方法,其特征在于,包括下列步骤:步骤1:主题提取:101:采集训练样本集:提取用户在社交媒体上发表的短文本,筛选短文本数大于或等于阈值θ1的用户作为样本用户;由不同样本用户的各短文本构成训练样本集,并对训练样本进行文本预处理:包括去除短文本中的链接、非中文字符、自定义词后,对短文本进行分词操作,并过滤掉停用词和无意义高频词;102:对训练样本集进行文本主题提取处理,得到K个主题,并从每个主题的关键词中选择权重最大的前m个作为主题词;步骤2:用户动态属性提取:201:提取待处理用户在时间段T在社交媒体上发表的短文本,将时间段T分为q个时间子段,得到各时间子段发表的短文本;对短文本进行文本预处理,得到对应各时间子段的文本数据;通过滑动时间窗,将与当前时间子段最近的p个时间子段文本数据扩充到当前时间子段的文本数据;步骤202:基于步骤102...

【专利技术属性】
技术研发人员:黄秀杨阳胡玥沈复民邵杰
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1