【技术实现步骤摘要】
本专利技术属于计算机领域,具体涉及一种基于社交媒体的动态用户属性提取方法。
技术介绍
社交媒体服务定义了一种全新的用户在网络上相互沟通、自我表达和分享的方式。随着社交媒体的不断发展,越来越多的人在社交媒体平台上发表、分享即时消息,常见的社交媒体如新浪微博、Twitter、Facebook和LinkedIn等。例如:在新浪微博平台上,用户可以发表140字符以内的微博信息,这些微博可以由中英文、自定义字符、外部链接等组成。因此,有效地分析微博短文本流检测出用户的动态属性,对其相关领域的研究和应用都具有重要意义,例如社交推荐,个性化检索,在线推广等。用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌,这是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。结合当前社交网络的发展,越来越多的用户以各种形式在社交平台上表现自己,研究社交媒体环境下的用户画像是很有意义的。目前,基于社交媒体的用户画像还存在很多有 ...
【技术保护点】
基于社交媒体的动态用户属性提取方法,其特征在于,包括下列步骤:步骤1:主题提取:101:采集训练样本集:提取用户在社交媒体上发表的短文本,筛选短文本数大于或等于阈值θ1的用户作为样本用户;由不同样本用户的各短文本构成训练样本集,并对训练样本进行文本预处理:包括去除短文本中的链接、非中文字符、自定义词后,对短文本进行分词操作,并过滤掉停用词和无意义高频词;102:对训练样本集进行文本主题提取处理,得到K个主题,并从每个主题的关键词中选择权重最大的前m个作为主题词;步骤2:用户动态属性提取:201:提取待处理用户在时间段T在社交媒体上发表的短文本,将时间段T分为q个时间子段,得 ...
【技术特征摘要】
1.基于社交媒体的动态用户属性提取方法,其特征在于,包括下列步骤:步骤1:主题提取:101:采集训练样本集:提取用户在社交媒体上发表的短文本,筛选短文本数大于或等于阈值θ1的用户作为样本用户;由不同样本用户的各短文本构成训练样本集,并对训练样本进行文本预处理:包括去除短文本中的链接、非中文字符、自定义词后,对短文本进行分词操作,并过滤掉停用词和无意义高频词;102:对训练样本集进行文本主题提取处理,得到K个主题,并从每个主题的关键词中选择权重最大的前m个作为主题词;步骤2:用户动态属性提取:201:提取待处理用户在时间段T在社交媒体上发表的短文本,将时间段T分为q个时间子段,得到各时间子段发表的短文本;对短文本进行文本预处理,得到对应各时间子段的文本数据;通过滑动时间窗,将与当前时间子段最近的p个时间子段文本数据扩充到当前时间子段的文本数据;步骤202:基于步骤102...
【专利技术属性】
技术研发人员:黄秀,杨阳,胡玥,沈复民,邵杰,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。