基于社交媒体的动态用户属性提取方法技术

技术编号:14482000 阅读:126 留言:0更新日期:2017-01-25 23:57
本发明专利技术公开了一种基于社交媒体的动态用户属性提取方法。本发明专利技术首先对采集的训练样本集进行文本预处理后,进行主题词提取,得到K个主题以及各主题的m个主题词。再提取待处理用户的短文本并进行时间子段的划分,通过时间滑窗进行数据填充得到各时间子段的文本数据,并进行文本预处理后,统计各主题的主题词的出现频率,得到各主题的属性权重信息,再引入时间衰减系数,以时间顺序依次得到关联时间属性的用户属性特征,取最近时间子段的用户属性特征作为用户当前属性特征并输出。本发明专利技术在不需要利用外部知识的前提下,通过文本中无序的词实现对社交媒体的短文本的语义扩充,且可以从用户发布或者转发的微博文本中提取出用户的动态属性。

【技术实现步骤摘要】

本专利技术属于计算机领域,具体涉及一种基于社交媒体的动态用户属性提取方法
技术介绍
社交媒体服务定义了一种全新的用户在网络上相互沟通、自我表达和分享的方式。随着社交媒体的不断发展,越来越多的人在社交媒体平台上发表、分享即时消息,常见的社交媒体如新浪微博、Twitter、Facebook和LinkedIn等。例如:在新浪微博平台上,用户可以发表140字符以内的微博信息,这些微博可以由中英文、自定义字符、外部链接等组成。因此,有效地分析微博短文本流检测出用户的动态属性,对其相关领域的研究和应用都具有重要意义,例如社交推荐,个性化检索,在线推广等。用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌,这是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。结合当前社交网络的发展,越来越多的用户以各种形式在社交平台上表现自己,研究社交媒体环境下的用户画像是很有意义的。目前,基于社交媒体的用户画像还存在很多有待改进的地方,如用户属性描述不深入、不全面,没有做到及时更新等,更需要我们进行深入研究,解决发现的问题,构建深入全面的用户画像,为个性化的推荐系统、信息检索等服务提供较全面详细的信息。由于社交媒体平台上短文本的特殊性,在兴趣画像时需要解决短文本的稀疏性,惯用的处理方式为:利用外部知识扩充短文本语义,例如通过连接用户在社交媒体上发表的内容和相关的新闻文章来扩充短文本的内容以便更有效的分析用户在社交媒体上的活动;或者利用维基百科以及为相关兴趣赋权重值的方法将社交媒体上的用户兴趣进行自动分类;亦或者利用社交媒体上用户的自传来提取兴趣标签以扩充短文本的信息。上述三种通过外部知识解决短文本稀疏的问题的处理方式,需要严重依赖外部数据的可用性和原始数据的相关性,如果外部数据有误或不充足,则会导致得到的兴趣可能与用户真实兴趣不符合的技术缺陷。此外,目前还有大量关于跨平台的用户画像建模,通过两个或多个社交媒体平台上的数据来实现对用户更精确的建模分析。如利用用户在社交媒体平台注册时填写的基本信息来对用户兴趣进行画像,以及社交媒体平台为用户设置的用户标签对其进行画像。或者是利用用户在不同社交媒体平台同时有关联账户的用户数据来研究分析用户的行为和兴趣。然而,上述通过扩充语义来解决短文本稀疏的问题,最后得到的用户属性都是一个静态用户属性,并没有考虑用户属性随时间变化的情况。
技术实现思路
本专利技术的专利技术目的在于:为了解决短文本的稀疏性问题,克服现有技术的用户属性挖掘不精确和不能及时更新等缺点,本专利技术基于所构建的新的动态用户属性模型(能够自动从文本中挖掘用户的动态属性,展现用户属性的变化),在不需要利用外部知识的前提下,通过文本中无序的词实现对社交媒体的短文本的语义扩充,以及通过时间窗口来平滑数据,引入衰减函数来表示过去属性对当前属性的影响。本专利技术的基于社交媒体的动态用户属性提取方法,包括下列步骤:步骤1:主题提取:101:采集训练样本集:提取用户在社交媒体上发表的短文本,筛选短文本数大于或等于阈值θ1(例如200)的用户作为样本用户;由不同样本用户的各短文本构成训练样本集,并对训练样本(即短文本)进行文本预处理:包括去除短文本中的链接、非中文字符、自定义词后,对短文本进行分词操作,并过滤掉停用词和无意义高频词,去除自定义词可以通过将短文本与预设的自定义词库进行匹配,将相匹配的自定义词去除,过滤掉停用词和无意义高频词,也可以基于同样的方式,即预构建关于停用词、无意义高频词的词库,然后将分词操作后得到的词与构建的词库进行匹配,将相匹配的词过滤掉;102:对训练样本集进行文本主题提取处理,得到K个主题,本步骤中,采用BTM模型(BitermTopicModel)提取主题。该方法的优势在于利用语料库中无序的共现词对来扩充短文本的语义,从而解决文本稀疏的问题。在主题提取处理后,可以得到K个主题,每个主题包括一系列关键词,同时会得到各关键词的权重信息,如BTM模型的文档-主题分布矩阵。从每个主题的关键词中选择权重最大的前m个作为主题词,同时记录各主题词的权重信息,例如表1所示,其涉及10个主题,每个主题包括5个主题词,各主题词后的括号中的数值为其对应的权值。表1步骤2:用户动态属性提取:201:提取待处理用户在时间段T(比如最近一年内)在社交媒体上发表的短文本,将时间段T分为q个时间子段,得到各时间子段发表的短文本;对短文本进行文本预处理,得到对应各时间子段的文本数据;通过滑动时间窗,将与当前时间子段最近的p个时间子段文本数据扩充到当前时间子段的文本数据;步骤202:基于步骤102得到的各主题的m个主题词,分别对各时间子段的文本数据进行主题词的词频统计并计算各主题权重其中nki表示主题k的第i个主题词的词频,wki表示主题k的第i个主题词在主题下的权重,k=1,2,…,K,kt的下标t=0,1,…,q为时间子段标识符;由同一时间子段的K个主题权重得到各时间子段的主题权重信息At;步骤203:根据公式计算用户属性特征其中衰减系数λ(Tj)=1-μTjv,Tj表示各时间子段的时间间隔,且0<μ<1,v>0。对于步骤202得到的权重信息At,相当于是用户各个时间子段的静态属性。但是每个时间子段的用户属性都局限于该时间子段,而那些用户本身拥有但是在当前时间子段没有提及的属性就会被忽略。用户属性是一个连贯的变化过程,之前的属性还是拥有的,只是在随着时间以一个趋势进行变化,因此,本专利技术引入衰减系数对用户之前的属性进行一定的衰减,即据公式计算用户属性特征参数μ、v需要通过实验来进行调整以确定其值。即将当前时间子段(t)及其之前时间子段的主题权重信息{A0,A1,…,At本文档来自技高网
...
基于社交媒体的动态用户属性提取方法

【技术保护点】
基于社交媒体的动态用户属性提取方法,其特征在于,包括下列步骤:步骤1:主题提取:101:采集训练样本集:提取用户在社交媒体上发表的短文本,筛选短文本数大于或等于阈值θ1的用户作为样本用户;由不同样本用户的各短文本构成训练样本集,并对训练样本进行文本预处理:包括去除短文本中的链接、非中文字符、自定义词后,对短文本进行分词操作,并过滤掉停用词和无意义高频词;102:对训练样本集进行文本主题提取处理,得到K个主题,并从每个主题的关键词中选择权重最大的前m个作为主题词;步骤2:用户动态属性提取:201:提取待处理用户在时间段T在社交媒体上发表的短文本,将时间段T分为q个时间子段,得到各时间子段发表的短文本;对短文本进行文本预处理,得到对应各时间子段的文本数据;通过滑动时间窗,将与当前时间子段最近的p个时间子段文本数据扩充到当前时间子段的文本数据;步骤202:基于步骤102得到的各主题的m个主题词,分别对各时间子段的文本数据进行主题词的词频统计并计算各主题权重其中nki表示主题k的第i个主题词的词频,wki表示主题k的第i个主题词在主题下的权重,k=1,2,…,K;由同一时间子段的K个主题权重ak得到各时间子段的主题权重信息At,下标t=0,1,…,q为时间子段标识符;步骤203:根据公式计算用户属性特征其中衰减系数λ(Tj)=1‑μTjv,Tj表示时间子段j的时间间隔,且0<μ<1,v>0;步骤204:将第q个时间子段的用户属性特征Aq′作为用户当前属性特征并输出。...

【技术特征摘要】
1.基于社交媒体的动态用户属性提取方法,其特征在于,包括下列步骤:步骤1:主题提取:101:采集训练样本集:提取用户在社交媒体上发表的短文本,筛选短文本数大于或等于阈值θ1的用户作为样本用户;由不同样本用户的各短文本构成训练样本集,并对训练样本进行文本预处理:包括去除短文本中的链接、非中文字符、自定义词后,对短文本进行分词操作,并过滤掉停用词和无意义高频词;102:对训练样本集进行文本主题提取处理,得到K个主题,并从每个主题的关键词中选择权重最大的前m个作为主题词;步骤2:用户动态属性提取:201:提取待处理用户在时间段T在社交媒体上发表的短文本,将时间段T分为q个时间子段,得到各时间子段发表的短文本;对短文本进行文本预处理,得到对应各时间子段的文本数据;通过滑动时间窗,将与当前时间子段最近的p个时间子段文本数据扩充到当前时间子段的文本数据;步骤202:基于步骤102...

【专利技术属性】
技术研发人员:黄秀杨阳胡玥沈复民邵杰
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1