一种支持OLAP应用的基于微博数据的兴趣维层次提取方法技术

技术编号:13989688 阅读:82 留言:0更新日期:2016-11-13 15:20
本发明专利技术公开了一种支持OLAP应用的基于微博数据的兴趣维层次提取方法。本发明专利技术对微博数据使用一种改进的多分层LDA方法,将用户的“兴趣”和“子兴趣”挖掘出来,共同构成了兴趣维层次,改善了传统方法所提取的兴趣维层次结构单一、粒度较大的问题。

【技术实现步骤摘要】

本专利技术属于数据挖据
,具体涉及到一种支持OLAP应用的基于微博数据的兴趣维层次提取方法
技术介绍
当今,互联网已经覆盖了我们生活的方方面面,而作为主流社交平台之一的微博平台,每天都会产生海量数据。通过联机分析处理(OLAP)技术分析这些数据,有助于了解网络舆情,帮助企业掌握市场动态以及制定更加精准有效的营销策略。微博平台为用户提供了一个接收和传播信息的平台。通过这个平台用户可以关注某个兴趣领域的用户,接收感兴趣的推送信息,同时可以发表自己对某个事件或者事物的看法。另一方面,通过联机分析处理技术可以帮助管理分析人员洞察微博平台中所蕴含的有价值信息。然而,传统的联机分析处理技术仅仅适合于结构化数据,而并不适合处理诸如以文本为主的非结构化微博数据。研究和实践表明,面向微博数据的OLAP应用的关键是如何在微博数据中识别和构建维层次,而兴趣维的提取又是其中的难点。而已有的兴趣维提取方法一般无法有效处理海量微博数据,特别是其挖掘出的兴趣维层次结构单一、粒度较大,导致个性化推荐的效果并不理想。
技术实现思路
本专利技术针对现有技术的不足,提供了一种支持OLAP应用的基于微博数据的兴趣维层次提取方法。本专利技术方法包括以下步骤:步骤(1).获取海量微博信息和用户个人信息,并存储至Oracle数据库中,其中微博信息包括原创微博信息和转发微博信息、用户个人信息包括用户关注者信息和个人描述信息,原创微博信息又包括微博文本信息、微博提及(@)到的用户信息,转发微博信息又包括被转发微博文本信息、被转发微博的原作者信息;去除微博文本信息和被转发微博文本信息中的停用词和短链接。步骤(2).在传统的LDA中融入个人描述信息,并加入二级主题,形成多分层LDA模型;将微博信息和个人描述信息输入到多分层LDA模型中进行训练,得到基于微博信息和个人描述信息的用户主题概率分布P1。步骤(3).将用户的关注者信息、被转发微博的原作者信息和微博提及(@)到的用户信息构造成社交关系列表L,筛选出L中的关键人物,通过人工识别构造关键人物主题库,在社交关系列表L中遍历所有的用户关注者信息、被转发微博的原作者信息和微博提及(@)到的用户信息,得到基于用户社交关系的用户主题概率分布P2。步骤(4).将步骤(2)和步骤(3)获取到的基于微博信息和个人描述信息的用户主题概率分布P1以及基于用户社交关系的用户主题概率分布P2进行加权融合,得到每个用户的主题概率分布,其中权值通过模拟退火方法获取。步骤(5).利用步骤(4)获得的每个用户的主题概率分布得到与该用户最相关的一级主题和二级主题,其中一级主题对应用户的兴趣,二级主题对应用户的子兴趣,上述兴趣和子兴趣构成兴趣维层次,可用于OLAP应用。本专利技术所提供的一种支持OLAP应用的基于微博数据的兴趣维层次提取方法由一组功能模块组成,它们包括:微博数据获取模块、微博数据转换及清洗模块、微博主题提取模块和微博兴趣维层次构建模块。微博数据获取模块获取海量微博信息和用户个人信息。其中微博信息包括原创微博信息和转发微博信息,用户个人信息包括用户的关注者信息和个人描述信息。微博数据转换及清洗模块以用户的所有微博信息和个人信息为原始数据,将其转化为LDA主题建模所需的数据,并存储到数据库中;去除微博文本信息和被转发微博文本信息中的停用词和短链接。微博主题提取模块通过多分层LDA和人工识别构造关键人物主题库的方式分别得到基于微博信息和个人描述信息的用户主题概率分布和基于户社交关系的用户主题概率分布,并将两个概率分布加权融合,得到用户最终的主题概率分布,进而得到与用户最相关的一级主题和二级主题。微博兴趣维层次构建模块将获得的一级主题对应用户的兴趣、二级主题对应用户的子兴趣,然后基于兴趣和子兴趣的层次关系构成兴趣维层次,用于OLAP应用。本专利技术具有的有益效果:本专利技术对微博数据使用一种改进的多分层LDA方法,将用户的“兴趣”和“子兴趣”挖掘出来,共同构成了兴趣维层次,改善了传统方法所提取的兴趣维层次结构单一、粒度较大的问题。附图说明图1实施流程图;图2多分层LDA模型的贝叶斯网络图;图3基于用户社交关系的主题提取流程图;图4兴趣维层次结构示意图。具体实施方式本专利技术所提供的支持OLAP应用的基于微博数据的兴趣维层次提取方法的具体实施方式包含以下五步(实施流程图如图1所示):步骤(1).微博数据获取、转换及清洗。1-1.获取海量微博信息和用户个人信息,并存储至Oracle数据库中,其中微博信息包括原创微博信息和转发微博信息,用户个人信息包括用户关注者信息和个人描述信息。微博信息中的原创微博信息包括微博文本信息、微博提及(@)到的用户信息,微博信息中的转发微博信息包括被转发微博文本信息和被转发微博的原作者信息。1-2.用户的微博文本信息和被转发微博文本信息中包含很多噪音数据,如短链接,停用词,这些噪音数据会对主题挖掘造成干扰,因此通过使用正则表达式匹配和停用词字典匹配的方法将噪音数据去除。步骤(2).对用户的个人描述信息和微博文本信息采用多分层的LDA方法提取主题;传统的LDA方法只能提取出单层主题,维层次依靠领域专家根据领域知识人工构建,成本高且动态适应性差,虽然有些方法实现了动态构建维层次,但是这些方法主要依赖文本集的关键词和高频词的相似度,抽取的语义准确性有待于进一步提高。本方法利用分层LDA挖掘潜在语义提取出多级主题。2-1.从Oracle数据库中获取每个用户的所有微博文本信息和个人描述信息,然后将每个用户的所有微博文本信息组成微博数据文档(第i个用户的微博数据文档表示为doci(blog),文档中第j个单词表示为wordi,j);每个用户的个人描述信息组成描述数据文档(第i个用户的描述数据文档表示为doci(desc),文档中第j个单词表示为wordi,j);将每个用户的微博数据文档和描述数据文档合并成用户信息文档,表示为doci。2-2.将所有用户的微博数据文档合并成微博数据语料库,再将所有用户的描述数据文档合并成描述数据语料库,最后将所有用户的用户信息文档合并成用户信息语料库。2-3.对步骤2-2得到的用户信息语料库进行多分层LDA主题建模(多分层LDA模型的贝叶斯网络图如图2所示)。假设有T个一级主题,记为topict,t=0,1,…,(T-1),其中每个一级主题下有L个二级主题,记为subTopicl,l=0,1,…,(L-1);假设微博数据语料库中的微博数据文档doci(blog)满足以α′为先验参数的狄利克雷分布,那么微博数据语料库中的微博数据文档doci(blog)满足θp多项分布;假设描述数据语料库中的描述数据文档doci(desc)满足以α为先验参数的狄利克雷分布,那么描述数据语料库中的每篇描述数据文档doci(desc)满足θu多项分布。基于上述假设,计算用户信息文档doci的分布:如果用户的个人描述为空,则用户信息文档doci的多项分布为θp多项分布;如果用户的个人描述不为空,则用户信息文档doci的多项分布为θu多项分布和θp多项分布的融合分布。最终得到文档和一级主题的分布,用doc-topic概率矩阵表示,记为Mdoc-topic。2-4.假设所有二级主题组成的二级主题集合满足以η为先验参数的狄利本文档来自技高网...

【技术保护点】
一种支持OLAP应用的基于微博数据的兴趣维层次提取方法,其特征在于该方法的具体步骤是:步骤(1).获取海量微博信息和用户个人信息,并存储至Oracle数据库中,其中微博信息包括原创微博信息和转发微博信息、用户个人信息包括用户关注者信息和个人描述信息,原创微博信息又包括微博文本信息、微博提及到的用户信息,转发微博信息又包括被转发微博文本信息、被转发微博的原作者信息;去除微博文本信息和被转发微博文本信息中的停用词和短链接;步骤(2).在LDA中融入个人描述信息,并加入二级主题,形成多分层LDA模型;将微博信息和个人描述信息输入到多分层LDA模型中进行训练,得到基于微博信息和个人描述信息的用户主题概率分布P1;步骤(3).将用户的关注者信息、被转发微博的原作者信息和微博提及到的用户信息构造成社交关系列表L,筛选出L中的关键人物,通过人工识别构造关键人物主题库,在社交关系列表L中遍历所有的用户关注者信息、被转发微博的原作者信息和微博提及到的用户信息,得到基于用户社交关系的用户主题概率分布P2;步骤(4).将步骤(2)和步骤(3)获取到的基于微博信息和个人描述信息的用户主题概率分布P1以及基于用户社交关系的用户主题概率分布P2进行加权融合,得到每个用户的主题概率分布,其中权值通过模拟退火方法获取;步骤(5).利用步骤(4)获得的每个用户的主题概率分布得到与该用户最相关的一级主题和二级主题,其中一级主题对应用户的兴趣,二级主题对应用户的子兴趣,上述兴趣和子兴趣构成兴趣维层次,可用于OLAP应用。...

【技术特征摘要】
1.一种支持OLAP应用的基于微博数据的兴趣维层次提取方法,其特征在于该方法的具体步骤是:步骤(1).获取海量微博信息和用户个人信息,并存储至Oracle数据库中,其中微博信息包括原创微博信息和转发微博信息、用户个人信息包括用户关注者信息和个人描述信息,原创微博信息又包括微博文本信息、微博提及到的用户信息,转发微博信息又包括被转发微博文本信息、被转发微博的原作者信息;去除微博文本信息和被转发微博文本信息中的停用词和短链接;步骤(2).在LDA中融入个人描述信息,并加入二级主题,形成多分层LDA模型;将微博信息和个人描述信息输入到多分层LDA模型中进行训练,得到基于微博信息和个人描述信息的用户主题概率分布P1;步骤(3).将用户的关注者信息、被转发...

【专利技术属性】
技术研发人员:俞东进孙景超袁友伟陈聪金一科倪智勇
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1