【技术实现步骤摘要】
一种基于词对语义主题模型的社区发现方法及系统
本专利技术属于社会计算领域,特别是社区发现领域,特别是涉及一种基于词对语义主题模型(BitermTopicModel,简称BTM)的短文本分类方法。
技术介绍
自从网络进入我们的视野以来,尤其移动设备的全面普及之后,人在真实社会上的关系也响应的被映射到了网络中,即我们所说的在线社交网络。如今科技时代的人类已经基本上离不开社交媒体软件,而这种软件上除了人与人之间的好友关系,还有着用户自行发布的信息,此类信息也一般有着严格的文字长度限制,这给社区发现工作带来了全新的机遇。传统的社区发现方法主要是基于网络的拓扑结构,即图论中的连接关系,这种方法设计都是通过分析个体之间的关系进行社区划分,其发现的社区内部的关系紧密,而不同社区间的关系较为稀疏,但是这种方法并未考虑到用户自身的属性。在一个社交媒体软件上,用户所发布的短文本信息隐含了用户的兴趣爱好,浏览习惯等,而自然语言处理中所使用的主题模型就能根据用户所发的文本信息对用户的兴趣爱好进行提取挖掘。
技术实现思路
...
【技术保护点】
1.一种基于词对语义主题模型的社区发现方法,其特征在于,包括以下步骤:/nS1:对获取的短文本数据集进行预处理,包括对短文本文档去除非文本部分、分词、去除停用词在内的预处理工作,对获取到的数据集中的关系数据集进行处理,包括用户关系处理以及对不活跃用户的剔除,完成用户拓扑结构的构建;/nS2:根据给定的社区标签构建BTM主题模型,包括基于社区用户拓扑结构的BTM-R主题模型以及基于社区中的短文本信息内容的语义相似度构建的主题模型BTM-W,其中,BTM-R中文档集是由所有用户构成的集合,词项集是由用户间的关注关系构成的集合,主题即社区的集合,此外,BTM-W中文档集是由所有用 ...
【技术特征摘要】
1.一种基于词对语义主题模型的社区发现方法,其特征在于,包括以下步骤:
S1:对获取的短文本数据集进行预处理,包括对短文本文档去除非文本部分、分词、去除停用词在内的预处理工作,对获取到的数据集中的关系数据集进行处理,包括用户关系处理以及对不活跃用户的剔除,完成用户拓扑结构的构建;
S2:根据给定的社区标签构建BTM主题模型,包括基于社区用户拓扑结构的BTM-R主题模型以及基于社区中的短文本信息内容的语义相似度构建的主题模型BTM-W,其中,BTM-R中文档集是由所有用户构成的集合,词项集是由用户间的关注关系构成的集合,主题即社区的集合,此外,BTM-W中文档集是由所有用户发布的短文本信息构成的集合,词项集是由用户所发布的短文本信息中的不同词项间两两组合即词对的集合,主题即为社区集合;
S3:根据S2得到的模型BTM-R和BTM-W,对文档的主题概率分布同主题的词项概率分布使用狄利克雷分布,以此得到一个基于词对b的联合概率分布其中α,β是狄利克雷分布的超参数,z代表的是词对对应的主题,是关于整个词对集中去除词对b的主题分配,B是所有的词对集合;
S4:根据S3得到的联合概率分布,运用吉布斯采样算法估计给定短文本信息时全局主题的概率分布θ和给定主题时词项的概率分布φ;
S5:根据步骤S4得到的参数进行社区发现,获取社区。
2.根据权利要求1所述的一种基于词对语义主题模型的社区发现方法,其特征在于,所述步骤S1中,对数据的预处理操作,包括以下步骤:
1.1.BTM-R模型的预处理
由于BTM-R模型所定义的好友关系必须为互相关注,因此这里需要对用户的关系数据集进行关注关系的双向化处理,并且移除没有好友的用户;
1.2.BTM-W模型的预处理
从数据集中获取每个用户发布的短文本信息,针对于这些短文本信息,去除非文本部分包括html标签,非英文字符和标点符号,语气助词,借代词;而后对BTM-W语料库使用jieba分词。
3.根据权利要求2所述的一种基于词对语义主题模型的社区发现方法,其特征在于,所述步骤S2的步骤具体包括:
2.求解主题模型的概率分布:
2.1.1:对于每个主题,采样主题z的词项概率分布为φz~Dir(β);
2.1.2:对于所有文档,采样文档的主题概率分布为θ~Dir(α);
2.1.3:对于每个词对,进行随机的主题分配z~Multi(θ);
2.1.4:对于所有词对,抽取两个词概率为ωi,ωj~Multi(φz);
2.1.5:一个词对的联合概率为:P(b)=∑zP(z)P(ωi|z)P(ωj|z);P(z)为主题为z时的概率分布、P(ωi|z)表示为,ωi属于主题为z时的概率;
2.1.6:整个语料库的可能性为:P(B)=Π(i,j)∑zθzφi|zφj|z;
其中,ωi,ωj为分别为词对中的两个元素。φi|z为主题为z时词对i的概率分布、φj|z为主题为z时词对j的概率分布、θz为主题为z时的概率分布,i、j分别表示词对i和词对j。
4.根据权利要求3所述的一种基于词对语义主题模型的社区发现方法,其特征在于,生成的联合概率分布为:
3.1:
其中,ωm表示第m个短文本信息中,所有词项的集合,zm表示第m个短文本信息中所有词项对应的主题集合,θm表示的是第m个短文本信息中的主题概率分布,Φ表示所有主题下的词项的概率分布的集合,ωm,n表示的第m个短文本信息中的第n个词项,zm,n表示的第m个短文本信息中的第n个词项所对应的主题,Nm表示第m篇文档所包含的词项总数;表示的是对...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。