基于联合主题的微博用户性别推断方法及系统技术方案

技术编号:14424552 阅读:55 留言:0更新日期:2017-01-13 03:11
本发明专利技术提出一种基于联合主题的微博用户性别推断方法及系统,方法包括:获取原始微博数据,并进行预处理,得到标准微博数据,其中,标准微博数据包括用户的原创微博、用户关注信息及标记的用户性别;根据标准微博数据构建微博文本伪文档和关注行为伪文档;在主题模型训练集上,根据微博文本伪文档和关注行为伪文档分别获取微博兴趣模型和关注群体模型;根据微博兴趣模型和关注群体模型在性别推断训练集和性别推断测试集上分别构建微博兴趣特征和关注群体特征;在性别推断训练集上,根据微博兴趣特征和关注群体特征得到性别推断模型;根据性别推断模型推断用户的性别。本发明专利技术能够构建精准的用户性别推断模型,从而提高用户性别推断的正确率。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,特别涉及一种基于联合主题的微博用户性别推断方法及系统
技术介绍
在社交媒体的使用中,由于个人属性数据往往涉及到隐私问题,用户经常选择不填写或填写虚假信息等方式隐藏其个人信息,导致用户相关的基本信息通常无法直接获取。然而,有效的利用用户属性,在信息检索与推荐、社会调查、心理诊断、等方面具有重要意义。用户隐藏属性推断具有广泛的研究前景和应用价值。主题模型在自然语言处理领域受到了越来越多的关注。主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达。当以词袋(bagofwords)形式表示文档时,其维度可能是数万。若指定主题模型的主题个数为K,通过主题模型的训练,最终形成了K个主题,则可以将词项空间中的文档变换到主题空间,得到文档新的表达。由于通常主题的个数K远小于词项的个数,常使用主题模型进行降维。在以文本为处理对象的领域中,降维后的新坐标(即在K个主题上的分量)往往具有语义上的特征。在用户隐藏属性推断的工作中,主题模型如无监督的LDA(LatentDirichletAllocation)被广泛应用于从文本中挖掘有意义的主题。主题模型具有较好的解释性,且能够扩展特征项的语义信息。但是在大多数情况下,与其他文本特征相比,主题模型并不能够达到更高的分类性能。现有的工作的局限性在于:忽略了文本主题的混合,这限可能限制结果的有效性。现在国内对利用改进的主题模型进行用户隐藏属性推断的研究还比较少。
技术实现思路
本专利技术旨在至少在一定程度上解决上述相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于联合主题的微博用户性别推断方法,该方法采用半监督的方式构造主题模型有效地消除了原有主题模型仅提取文档级别主题而忽略混合主题的情况,该方法通过主题模型可以构造更细粒度的用户特征并用于用户性别推断,从而提高用户性别推断的正确率。本专利技术的另一个目的在于提出一种基于联合主题的微博用户性别推断系统。为了实现上述目的,本专利技术第一方面的实施例提出了一种基于联合主题的微博用户性别推断方法,包括以下步骤:获取原始微博数据,并对所述原始微博数据进行预处理,得到标准微博数据,其中,所述标准微博数据包括用户的原创微博、用户关注信息及标记的用户性别;根据所述标准微博数据构建用户伪文档,其中,所述用户伪文档包括微博文本伪文档和关注行为伪文档;选取主题模型训练集,并在所述主题模型训练集上,根据所述微博文本伪文档和关注行为伪文档分别获取微博兴趣模型和关注群体模型;根据所述微博兴趣模型和关注群体模型在性别推断训练集和性别推断测试集上分别构建微博兴趣特征和关注群体特征;在所述性别推断训练集上,根据所述微博兴趣特征和关注群体特征得到性别推断模型;根据所述性别推断模型推断所述用户的性别。根据本专利技术实施例的基于联合主题的微博用户性别推断方法,采用半监督的方式构造主题模型,对微博用户文本和微博用户好友关系进行聚类,可以识别用户主题兴趣和关注群体,并获得不同属性用户在同一主题下的差异,将此主题用于用户建模,可以构造更加精准的用户性别推断模型,从而提高用户性别推断的正确率。另外,根据本专利技术上述实施例的基于联合主题的微博用户性别推断方法还可以具有如下附加的技术特征:在一些示例中,还包括:在所述性别推断测试集上,根据所述微博兴趣特征和关注群体特征训练得到测试模型;根据所述测试模型对所述性别推断模型本次的推断结果进行验证。在一些示例中,所述根据所述测试模型对所述性别推断模型本次的推断结果进行验证,进一步包括:比较推断的用户性别和标注的用户性别;如果所述推断的用户性别和标注的用户性别相匹配,则判断所述性别推断模型本次的推断结果正确;如果所述推断的用户性别和标注的用户性别不匹配,则判断所述性别推断模型本次的推断结果错误。在一些示例中,其中,所述微博文本伪文档由所述用户发表的所有原创微博生成,所述微博文本伪文档通过词袋模型表示;所述关注行为伪文档由用户关注列表生成,所述关注行为伪文档通过类词袋模型表示。在一些示例中,其中,通过使用支持向量机在所述性别推断训练集上训练得到所述性别推断模型。为了实现上述目的,本专利技术第二方面的实施例还提出了一种基于联合主题的微博用户性别推断系统,包括:预处理模块,所述预处理模块用于获取原始微博数据,并对所述原始微博数据进行预处理,得到标准微博数据,其中,所述标准微博数据包括用户的原创微博、用户关注信息及标记的用户性别;伪文档构建模块,所述伪文档构建模块用于根据所述标准微博数据构建用户伪文档,其中,所述用户伪文档包括微博文本伪文档和关注行为伪文档;主题模型训练模块,所述主题模型训练模块用于选取主题模型训练集,并在所述主题模型训练集上,根据所述微博文本伪文档和关注行为伪文档分别获取微博兴趣模型和关注群体模型;特征构建模块,所述特征构建模块用于根据所述微博兴趣模型和关注群体模型在性别推断训练集和性别推断测试集上分别构建微博兴趣特征和关注群体特征;推断模型建立模块,所述推断模型建立模块用于在所述性别推断训练集上,根据所述微博兴趣特征和关注群体特征得到性别推断模型;性别推断模块,所述性别推断模块用于根据所述性别推断模型推断所述用户的性别。根据本专利技术实施例的基于联合主题的微博用户性别推断系统,采用半监督的方式构造主题模型,对微博用户文本和微博用户好友关系进行聚类,可以识别用户主题兴趣和关注群体,并获得不同属性用户在同一主题下的差异,将此主题用于用户建模,可以构造更加精准的用户性别推断模型,从而提高用户性别推断的正确率。另外,根据本专利技术上述实施例的基于联合主题的微博用户性别推断系统还可以具有如下附加的技术特征:在一些示例中,还包括:测试模型建立模块,所述测试模型建立模块用于在所述性别推断测试集上,根据所述微博兴趣特征和关注群体特征训练得到测试模型;验证模块,所述验证模块用于根据所述测试模型对所述性别推断模型本次的推断结果进行验证。在一些示例中,所述验证模块用于比较推断的用户性别和标注的用户性别,并在所述推断的用户性别和标注的用户性别相匹配时,判断所述性别推断模型本次的推断结果正确,以及在所述推断的用户性别和标注的用户性别不匹配时,判断所述性别推断模型本次的推断结果错误。在一些示例中,其中,所述微博文本伪文档由所述用户发表的所有原创微博生成,所述微博文本伪文档通过词袋模型表示;所述关注行为伪文档由用户关注列表生成,所述关注行为伪文档通过类词袋模型表示。在一些示例中,其中,所述推断模型建立模块通过使用支持向量机在所述性别推断训练集上训练得到所述性别推断模型。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1是根据本专利技术实施例的基于联合主题的微博用户性别推断方法的流程图;图2是本专利技术一个实施例的基于联合主题的微博用户性别推断方法的整体流程图;图3是本专利技术一个具体实施例的联合的主题-性别模型示意图;图4是本专利技术实施例的基于联合主题的微博用户性别推断系统的结构框图。具体实施方式下面详细描述本发本文档来自技高网...
基于联合主题的微博用户性别推断方法及系统

【技术保护点】
一种基于联合主题的微博用户性别推断方法,其特征在于,包括以下步骤:获取原始微博数据,并对所述原始微博数据进行预处理,得到标准微博数据,其中,所述标准微博数据包括用户的原创微博、用户关注信息及标记的用户性别;根据所述标准微博数据构建用户伪文档,其中,所述用户伪文档包括微博文本伪文档和关注行为伪文档;选取主题模型训练集,并在所述主题模型训练集上,根据所述微博文本伪文档和关注行为伪文档分别获取微博兴趣模型和关注群体模型;根据所述微博兴趣模型和关注群体模型在性别推断训练集和性别推断测试集上分别构建微博兴趣特征和关注群体特征;在所述性别推断训练集上,根据所述微博兴趣特征和关注群体特征得到性别推断模型;根据所述性别推断模型推断所述用户的性别。

【技术特征摘要】
1.一种基于联合主题的微博用户性别推断方法,其特征在于,包括以下步骤:获取原始微博数据,并对所述原始微博数据进行预处理,得到标准微博数据,其中,所述标准微博数据包括用户的原创微博、用户关注信息及标记的用户性别;根据所述标准微博数据构建用户伪文档,其中,所述用户伪文档包括微博文本伪文档和关注行为伪文档;选取主题模型训练集,并在所述主题模型训练集上,根据所述微博文本伪文档和关注行为伪文档分别获取微博兴趣模型和关注群体模型;根据所述微博兴趣模型和关注群体模型在性别推断训练集和性别推断测试集上分别构建微博兴趣特征和关注群体特征;在所述性别推断训练集上,根据所述微博兴趣特征和关注群体特征得到性别推断模型;根据所述性别推断模型推断所述用户的性别。2.根据权利要求1所述的基于联合主题的微博用户性别推断方法,其特征在于,还包括:在所述性别推断测试集上,根据所述微博兴趣特征和关注群体特征训练得到测试模型;根据所述测试模型对所述性别推断模型本次的推断结果进行验证。3.根据权利要求2所述的基于联合主题的微博用户性别推断方法,其特征在于,所述根据所述测试模型对所述性别推断模型本次的推断结果进行验证,进一步包括:比较推断的用户性别和标注的用户性别;如果所述推断的用户性别和标注的用户性别相匹配,则判断所述性别推断模型本次的推断结果正确;如果所述推断的用户性别和标注的用户性别不匹配,则判断所述性别推断模型本次的推断结果错误。4.根据权利要求1所述的基于联合主题的微博用户性别推断方法,其特征在于,其中,所述微博文本伪文档由所述用户发表的所有原创微博生成,所述微博文本伪文档通过词袋模型表示;所述关注行为伪文档由用户关注列表生成,所述关注行为伪文档通过类词袋模型表示。5.根据权利要求1所述的基于联合主题的微博用户性别推断方法,其特征在于,其中,通过使用支持向量机在所述性别推断训练集上训练得到所述性别推断模型。6.一种基于联合主题的微博用户性别推断系统,其特征在于,包括:预处理模块,所述预处理模块用于获取原始微博数据,并对所述原始...

【专利技术属性】
技术研发人员:宋巍谢兴波刘丽珍王函石
申请(专利权)人:首都师范大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1