基于联合主题的微博用户性别推断方法及系统技术方案

技术编号：14424552 阅读：55 留言：0更新日期：2017-01-13 03:11

本发明专利技术提出一种基于联合主题的微博用户性别推断方法及系统，方法包括：获取原始微博数据，并进行预处理，得到标准微博数据，其中，标准微博数据包括用户的原创微博、用户关注信息及标记的用户性别；根据标准微博数据构建微博文本伪文档和关注行为伪文档；在主题模型训练集上，根据微博文本伪文档和关注行为伪文档分别获取微博兴趣模型和关注群体模型；根据微博兴趣模型和关注群体模型在性别推断训练集和性别推断测试集上分别构建微博兴趣特征和关注群体特征；在性别推断训练集上，根据微博兴趣特征和关注群体特征得到性别推断模型；根据性别推断模型推断用户的性别。本发明专利技术能够构建精准的用户性别推断模型，从而提高用户性别推断的正确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理
，特别涉及一种基于联合主题的微博用户性别推断方法及系统。
技术介绍
在社交媒体的使用中，由于个人属性数据往往涉及到隐私问题，用户经常选择不填写或填写虚假信息等方式隐藏其个人信息，导致用户相关的基本信息通常无法直接获取。然而，有效的利用用户属性，在信息检索与推荐、社会调查、心理诊断、等方面具有重要意义。用户隐藏属性推断具有广泛的研究前景和应用价值。主题模型在自然语言处理领域受到了越来越多的关注。主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合，并能够将词项空间中的文档变换到主题空间，得到文档在低维空间中的表达。当以词袋(bagofwords)形式表示文档时，其维度可能是数万。若指定主题模型的主题个数为K，通过主题模型的训练，最终形成了K个主题，则可以将词项空间中的文档变换到主题空间，得到文档新的表达。由于通常主题的个数K远小于词项的个数，常使用主题模型进行降维。在以文本为处理对象的领域中，降维后的新坐标(即在K个主题上的分量)往往具有语义上的特征。在用户隐藏属性推断的工作中，主题模型如无监督的LDA(LatentDirichletAllocation)被广泛应用于从文本中挖掘有意义的主题。主题模型具有较好的解释性，且能够扩展特征项的语义信息。但是在大多数情况下，与其他文本特征相比，主题模型并不能够达到更高的分类性能。现有的工作的局限性在于：忽略了文本主题的混合，这限可能限制结果的有效性。现在国内对利用改进的主题模型进行用户隐藏属性推断的研究还比较少。
技术实现思路
本专利技术旨在至少在一定程度上解决上述相关技术中的技...
基于联合主题的微博用户性别推断方法及系统

【技术保护点】
一种基于联合主题的微博用户性别推断方法，其特征在于，包括以下步骤：获取原始微博数据，并对所述原始微博数据进行预处理，得到标准微博数据，其中，所述标准微博数据包括用户的原创微博、用户关注信息及标记的用户性别；根据所述标准微博数据构建用户伪文档，其中，所述用户伪文档包括微博文本伪文档和关注行为伪文档；选取主题模型训练集，并在所述主题模型训练集上，根据所述微博文本伪文档和关注行为伪文档分别获取微博兴趣模型和关注群体模型；根据所述微博兴趣模型和关注群体模型在性别推断训练集和性别推断测试集上分别构建微博兴趣特征和关注群体特征；在所述性别推断训练集上，根据所述微博兴趣特征和关注群体特征得到性别推断模型；根据所述性别推断模型推断所述用户的性别。

【技术特征摘要】
1.一种基于联合主题的微博用户性别推断方法，其特征在于，包括以下步骤：获取原始微博数据，并对所述原始微博数据进行预处理，得到标准微博数据，其中，所述标准微博数据包括用户的原创微博、用户关注信息及标记的用户性别；根据所述标准微博数据构建用户伪文档，其中，所述用户伪文档包括微博文本伪文档和关注行为伪文档；选取主题模型训练集，并在所述主题模型训练集上，根据所述微博文本伪文档和关注行为伪文档分别获取微博兴趣模型和关注群体模型；根据所述微博兴趣模型和关注群体模型在性别推断训练集和性别推断测试集上分别构建微博兴趣特征和关注群体特征；在所述性别推断训练集上，根据所述微博兴趣特征和关注群体特征得到性别推断模型；根据所述性别推断模型推断所述用户的性别。2.根据权利要求1所述的基于联合主题的微博用户性别推断方法，其特征在于，还包括：在所述性别推断测试集上，根据所述微博兴趣特征和关注群体特征训练得到测试模型；根据所述测试模型对所述性别推断模型本次的推断结果进行验证。3.根据权利要求2所述的基于联合主题的微博用户性别推断方法，其特征在于，所述根据所述测试模型对所述性别推断模型本次的推断结果进行验证，进一步包括：比较推断的用户性别和标注的用户性别；如果所述推断的用户性别和标注的用户性别相匹配，则判断所述性别推断模型本次的推断结果正确；如果所述推断的用户性别和标注的用户性别不匹配，则判断所述性别推断模型本次的推断结果错误。4.根据权利要求1所述的基于联合主题的微博用户性别推断方法，其特征在于，其中，所述微博文本伪文档由所述用户发表的所有原创微博生成，所述微博文本伪文档通过词袋模型表示；所述关注行为伪文档由用户关注列表生成，所述关注行为伪文档通过类词袋模型表示。5.根据权利要求1所述的基于联合主题的微博用户性别推断方法，其特征在于，其中，通过使用支持向量机在所述性别推断训练集上训练得到所述性别推断模型。6.一种基于联合主题的微博用户性别推断系统，其特征在于，包括：预处理模块，所述预处理模块用于获取原始微博数据，并对所述原始...

【专利技术属性】
技术研发人员：宋巍，谢兴波，刘丽珍，王函石，
申请(专利权)人：首都师范大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人