当前位置: 首页 > 专利查询>苏州大学专利>正文

一种微博用户交互式性别识别方法及装置制造方法及图纸

技术编号:11408680 阅读:61 留言:0更新日期:2015-05-06 07:50
本方案公开了一种微博用户交互式性别识别方法及装置。该方法首先获取微博用户的个人资料信息和用户之间的交互微博文本,并利用交互用户个人资料中的性别信息对交互文本的交互式性别类别进行标注;然后利用标注好的用户之间的交互文本作为训练样本,并利用训练样本训练最大熵分类器;最后,对某测试交互用户集进行分类。综合来看,本发明专利技术可以利用交互文本对微博中的两个交互用户的交互式性别进行识别,且在训练样本数量有限的情况下,达到较高的准确率。

【技术实现步骤摘要】
一种微博用户交互式性别识别方法及装置
本专利技术涉及自然语言处理和社交网络领域,尤其涉及一种微博用户交互式性别识别方法及装置。
技术介绍
互联网的开放性、虚拟性与共享性使其渐渐成为人们表达观点、态度、感觉、情绪等各种情感的公共平台,并且产生大量的社交网站,同时微型博客(Microblog)也随之产生,成为又一个跨时代产品。用户通过微博发表的文本中蕴含了大量的信息,且越来越多的研究工作开始关注微博,其中重要的一类研究是微博用户性别类别。所谓微博用户性别类别,就是通过对微博用户的信息和关系数据进行决策树分析、相关性分析和关联规则来挖掘用户性别特征,并根据这些特征来对单个用户的性别类别进行分类。然而目前的研究工作主要集中在通过用户的注册信息,对单个用户的性别进行预测。
技术实现思路
有鉴于此,本专利技术提供一种微博用户交互式性别识别方法和装置,通过用户之间的交互文本信息,对用户的性别进行预测。为实现上述目的,本专利技术提供如下技术方案:一种微博用户交互式性别识别方法,包括:获取微博用户的个人资料信息和用户之间的交互文本信息;根据所述个人资料信息,对用户之间的交互文本信息对交互式性别类别进行标注,其中所述交互式性别类别包括:女对女、女对男、男对女和男对男;将已经标注的所述交互文本信息作为训练样本,并利用所述训练样本建立最大熵分类器;利用所述最大熵分类器对测试样本的交互文本信息进行交互式性别类别,以对测试样本性别进行识别。优选的,所述获取微博用户的个人资料信息和用户之间的交互文本信息,包括:构建一个用户队列;从用户队列取出一个种子用户,抓取种子用户个人资料信息和种子用户与其他用户之间的交互文本信息,其中所述用户个人资料信息包括用户名、用户ID、性别、及关注用户和粉丝用户,并将关注用户和粉丝用户加入到用户队列中;反复抓取多个种子用户,直到抓取的种子用户数目达到设定数值。优选的,所述根据所述个人资料信息,对用户之间的交互文本信息对交互式性别类别进行标注,包括:根据所述个人资料信息中的性别信息对用户之间的交互文本信息进行交互时性别类别进行标注。优选的,所述将进行标注的所述交互文本信息作为训练样本,并利用所述训练样本建立最大熵分类器,包括:利用所述训练样本及Mallet提供的最大熵工具包构建最大熵分类器。一种微博用户交互式性别识别装置,包括:信息采集模块,用于获取微博用户的个人资料信息和用户之间的交互文本信息;交互式性别类别标注模块,用于根据所述个人资料信息,对用户之间的交互文本信息对交互式性别类别进行标注,其中所述交互式性别类别包括:女对女、女对男、男对女和男对男;分类器构建模块,用于将已经标注的所述交互文本信息作为训练样本,并利用所述训练样本建立最大熵分类器;测试样本性别识别模块,用于利用所述最大熵分类器对测试样本的交互文本信息进行交互式性别类别,以对测试样本性别进行识别。优选的,所述信息采集模块包括:用户列队构建单元,用于构建一个用户队列;种子用户选定单元,用于从用户队列取出一个种子用户,抓取种子用户个人资料信息和种子用户与其他用户之间的交互文本信息,其中所述用户个人资料信息包括用户名、用户ID、性别、及关注用户和粉丝用户,并将关注用户和粉丝用户加入到用户队列中;反复抓取多个种子用户,直到抓取的种子用户数目达到设定数值。优选的,所述交互式性别类别标注模块包括:类别标注子模块,用于根据所述个人资料信息中的性别信息对用户之间的交互文本信息进行交互时性别类别进行标注。优选的,所述分类器构建模块包括:分类器构建子模块,用于利用所述训练样本及Mallet提供的最大熵工具包构建最大熵分类器。经由上述的技术方案可知,与现有技术相比,本方案公开了一种微博用户交互式性别识别方法及装置。该方法基于微博中用户之间的交互文本,用以识别某两个交互的微博用户的交互式性别是女对女、女对男、男对女还是男对男。首先,获取微博用户的个人资料信息和用户之间的交互微博文本,并利用交互用户个人资料中的性别信息对交互文本的交互式性别类别进行标注;然后利用标注好的用户之间的交互文本作为训练样本,并利用训练样本训练最大熵分类器;最后,对某测试交互用户集进行分类。综合来看,本专利技术可以利用交互文本对微博中的两个交互用户的交互式性别进行识别,且在训练样本数量有限的情况下,达到较高的准确率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1示出了本专利技术一种微博用户交互式性别识别方法的一个实施例的流程示意图;图2示出了本专利技术一种微博用户交互式性别识别装置的一个实施例的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。微博不仅仅给单个用户发表自己的感悟和建议提供了一个好的平台,而且利用某些交互机制让其用户之间可以进行交互沟通。因此利用两个微博用户之间的交互文本对用户交互式性别进行分类是一项具有重要意义的任务。具体来讲,该任务将微博用户之间的交互划分为四种类别,分别为:女对女(ff)、女对男(fm)、男对女(mf)和男对男(mm)。值得注意的是,该任务不仅能预测用户的性别,而且能帮助社会学研究人与人之间的交流,并且在使人机交互更人性化方面有一定的价值。参见图1示出了本专利技术一种微博用户交互式性别识别方法的一个实施例的流程示意图。由图1可知,在本实施例中,该方法包括:101:获取微博用户的个人资料信息和用户之间的交互文本信息。可选的,在本实施例中,微博用户的个人资料信息和用户信息可通过微博提供的API接口进行抓取。具体的抓取过程为:构建一个用户队列;从用户队列取出一个用户作为种子用户,抓取种子用户的个人资料信息和种子用户与其他用户之间的交互文本信息。其中,所述用户个人资料信息包括用户名、用户ID、性别、及关注用户和粉丝用户,并将关注用户和粉丝用户加入到用户队列中。进而,反复抓取多个种子用户,直到抓取的种子用户数目达到设定数值。102:根据所述个人资料信息,对用户之间的交互文本信息对交互式性别类别进行标注,其中所述交互式性别类别包括:女对女、女对男、男对女和男对男。通过步骤101中抓取的用户个人资料中的性别信息,用户之间的额交互文本信息进行交互式性别类别标注。该性别类别标注具体以下四种,女对女(ff)、女对男(fm)、男对女(mf)和男对男(mm)。需要说明的是,在抓取时需要保证每两个交互的用户之间的微博评论数不少于十条,以保证抓取的可靠性。参见表1示出了本专利技术所抓取的多个用户样本。#训练样本mm2883mf4462ff10954fm4596表1103:将已经标注的所述交互文本信息作为训练样本,并利用所述训练样本建立最大熵分类器。可利用所述训练样本及Mallet提供的最大熵工具包构建最大熵分类器。其中,最大熵模型是最大熵分类器的理论基础,其本文档来自技高网...
一种微博用户交互式性别识别方法及装置

【技术保护点】
一种微博用户交互式性别识别方法,其特征在于,包括:获取微博用户的个人资料信息和用户之间的交互文本信息;根据所述个人资料信息,对用户之间的交互文本信息对交互式性别类别进行标注,其中所述交互式性别类别包括:女对女、女对男、男对女和男对男;将已经标注的所述交互文本信息作为训练样本,并利用所述训练样本建立最大熵分类器;利用所述最大熵分类器对测试样本的交互文本信息进行交互式性别类别,以对测试样本性别进行识别。

【技术特征摘要】
1.一种微博用户交互式性别识别方法,其特征在于,包括:获取微博用户的个人资料信息和用户之间的交互文本信息;根据所述个人资料信息,对用户之间的交互文本信息对交互式性别类别进行标注,其中所述交互式性别类别包括:女对女、女对男、男对女和男对男;将已经标注的所述交互文本信息作为训练样本,并利用所述训练样本建立最大熵分类器;利用所述最大熵分类器对测试样本的交互文本信息进行交互式性别类别,以对测试样本性别进行识别。2.根据权利要求1所述的方法,其特征在于,所述获取微博用户的个人资料信息和用户之间的交互文本信息,包括:构建一个用户队列;从用户队列取出一个种子用户,抓取种子用户个人资料信息和种子用户与其他用户之间的交互文本信息,其中所述用户个人资料信息包括用户名、用户ID、性别、及关注用户和粉丝用户,并将关注用户和粉丝用户加入到用户队列中;反复抓取多个种子用户,直到抓取的种子用户数目达到设定数值。3.根据权利要求1所述的方法,其特征在于,所述根据所述个人资料信息,对用户之间的交互文本信息对交互式性别类别进行标注,包括:根据所述个人资料信息中的性别信息对用户之间的交互文本信息进行交互时性别类别进行标注。4.根据权利要求1所述的方法,其特征在于,所述将进行标注的所述交互文本信息作为训练样本,并利用所述训练样本建立最大熵分类器,包括:利用所述训练样本及Mallet提供的最大熵工具包构建最大熵分类器。5.一种微...

【专利技术属性】
技术研发人员:李寿山王晶晶段湘煜周国栋
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1