当前位置: 首页 > 专利查询>苏州大学专利>正文

一种基于微博用户关系的用户性别识别方法及系统技术方案

技术编号:10886638 阅读:104 留言:0更新日期:2015-01-08 15:49
本发明专利技术提供一种基于微博用户关系的用户性别识别方法及系统,本发明专利技术方法包括以下步骤:S1.根据微博网站提供的API接口,收集微博用户的用户信息,并对不同用户进行分类。S2.根据已分类用户的userid获取其关注者和粉丝两者的userid,并将所述关注者和粉丝两者的userid整理成文本。S3.使用信息增益对训练样本进行特征提取,并使用最大熵分类器将待分类样本进行分类。本发明专利技术相比使用微博文本,具有更好的微博用户性别分类效果。

【技术实现步骤摘要】
【专利摘要】本专利技术提供一种基于微博用户关系的用户性别识别方法及系统,本专利技术方法包括以下步骤:S1.根据微博网站提供的API接口,收集微博用户的用户信息,并对不同用户进行分类。S2.根据已分类用户的userid获取其关注者和粉丝两者的userid,并将所述关注者和粉丝两者的userid整理成文本。S3.使用信息增益对训练样本进行特征提取,并使用最大熵分类器将待分类样本进行分类。本专利技术相比使用微博文本,具有更好的微博用户性别分类效果。【专利说明】-种基于微博用户关系的用户性别识别方法及系统
本专利技术属于自然语言处理
,具体涉及一种基于微博用户关系的用户性别 识别方法及系统。
技术介绍
目前,微博是web2. 0时代新兴起的一种集成化、开放化的互联网社交服务。它打 通了移动通信网和互联网的界限,用户可以通过手机、頂软件和外部API接口等途径,即时 向外发布140字以内的文本,因此越来越受到互联网用户的青睐。数据显示,截止到2011年 5月底,仅在Twitter网上的微博注册用户就已达3亿。以新浪微博为例,从2009年8月新 浪微博开始发布,到2011年4月,仅20个月的时间,新浪微博注册用户便达到1. 42亿。继 新浪微博上线后,腾讯、网易、搜狐等也纷纷微博服务。微博已经成为中国网民上网的主要 活动之一,在此环境下,微博分析技术渐渐受到广大研究者的关注。 微博的自动分析一般集中在两项基本任务上面:微博用户分析和微博内容分析。 其中,微博用户分析是微博内容分析的基础。对于微博用户性别的识别,已有的研究主要是 针对Twitter等外文网站,大多数通过对文本信息的各种分析、处理,来实现性别的分类, 这一类主要是通过微博内容分析来实现的。由于微博消息不像传统的文本,其内容短小且 多用口语化,并且消息中经常有一些表情符号,传统的文本分类方法,达不到很好的分类效 果。 鉴于此,本专利技术提出一种基于微博用户关系的用户性别识别方法及系统,以解决 上述问题。
技术实现思路
本专利技术提供一种基于微博用户关系的用户性别识别方法,包括以下步骤。 S1 :根据微博网站提供的API接口,收集微博用户的用户信息,并对不同用户进行 分类。 S2 :根据已分类用户的userid获取其关注者和粉丝两者的userid,并将所述关注 者和粉丝两者的userid整理成文本。 S3 :使用信息增益对训练样本进行特征提取,并使用最大熵分类器将待分类样本 进行分类。 优选的,在步骤S1中,所述用户信息包括用户的关注者和粉丝两者的userid及 gender字段,并且对不同用户根据gender字段进行分类。 优选的,在步骤S1中,所述收集微博用户的用户信息过程包括以下步骤: S101、随机选择一个用户作为种子用户,利用微博提供的API接口抓取用户的用 户信息; S102、根据所抓取的用户信息中的关注者和粉丝两者的userid,继续抓取所述关 注者和粉丝两者的用户信息,直至抓取数量达到所需规模。 优选的,在步骤S1中,是根据所抓取的用户信息中的gender字段值,对用户类型 进行分类,其中gender字段值包括m、f及n,m表示男,f表示女,η表示未知。 优选的,步骤S2还包括:将所述关注者和粉丝两者的userid整理成文本后,分别 存放在文件的两行,并选取等量的男性及女性用户文本形成训练样本,另外选取等量的男 性及女性用户文本形成测试样本。 优选的,步骤S3还包括,利用训练样本构建最大熵分类器,其中使用的最大熵是 MALLET机器学习工具包。 优选的,步骤S3所述的信息增益计算方式为: 【权利要求】1. 一种基于微博用户关系的用户性别识别方法,其特征在于,包括以下步骤: 51、 根据微博网站提供的API接口,收集微博用户的用户信息,并对不同用户进行分 类; 52、 根据已分类用户的userid获取其关注者和粉丝两者的userid,并将所述关注者和 粉丝两者的userid整理成文本; 53、 使用信息增益对训练样本进行特征提取,并使用最大熵分类器将待分类样本进行 分类。2. 根据权利要求1所述的方法,其特征在于,在步骤Sl中,所述用户信息包括用户的关 注者和粉丝两者的userid及gender字段,并且对不同用户根据gender字段进行分类。3. 根据权利要求1或2所述的方法,其特征在于,在步骤Sl中,所述收集微博用户的用 户信息过程包括以下步骤: 5101、 随机选择一个用户作为种子用户,利用微博提供的API接口抓取用户的用户信 息; 5102、 根据所抓取的用户信息中的关注者和粉丝两者的userid,继续抓取所述关注者 和粉丝两者的用户信息,直至抓取数量达到所需规模。4. 根据权利要求1或2所述的方法,其特征在于,在步骤Sl中,是根据所抓取的用户信 息中的gender字段值,对用户类型进行分类,其中gender字段值包括m、f及n,m表示男, f表不女,n表不未知。5. 根据权利要求1所述的方法,其特征在于,步骤S2还包括:将所述关注者和粉丝两 者的userid整理成文本后,分别存放在文件的两行,并选取等量的男性及女性用户文本形 成训练样本,另外选取等量的男性及女性用户文本形成测试样本。6. 根据权利要求1所述的方法,其特征在于,步骤S3还包括,利用训练样本构建最大熵 分类器,其中使用的最大熵是MALLET机器学习工具包。7. 根据权利要求1所述的方法,其特征在于,步骤S3所述的信息增益计算方式为:其中,P(Cj)表示Cj类文档在语料中出现的概率,PUi)表示语料中包含特征项&的文 档的概率,P(C^ti)表示文档包含特征项&时属于q类时的条件概率,P(i;)表示语料中不 包含特征项h的文档的概率,P(Cy 11,.)表示文档不包含特征项&时属于&的条件概率,M表示类别数。8. 根据权利要求7所述的方法,其特征在于,计算信息增益后,选择信息增益值排在前 4000 位的userid。9. 一种基于微博用户关系的用户性别识别系统,其特征在于,包括语料获取与预处理 模块、用户信息处理模块、训练分类器模块及待测用户分类模块,所述语料获取与预处理模 块连接用户信息处理模块,所述用户信息处理模块连接训练分类器模块,所述训练分类器 模块连接待测用户分类模块, 所述语料获取与预处理模块,用于根据API接口获取微博用户的用户信息; 所述用户信息处理模块,用于根据用户gender字段值将用户分类,再根据用户userid将用户关系整理成相应格式的文本,并从中随机选出训练样本、测试样本; 所述训练分类器模块,用于构建最大熵分类器; 所述待测用户分类模块,用于根据所述最大熵分类器对待测数据进行分类。【文档编号】G06F17/30GK104268214SQ201410494539【公开日】2015年1月7日 申请日期:2014年9月24日 优先权日:2014年9月24日 【专利技术者】李寿山, 黄磊, 周国栋, 孔芳 申请人:苏州大学本文档来自技高网
...
一种基于微博用户关系的用户性别识别方法及系统

【技术保护点】
一种基于微博用户关系的用户性别识别方法,其特征在于,包括以下步骤:S1、根据微博网站提供的API接口,收集微博用户的用户信息,并对不同用户进行分类;S2、根据已分类用户的userid获取其关注者和粉丝两者的userid,并将所述关注者和粉丝两者的userid整理成文本;S3、使用信息增益对训练样本进行特征提取,并使用最大熵分类器将待分类样本进行分类。

【技术特征摘要】

【专利技术属性】
技术研发人员:李寿山黄磊周国栋孔芳
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1