当前位置: 首页 > 专利查询>苏州大学专利>正文

一种基于微博的用户年龄分类方法及系统技术方案

技术编号:11795859 阅读:35 留言:0更新日期:2015-07-30 00:32
本发明专利技术提供的一种基于微博的用户年龄分类方法及系统,包括:获取待测用户,待测用户为未提供年龄信息的微博用户;获取待测用户的微博文本;对待测用户的微博文本进行分词处理,得到待测文本词组,并按照预设规则对待测文本词组进行转换,得到待测特征向量;将待测特征向量作为预先建立的最大熵分类器的输入值,得到测试结果;利用测试结果确定待测用户的用户年龄类型。本申请通过获取待测用户的微博文本,对其进行相关处理后利用最大熵分类器获取测试结果,以根据该测试结果确定其用户年龄类型,由此,将待测用户自身所发表的微博文本作为依据,利用最大熵分类器进行测试,能够使得所确定的待测用户的用户年龄类型更加准确,且,能够实现通用性。

【技术实现步骤摘要】

本专利技术涉及自然语言处理和社交网络
,更具体地说,涉及一种基于微博 的用户年龄分类方法及系统。
技术介绍
互联网的开放性、虚拟性与共享性,使其渐渐成为人们表达观点、态度、感觉、 情绪等的公共平台;同时,产生了大量基于互联网的社交网站,其中就包括微型博客 (Microblog),即微博。越来越多的研宄工作开始关注微博,其中重要的一类研宄就是微博 用户特征分析。 所谓微博用户特征分析,就是通过对微博用户的信息和关系数据进行决策树分 析、相关性分析和关联规则来挖掘用户特征,并根据这些用户特征进行用户分类、用户挖掘 及影响力探测等。其中,微博用户年龄是微博用户特征分析的一项基本内容,具体来讲,其 主要为根据用户年龄划分特定类别,比如将用户年龄划分为70后、80后及90后,或者划分 为成年和未成年。其中,出生年在1970到1979之间的用户为70后,出生年在1980到1989 之间的用户为80后,出生年在1990到1999之间的用户为90后。 现有技术中关于用户年龄类型分类的技术方案主要是针对Twitter等外文网站, 其具体为:获取一未提供年龄信息的待测用户,该待测用户存在具有一定联系的并已经提 供年龄信息的关联用户,通过获取关联用户的年龄信息确定关联用户的年龄类型,进而根 据其关联用户的年龄类型判断该待测用户的年龄类型。比如:关联用户中有百分之六十的 用户为90后,则确定该待测用户为90后。但是,现今的微博用户大多数交友较广泛,经常 出现其大部分的关联用户与该待测用户的年龄类型并不相同的情况,因此,用上述的技术 方案所确定待测用户的年龄类型并不准确,且不具备通用性。 因此,现有技术中存在所确定的待测用户的年龄类型不准确,且不具有通用性的 缺点。
技术实现思路
本专利技术的目的是提供一种基于微博的用户年龄分类方法及系统,以解决现有技术 中存在的所确定的待测用户的年龄类型不准确,且不具有通用性的缺点。 为了实现上述目的,本专利技术提供如下技术方案: 一种基于微博的用户年龄分类方法,包括: 获取待测用户,所述待测用户为未提供年龄信息的微博用户; 获取所述待测用户的微博文本; 对所述待测用户的微博文本进行分词处理,得到待测文本词组,并按照预设规则 对所述待测文本词组进行转换,得到待测特征向量; 将所述待测特征向量作为预先建立的最大熵分类器的输入值,得到测试结果;利用所述测试结果确定所述待测用户的用户年龄类型。 优选的,所述利用所述测试结果确定所述待测用户的用户年龄类型,包括: 所述测试结果包括第一概率、第二概率及第三概率,所述第一概率对应的用户年 龄类型为第一类,所述第二概率对应的用户年龄类型为第二类,所述第三概率对应的用户 年龄类型为第三类; 对所述第一概率、所述第二概率及所述第三概率进行加权计算,得到计算结果,根 据所述计算结果确定所述待测用户的用户年龄类型。 优选的,所述最大熵分类器的预先建立过程包括: 获取预设数量的训练用户,所述训练用户为已经提供年龄信息的微博用户; 获取每个训练用户的年龄信息和微博文本; 依据所述每个训练用户的年龄信息对所述训练用户进行分类,利用分类后得到的 结果确定所述每个训练用户的用户年龄类型; 将所述每个训练用户的微博文本分别进行分词处理,得到分别与所述每个训练用 户的微博文本对应的训练文本词组,并利用所述训练文本词组构成分别与所述每个训练用 户的微博文本对应的训练特征向量; 利用所述用户年龄类型及所述训练特征向量构建最大熵分类器。 优选的,所述获取预设数量的训练用户,包括: 步骤1 :任意选取一个微博用户作为当前确定的训练用户; 步骤2 :获取该当前确定的训练用户的关注微博用户及粉丝微博用户,并确定所 述关注微博用户及粉丝微博用户均为训练用户; 步骤3 :由所述关注微博用户及粉丝微博用户中任意选取一个微博用户作为当前 确定的训练用户,返回执行步骤2,直至所述训练用户的数量达到预设数量为止。 优选的,所述方法还包括: 构建一个训练用户列表,并将其初始化为空; 每获得一个训练用户,则将该训练用户添加至所述训练用户列表中,以供查询。 优选的,获取每个训练用户的年龄信息和微博文本,包括: 通过微博提供的API获取每个训练用户的年龄信息和微博文本。 一种基于微博的用户年龄分类系统,包括待测用户获取装置、待测特征向量获取 装置、测试装置及用户年龄类型确定装置,其中: 所述待测用户获取装置,用于获取待测用户,及所述待测用户的微博文本,所述待 测用户为未提供年龄信息的微博用户; 所述待测特征向量获取装置,用于对所述待测用户的微博文本进行分词处理,得 到待测文本词组,并按照预设规则对所述待测文本词组进行转换,得到待测特征向量; 测试装置,用于将所述待测特征向量作为预先建立的最大熵分类器的输入值,得 到测试结果; 用户年龄类型确定装置,用于利用所述测试结果确定所述待测用户的用户年龄类 型。 优选的,所述测试装置包括:训练用户获取模块、用户年龄类型确定模块、训练特 征向量获取模块及分类器构建模块,其中: 所述训练用户获取模块,用于获取预设数量的训练用户,以及每个训练用户的年 龄信息和微博文本,所述训练用户为已经提供年龄信息的微博用户; 用户年龄类型确定模块,依据所述每个训练用户的年龄信息对所述训练用户进行 分类,利用分类后得到的结果确定所述每个训练用户的用户年龄类型; 所述训练特征向量获取模块,用于将所述每个训练用户的微博文本分别进行分词 处理,得到分别与所述每个训练用户的微博文本对应的训练文本词组,并利用所述训练文 本词组构成分别与所述每个训练用户的微博文本对应的训练特征向量; 所述分类器构建模块,用于利用所述用户年龄类型及所述训练特征向量构建最大 摘分类器。 本专利技术提供的一种基于微博的用户年龄分类方法及系统,包括:获取待测用户,所 述待测用户为未提供年龄信息的微博用户;获取所述待测用户的微博文本;对所述待测用 户的微博文本进行分词处理,得到待测文本词组,并按照预设规则对所述待测文本词组进 行转换,得到待测特征向量;将所述待测特征向量作为预先建立的最大熵分类器的输入值, 得到测试结果;利用所述测试结果确定所述待测用户的用户年龄类型。与现有技术相比, 本申请通过获取待测用户的微博文本,对其进行相关处理后利用最大熵分类器获取测试结 果,以根据该测试结果确定其用户年龄类型,由此,将待测用户自身所发表的微博文本作为 依据,利用最大熵分类器进行测试,能够使得所确定的待测用户的用户年龄类型更加准确, 且,能够实现通用性。【附图说明】 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 提供的附图获得其他的附图。图1为本专利技术实施例提供的一当前第1页1 2 本文档来自技高网
...
一种基于微博的用户年龄分类方法及系统

【技术保护点】
一种基于微博的用户年龄分类方法,其特征在于,包括:获取待测用户,所述待测用户为未提供年龄信息的微博用户;获取所述待测用户的微博文本;对所述待测用户的微博文本进行分词处理,得到待测文本词组,并按照预设规则对所述待测文本词组进行转换,得到待测特征向量;将所述待测特征向量作为预先建立的最大熵分类器的输入值,得到测试结果;利用所述测试结果确定所述待测用户的用户年龄类型。

【技术特征摘要】

【专利技术属性】
技术研发人员:李寿山戴斌周国栋
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1