一种基于推特内容的用户属性预测方法技术

技术编号:39049278 阅读:13 留言:0更新日期:2023-10-10 12:02
本发明专利技术涉及人工智能推荐系统技术领域,具体公开了一种基于推特内容的用户属性预测方法,包括构建数据集、进行数据预处理和数据清洗、利用基于时序信息的向量空间模型进行用户建模、训练分类器、测试集测试训练好的分类器性能并利用验证集优化模型性能、进行用户属性补全;本发明专利技术利用在线社交网络中的用户生成内容,预测用户的人口统计学特征,包括用户的性别、年龄、职业信息,缓解传统基本属性预测方法的特征稀疏问题,预测社交网络中用户的基本属性,有助于解决社交网络中虚假账号识别、个性化推荐以及推荐系统冷启动等方面的问题。化推荐以及推荐系统冷启动等方面的问题。化推荐以及推荐系统冷启动等方面的问题。

【技术实现步骤摘要】
一种基于推特内容的用户属性预测方法


[0001]本专利技术涉及人工智能推荐系统
,更具体地说,本专利技术涉及一种基于推特内容的用户属性预测方法。

技术介绍

[0002]随着互联网发展,以推特(Twitter)为代表的社交网络平台凭借其庞大的用户量和可观的流量逐渐成为传播的新内核,人们越来越愿意在社交网络上表达个人对某些事物的看法、态度和情绪,这些数据为用户画像构建奠定了基础。目前,个性化推荐系统在市场营销和电商领域的重要性日益增加,据研究显示,个性化推荐技术可以显著提高电商平台的销售额。例如,在推荐系统中,当电商平台确定用户为女性时,推荐的商品为女性感兴趣的产品,例如化妆品和衣服;当电商平台知道用户的年龄在20岁以下时,推荐的商品是青少年感兴趣的潮流品牌。如果用户喜欢篮球,则向该用户推荐篮球鞋和运动装备等相关商品。用户画像构建是个性化推荐系统成功应用的关键。因此,研究在线社交网络用户画像构建具有重要的应用价值。
[0003]用户画像包括用户兴趣和基本属性。用户兴趣画像用于描述用户的兴趣特征,而用户基本属性则描述用户的人口统计特征。用户画像建立过程中,用户的基本属性是不可或缺的,例如用户的性别、年龄和职业属性。然而,在社交网络中,用户注册账号时通常不需要提供这些基本属性,因此大多数用户会选择不提供或提供虚假的信息来保护自己的隐私。如果仅使用用户提交的基本属性进行相关计算和研究,会引起严重的偏差,因此准确预测用户的基本属性对于个性化推荐系统和市场营销领域非常重要。
[0004]随着大数据时代的到来,如何通过用户历史上生成的内容预测用户的性别、年龄和职业等基本属性,进一步挖掘用户的兴趣,建立用户画像,对于实现精准营销和个性化推荐至关重要,成为各大公司的关注焦点。为了应对社交网络中用户基本属性无法确定的问题,本专利技术提出了基于推特内容的用户属性预测方法。

技术实现思路

[0005]为了克服现有技术的上述缺陷,本专利技术的实施例提供一种基于推特内容的用户属性预测方法,利用在线社交网络中的用户生成内容,预测用户的人口统计学特征,包括用户的性别、年龄、职业信息,利用向量空间模型预测社交网络中用户的基本属性,有助于解决社交网络中虚假账号识别、个性化推荐以及推荐系统冷启动的问题,以解决上述
技术介绍
中提出的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:
[0007]一种基于推特内容的用户属性预测方法,包括如下步骤:
[0008]步骤S1,构建数据集:将用户所有推特数据拼接形成文本文档,然后将文本文档划分为训练集、验证集和测试集,其中训练集、验证集均包含全部的属性标签;
[0009]步骤S2,数据处理:对文本进行预处理及数据清洗,过滤掉其中的噪声;
[0010]步骤S3,文本表示:将用户发布的所有推文融合在一起作为文本文档,结合时序信息进行顺序排列,采用向量空间模型进行文本表示,并将文本表示作为文本分类器的输入;
[0011]步骤S4,构建文本分类器:使用训练集中的类别标签训练机器学习中的支持向量机分类算法,获取最优分类器,使用验证集中的类别标签验证模型的性能,对分类器模型进行评估和优化,使用测试集预测已经训练好的分类器模型;
[0012]步骤S5,使用分类器进行属性补全。
[0013]作为本专利技术进一步的方案,在步骤S1中,用户所有推特数据为用户的推特属性,用户的推特属性包括文本数据、基本属性信息和社会网络属性。
[0014]作为本专利技术进一步的方案,基本属性信息包括姓名、别名、性别、国籍、民族、年龄、出生日期、出生地、所在州,学历、毕业院校、所学专业、职业、工作地以及职位这些结构化的用户特征。
[0015]作为本专利技术进一步的方案,社会网络属性包括账户ID、账户名、主页链接、IP归属地、账号创建时间、关注用户量、粉丝量、发布帖文数、转发数、发帖频率、发帖设备、自我简介、兴趣爱好、性格估测、活跃领域、所属网络群体、参与热点议题、关注话题、交互账号、所处社交网络圈层结构、粉丝群体、关注群体、关注的KOL(Key Opinion Leader,关键意见领袖)、关注的媒体。
[0016]作为本专利技术进一步的方案,在步骤S2中,原始文本特征中包含的噪声来自推特内容中的添加“@”其他用户、表情符和URL地址,使用正则表达式的方式去除文本中的此类噪音。
[0017]作为本专利技术进一步的方案,在步骤S3中,向量空间模型将文档表示为文档向量,文档向量中每一个分量表示该文档中特征次的权重,对于每个类别均采用CHI进行特征提取,选择能够代表该类别的特征词,再采用频率

逆文档频率术(TERM FREQUENCY

INVERSE DOCUMENT FREQUENCY)计算特征词的权重,对每个预测任务进行特征提取和特征值计算,并构建特征词典,使用特征词典对每个预测任务进行用户建模,从而构建推特用户的向量空间模型,用户的表示公式为:
[0018]U=K1,W1;k2,W2,

,K
n
,W
n
[0019]其中,U为用户的表示,K为特征词,W为该特征词的权重,n为特征词的数量。
[0020]作为本专利技术进一步的方案,在步骤S3中,针对每个预测任务进行特征提取和特征值计算,构建特征词典,使用特征词典对每个预测任务进行用户建模,构建推特用户的向量空间模型,预测用户的性别、年龄和职业标签。
[0021]作为本专利技术进一步的方案,在步骤S3中,将文本信息按照时间顺序排列,以生成发文流,在推特的实际场景中,存在绝对发文时间和相对发文时间两种时间模式,绝对发文时间为具体的时、分、秒,相对发文时间为指定时长前的时间戳,利用当前时间戳减去指定相对时间戳,将相对发文时间转换为绝对发文时间。
[0022]本专利技术一种基于推特内容的用户属性预测方法的技术效果和优点:
[0023]本专利技术利用在线社交网络中的用户生成内容,预测用户的人口统计学特征,包括用户的性别、年龄、职业信息,缓解传统基本属性预测方法的特征稀疏问题,预测社交网络中用户的基本属性,有助于解决社交网络中虚假账号识别、个性化推荐以及推荐系统冷启动方面的问题,旨在满足基于社交网络的用户画像构建与应用等核心算法的需求,结合了
推特文本内容和时间信息进行用户属性预测,解决了用户基本属性难以确定的问题,能够根据需要加入更多的特征和算法进行优化和扩展,从而提高预测的准确性和实用性。
附图说明
[0024]图1为本专利技术一种基于推特内容的用户属性预测方法流程图;
[0025]图2为本专利技术一种基于推特内容的用户属性预测方法所涉及结构示意图。
具体实施方式
[0026]下面将结合本专利技术中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的内容仅仅是本专利技术一部分,而不是全部。基于本专利技术中的内容,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他方案,都属于本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于推特内容的用户属性预测方法,其特征在于,包括如下步骤:步骤S1,构建数据集:将用户所有推特数据拼接形成文本文档,然后将文本文档划分为训练集、验证集和测试集,其中训练集、验证集均包含全部的属性标签;步骤S2,数据处理:对文本进行预处理及数据清洗,过滤掉其中的噪音;步骤S3,文本表示:将用户发布的所有推文融合在一起作为文本文档,结合时序信息进行顺序排列,采用向量空间模型行文本表示,并将文本表示作为文本分类器的输入;步骤S4,构建文本分类器:使用训练集中的类别标签训练机器学习中的支持向量机分类算法,获取最优分类器,使用验证集中的类别标签验证模型的性能,对分类器模型进行评估和优化,使用测试集预测已经训练好的分类器模型;步骤S5,使用分类器进行属性补全。2.根据权利要求1所述的一种基于推特内容的用户属性预测方法,其特征在于,在步骤S1中,用户所有推特数据为用户的推特属性,用户的推特属性包括文本数据、基本属性信息和社会网络属性。3.根据权利要求2所述的一种基于推特内容的用户属性预测方法,其特征在于,基本属性信息包括姓名、别名、性别、国籍、民族、年龄、出生日期、出生地、所在州,学历、毕业院校、所学专业、职业、工作地以及职位这些结构化的用户特征。4.根据权利要求1所述的一种基于推特内容的用户属性预测方法,其特征在于,社会网络属性包括账户ID、账户名、主页链接、IP归属地、账号创建时间、关注用户量、粉丝量、发布帖文数、转发数、发帖频率、发帖设备、自我简介、兴趣爱好、性格估测、活跃领域、所属网络群体、参与热点议题、关注话题、交互账号、所处社交网络圈层结构、粉丝群体、关注群体、关注的KOL(Key Opinion Leader,关键意见领袖)、关注的媒体。5.根据权利要求1所述的一种基于推特内容的用户属性预测方法,其特征在于,...

【专利技术属性】
技术研发人员:樊静郭玮陈伟方楚喻李亦非庄福振
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1