The present invention provides a user attribute acquisition method and device, which relates to the field of data processing. The method includes text and image acquisition of micro-blog users in the text; then the input matrix corresponding to the text; image input matrix corresponding to the image; the text input matrix and the image input matrix based on the total input matrix; then based on the total input matrix distribution the text and the image of the subject, and based on the theme of the distribution of property to obtain the user. High efficiency, high accuracy and strong practicality.
【技术实现步骤摘要】
用户属性获取方法及装置
本专利技术涉及数据处理
,具体而言,涉及一种用户属性获取方法及装置。
技术介绍
目前,现有方法如泊松伽马信念网络(PoissonGammaBeliefNetwork,PGBN)只能通过处理文本内容来获取用户的属性,并且在大规模的社交媒体环境下并不可以直接应用,效率低、不准确。
技术实现思路
本专利技术的目的在于提供一种用户属性获取及装置,以改善上述问题。为了实现上述目的,本专利技术采取的技术方案如下:第一方面,本专利技术实施例提供了一种用户属性获取方法,所述方法包括获取用户的微博中的文本和图像;获得所述文本对应的文本输入矩阵;获得所述图像对应的图像输入矩阵;基于所述文本输入矩阵及所述图像输入矩阵,获得总输入矩阵;基于所述总输入矩阵,获得所述文本和所述图像中的主题分布情况,以及基于所述主题分布情况,获取所述用户的属性。第二方面,本专利技术实施例提供了一种用户属性获取装置,所述装置包括第一获取单元、第二获取单元、第三获取单元、第四获取单元和第五获取单元。第一获取单元,用于获取用户的微博中的文本和图像。第二获取单元,用于获得所述文本对应的文本输入矩阵。第三获取单元,用于获得所述图像对应的图像输入矩阵。第四获取单元,用于基于所述文本输入矩阵及所述图像输入矩阵,获得总输入矩阵。第五获取单元,用于基于所述总输入矩阵,获得所述文本和所述图像中的主题分布情况,以及基于所述主题分布情况,获取所述用户的属性。本专利技术实施例提供的一种用户属性获取方法及装置,获取用户的微博中的文本和图像;再获得所述文本对应的文本输入矩阵;获得所述图像对应的图像输入矩阵 ...
【技术保护点】
一种用户属性获取方法,应用于一电子设备,其特征在于,所述方法包括:获取用户的微博中的文本和图像;获得所述文本对应的文本输入矩阵;获得所述图像对应的图像输入矩阵;基于所述文本输入矩阵及所述图像输入矩阵,获得总输入矩阵;基于所述总输入矩阵,获得所述文本和所述图像中的主题分布情况,以及基于所述主题分布情况,获取所述用户的属性。
【技术特征摘要】
1.一种用户属性获取方法,应用于一电子设备,其特征在于,所述方法包括:获取用户的微博中的文本和图像;获得所述文本对应的文本输入矩阵;获得所述图像对应的图像输入矩阵;基于所述文本输入矩阵及所述图像输入矩阵,获得总输入矩阵;基于所述总输入矩阵,获得所述文本和所述图像中的主题分布情况,以及基于所述主题分布情况,获取所述用户的属性。2.根据权利要求1所述的方法,其特征在于,获得所述文本对应的文本输入矩阵,包括:对所述文本进行分词处理并统计词频,获得至少一个分词,及所述至少一个分词中每个分词的词频;基于所述至少一个分词及每个分词的词频,获得所述文本对应的文本输入矩阵。3.根据权利要求1所述的方法,其特征在于,获得所述图像对应的图像输入矩阵,包括:对所述图像进行sift特征提取,获得所述图像对应的第一特征向量并基于所述第一特征向量,获得所述图像对应的图像输入矩阵。4.根据权利要求1所述的方法,其特征在于,基于所述文本输入矩阵及所述图像输入矩阵,获得总输入矩阵,包括:将所述文本输入矩阵、所述图像输入矩阵与预设的训练集输入矩阵进行拼接,获得总输入矩阵。5.根据权利要求4所述的方法,其特征在于,将所述文本输入矩阵、所述图像输入矩阵与预设的训练集输入矩阵进行拼接,获得总输入矩阵之前,所述方法还包括:获取多个微博中的训练文本和训练图像;获得所述训练文本对应的训练文本输入矩阵;获得所述训练图像对应的训练图像矩阵;基于所述训练文本输入矩阵及所述训练图像矩阵,获得所述训练集输入矩阵。6.根据权利要求5所述的方法,其特征在于,获得所述训练图像对应的训练图像矩阵,包括:对每个所述训练图像进行sift特征提取,获得每个所述训练图像对应的第二特征向量;基于预设的聚类算法及每个所述训练图像对应的第二特征向量,获得每一类的聚类中心及每一类包含的图像...
【专利技术属性】
技术研发人员:杨阳,黄秀,杨子豪,沈复民,谢宁,申恒涛,
申请(专利权)人:成都澳海川科技有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。