用户属性获取方法及装置制造方法及图纸

技术编号:16819227 阅读:60 留言:0更新日期:2017-12-16 12:42
本发明专利技术实施例提供的一种用户属性获取方法及装置,涉及数据处理领域。所述方法包括获取用户的微博中的文本和图像;再获得所述文本对应的文本输入矩阵;获得所述图像对应的图像输入矩阵;基于所述文本输入矩阵及所述图像输入矩阵,获得总输入矩阵;然后基于所述总输入矩阵,获得所述文本和所述图像中的主题分布情况,以及基于所述主题分布情况,获取所述用户的属性。效率高、准确度高、实用性强。

User attribute acquisition method and device

The present invention provides a user attribute acquisition method and device, which relates to the field of data processing. The method includes text and image acquisition of micro-blog users in the text; then the input matrix corresponding to the text; image input matrix corresponding to the image; the text input matrix and the image input matrix based on the total input matrix; then based on the total input matrix distribution the text and the image of the subject, and based on the theme of the distribution of property to obtain the user. High efficiency, high accuracy and strong practicality.

【技术实现步骤摘要】
用户属性获取方法及装置
本专利技术涉及数据处理
,具体而言,涉及一种用户属性获取方法及装置。
技术介绍
目前,现有方法如泊松伽马信念网络(PoissonGammaBeliefNetwork,PGBN)只能通过处理文本内容来获取用户的属性,并且在大规模的社交媒体环境下并不可以直接应用,效率低、不准确。
技术实现思路
本专利技术的目的在于提供一种用户属性获取及装置,以改善上述问题。为了实现上述目的,本专利技术采取的技术方案如下:第一方面,本专利技术实施例提供了一种用户属性获取方法,所述方法包括获取用户的微博中的文本和图像;获得所述文本对应的文本输入矩阵;获得所述图像对应的图像输入矩阵;基于所述文本输入矩阵及所述图像输入矩阵,获得总输入矩阵;基于所述总输入矩阵,获得所述文本和所述图像中的主题分布情况,以及基于所述主题分布情况,获取所述用户的属性。第二方面,本专利技术实施例提供了一种用户属性获取装置,所述装置包括第一获取单元、第二获取单元、第三获取单元、第四获取单元和第五获取单元。第一获取单元,用于获取用户的微博中的文本和图像。第二获取单元,用于获得所述文本对应的文本输入矩阵。第三获取单元,用于获得所述图像对应的图像输入矩阵。第四获取单元,用于基于所述文本输入矩阵及所述图像输入矩阵,获得总输入矩阵。第五获取单元,用于基于所述总输入矩阵,获得所述文本和所述图像中的主题分布情况,以及基于所述主题分布情况,获取所述用户的属性。本专利技术实施例提供的一种用户属性获取方法及装置,获取用户的微博中的文本和图像;再获得所述文本对应的文本输入矩阵;获得所述图像对应的图像输入矩阵;基于所述文本输入矩阵及所述图像输入矩阵,获得总输入矩阵;然后基于所述总输入矩阵,获得所述文本和所述图像中的主题分布情况,以及基于所述主题分布情况,获取所述用户的属性。效率高、准确度高、实用性强。本专利技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术实施例了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术实施例提供的电子设备的结构框图;图2为本专利技术实施例提供的用户属性获取方法的流程图;图3为本专利技术实施例提供的一种用户属性获取装置的结构框图;图4为本专利技术实施例另一种用户属性获取装置的结构框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本专利技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。图1示出了一种可应用于本专利技术实施例中的电子设备100的结构框图。如图1所示,电子设备100可以包括存储器102、存储控制器104、一个或多个(图1中仅示出一个)处理器106、外设接口108、输入输出模块110、音频模块112、显示模块114、射频模块116和用户属性获取装置。存储器102、存储控制器104、处理器106、外设接口108、输入输出模块110、音频模块112、显示模块114、射频模块116各元件之间直接或间接地电连接,以实现数据的传输或交互。例如,这些元件之间可以通过一条或多条通讯总线或信号总线实现电连接。用户属性获取方法分别包括至少一个可以以软件或固件(firmware)的形式存储于存储器102中的软件功能模块,例如所述用户属性获取装置包括的软件功能模块或计算机程序。存储器102可以存储各种软件程序以及模块,如本申请实施例提供的用户属性获取方法及装置对应的程序指令/模块。处理器106通过运行存储在存储器102中的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现本申请实施例中的用户属性获取方法。存储器102可以包括但不限于随机存取存储器(RandomAccessMemory,RAM),只读存储器(ReadOnlyMemory,ROM),可编程只读存储器(ProgrammableRead-OnlyMemory,PROM),可擦除只读存储器(ErasableProgrammableRead-OnlyMemory,EPROM),电可擦除只读存储器(ElectricErasableProgrammableRead-OnlyMemory,EEPROM)等。处理器106可以是一种集成电路芯片,具有信号处理能力。上述处理器可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。所述外设接口108将各种输入/输入装置耦合至处理器106以及存储器102。在一些实施例中,外设接口108、处理器106以及存储控制器104可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。输入输出模块110用于提供给用户输入数据实现用户与电子设备100的交互。所述输入输出模块110可以是,但不限于,鼠标和键盘等。音频模块112向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。显示模块114在电子设备100与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示模块114可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器106进行计算和处理。射频模块116用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通信网络或者其他设备进行通信。可以理解,图1所示的结构仅为示意,电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。于本专利技术实施例中,电子设备100可以作为用户终端,本文档来自技高网...
用户属性获取方法及装置

【技术保护点】
一种用户属性获取方法,应用于一电子设备,其特征在于,所述方法包括:获取用户的微博中的文本和图像;获得所述文本对应的文本输入矩阵;获得所述图像对应的图像输入矩阵;基于所述文本输入矩阵及所述图像输入矩阵,获得总输入矩阵;基于所述总输入矩阵,获得所述文本和所述图像中的主题分布情况,以及基于所述主题分布情况,获取所述用户的属性。

【技术特征摘要】
1.一种用户属性获取方法,应用于一电子设备,其特征在于,所述方法包括:获取用户的微博中的文本和图像;获得所述文本对应的文本输入矩阵;获得所述图像对应的图像输入矩阵;基于所述文本输入矩阵及所述图像输入矩阵,获得总输入矩阵;基于所述总输入矩阵,获得所述文本和所述图像中的主题分布情况,以及基于所述主题分布情况,获取所述用户的属性。2.根据权利要求1所述的方法,其特征在于,获得所述文本对应的文本输入矩阵,包括:对所述文本进行分词处理并统计词频,获得至少一个分词,及所述至少一个分词中每个分词的词频;基于所述至少一个分词及每个分词的词频,获得所述文本对应的文本输入矩阵。3.根据权利要求1所述的方法,其特征在于,获得所述图像对应的图像输入矩阵,包括:对所述图像进行sift特征提取,获得所述图像对应的第一特征向量并基于所述第一特征向量,获得所述图像对应的图像输入矩阵。4.根据权利要求1所述的方法,其特征在于,基于所述文本输入矩阵及所述图像输入矩阵,获得总输入矩阵,包括:将所述文本输入矩阵、所述图像输入矩阵与预设的训练集输入矩阵进行拼接,获得总输入矩阵。5.根据权利要求4所述的方法,其特征在于,将所述文本输入矩阵、所述图像输入矩阵与预设的训练集输入矩阵进行拼接,获得总输入矩阵之前,所述方法还包括:获取多个微博中的训练文本和训练图像;获得所述训练文本对应的训练文本输入矩阵;获得所述训练图像对应的训练图像矩阵;基于所述训练文本输入矩阵及所述训练图像矩阵,获得所述训练集输入矩阵。6.根据权利要求5所述的方法,其特征在于,获得所述训练图像对应的训练图像矩阵,包括:对每个所述训练图像进行sift特征提取,获得每个所述训练图像对应的第二特征向量;基于预设的聚类算法及每个所述训练图像对应的第二特征向量,获得每一类的聚类中心及每一类包含的图像...

【专利技术属性】
技术研发人员:杨阳黄秀杨子豪沈复民谢宁申恒涛
申请(专利权)人:成都澳海川科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1