获取目标用户的方法及装置制造方法及图纸

技术编号:17212326 阅读:81 留言:0更新日期:2018-02-07 23:23
本发明专利技术适用于信息处理技术领域,提供了一种获取目标用户的方法及装置。该获取目标用户的方法包括:获取多个用户的社交账号所关注的各个认证用户的验证文本信息,并提取所获取到的各个验证文本信息中的关键词;将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类;根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户。该获取目标用户的方法,能够更加准确地确定该用户是否为目标用户,而且过程简单。

Methods and devices for obtaining target users

The invention is applicable to the field of information processing technology, and provides a method and device for obtaining a target user. The method includes obtaining the target user: validation text information of each authenticated user access to multiple user account of social concern, and get to the extraction of text information in each validation keyword; each of the extracted keywords will be divided into multiple clusters, and according to the plurality of clusters of all authentication of users are classified according to the classification results for all; authentication of users, each user authentication combined with the user's account of social concern, to determine whether the user for the target users. The method of obtaining the target user can be more accurate to determine whether the user is a target user, and the process is simple.

【技术实现步骤摘要】
获取目标用户的方法及装置
本专利技术属于信息处理
,尤其涉及一种获取目标用户的方法及装置。
技术介绍
在通过社交网络研究用户分类时,往往根据用户在网络中发布的内容对用户进行分类。但很多用户会是潜水用户,不会发布内容;或根据在网络中的关注关系而发布内容,例如,一个金融工作者在微博中如果互动较多的用户是亲戚和邻居,那么该用户则可能不会发布太多专业性太强的内容。因此,通过发布的内容不能准确地基于用户特征对用户进行分类。
技术实现思路
有鉴于此,本专利技术实施例提供了一种获取目标用户的方法及装置,以解决现有技术中通过用户发布的内容不能准确地基于用户特征对用户进行分类的问题。本专利技术实施例的第一方面,提供了一种获取目标用户的方法,包括:获取多个用户的社交账号所关注的各个认证用户的验证文本信息,并提取所获取到的各个验证文本信息中的关键词;将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类;根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户。本专利技术实施例的第二方面,提供了一种获取目标用户的装置,包括:信息获取模块,用于获取多个用户的社交账号所关注的各个认证用户的验证文本信息;关键词提取模块,用于提取所述信息获取模块获取到的各个验证文本信息中的关键词;分类模块,用于将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类;处理模块,用于根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户。本专利技术实施例相对于现有技术所具有的有益效果:本专利技术实施例,获取多个用户的社交账号所关注的各个认证用户的验证文本信息,并提取所获取到的各个验证文本信息中的关键词;将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类;根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户,由于通过用户的社交账号关注的各个认证用户的验证文本信息,对所有认证用户进行分类,并根据分类结果结合用户的社交账号关注的各个认证用户,确定用户是否为目标用户,从而能够更加准确地确定该用户是否为目标用户,而且过程简单。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的获取目标用户的方法的流程图;图2是本专利技术实施例提供的提取所获取到的各个验证文本信息中的关键词的实现流程图;图3是本专利技术实施例提供的将所提取的各个关键词分为多个簇类的实现流程图;图4是图1中步骤S103的实现流程图;图5是本专利技术实施例提供的获取目标用户的装置的结构框图;图6是本专利技术实施例提供的获取目标用户的装置的结构示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。图1示出了本专利技术实施例提供的获取目标用户的方法的实现流程,详述如下:步骤S101,获取多个用户的社交账号所关注的各个认证用户的验证文本信息,并提取所获取到的各个验证文本信息中的关键词。其中,社交账号包括但不限于微博账号、即时通信账号等。在社交网络平台上的关注网络可分为两类:A类是基于关系的亲友关注,通常连接的双方线下已相识,且互相关注;B类是跳出线下社交圈,基于个人兴趣的关注,以普通用户对名人(大多为认证账户)的关注为典型,通常为单向关注。A类关注的目的偏向于社交性的用户互动,而B类关注的目的偏向于订阅式的获取信息。所述验证文本信息为认证用户在社交平台上发布的关于该认证用户所涉及的领域(例如金融、体育、娱乐等领域)、行业、地址等信息,因此能够根据关注该认证用户的用户对该认证用户的领域、地址等信息比较关注、关心。本步骤中,可以通过爬虫方式获取多个用户关注的各个认证用户的认证信息,但并不以此为限。参见图2,一个实施例中,步骤S101中的所述提取所获取到的各个验证文本信息中的关键词,可以通过以下过程实现:步骤S201,按照预设要求对各个验证文本信息进行分词。具体的,可以采用多种分词方法对各个验证文本信息进行分词。本实施例中,所述分词方法可以包括Jieba分词方法、ICTCLAS分词方法等针对中文的分词方法,也可以包括针对非中文的分词方法,对此不作限定。例如,由于处理对象为中文,可以采用Jieba分词的精确模式进行中文分词。其中,Jieba分词包括对标点符号的特殊字符的过滤。对验证文本进行分词前,只需将各个验证文本中非标点符号的特殊字符串过滤掉即可。例如,不少认证用户会在认证信息中提到相关网址,因此可以将“http”、“www”等特殊字符串过滤掉。步骤S202,将对所有验证文本信息的分词结果进行去干除扰词处理。本步骤中,由于采用步骤S201中的分词方法进行分词后,很可能会出现频次高,但无法反映用户对应的兴趣、行业等信息的干扰词,例如,地理范围(例如,上海、北京、全国等)、名次(例如,最佳、第一等)等。由于所述干扰词无法反映用户对应的兴趣、行业等信息,因此需要去除掉干扰词。步骤S203,将经过所述去干除扰词处理后的分词结果中出现次数大于第一阈值的词组设定为关键词。其中,可以将去除掉干扰词以后的分词结果中的各个词组进行统计,并将在分词结果中的出现次数大于第一阈值的词组设定为关键词。本实施例中,第一阈值可以设置为3,当然也可以根据实际需要设置为其他数值。另外,还可以更新自定义词库Dictwordlist:若后续给聚类标注解释时发现部分分词错误,可以通过在自定义词库内添加词组及对应的权重的方法得到更正后的分词结果。步骤S102,将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类。参见图3,一个实施例中,步骤S102中的所述将所提取的各个关键词分为多个簇类,可以通过以下过程实现:步骤S301,计算各个所述关键词对应的向量。本步骤中,可以将各个关键词(本实施例中,关键词又可称为高频词)作为聚类的维度,每条认证信息分词后的文本可以通过tf-idf的方法转化成各个维度上的值,由此确立每条认证信息文本数据在多维空间中的位置。例如,以600个高频词,N条用户验证信息文本为例,文本在关键词fwi这个维度的分数为各个文本位置向量TextnArray=[Score(textn,fw1),Score(textn,fw2),…,Score(textn,fw600)],n=1,2,…,N。所有文本向量组成的文本矩阵如表1所示。表1所有文本向量组成的文本矩阵表1中,每个维度对应一个关键词,每个文本对应一个认证用户的验证文本信息。文本1在各个维度的向量为[0,0,0.70036,0,0.71379,0,0,0,…,本文档来自技高网...
获取目标用户的方法及装置

【技术保护点】
一种获取目标用户的方法,其特征在于,包括:获取多个用户的社交账号所关注的各个认证用户的验证文本信息,并提取所获取到的各个验证文本信息中的关键词;将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类;根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户。

【技术特征摘要】
1.一种获取目标用户的方法,其特征在于,包括:获取多个用户的社交账号所关注的各个认证用户的验证文本信息,并提取所获取到的各个验证文本信息中的关键词;将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类;根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户。2.根据权利要求1所述的获取目标用户的方法,其特征在于,所述提取所获取到的各个验证文本信息中的关键词包括:按照预设要求对各个验证文本信息进行分词;将对所有验证文本信息的分词结果进行去干除扰词处理;将经过所述去干除扰词处理后的分词结果中出现次数大于第一阈值的词组设定为关键词。3.根据权利要求2所述的获取目标用户的方法,其特征在于,所述将所提取的各个关键词分为多个簇类包括:计算各个所述关键词对应的向量;根据各个所述关键词对应的向量,将各个所述关键词分为多个所述簇类,每个所述簇类中的各个关键词到对应的簇类中心的距离的平均值小于第二阈值。4.根据权利要求3所述的获取目标用户的方法,其特征在于,每个所述簇类对应一个标识;所述根据所述多个簇类对所有的认证用户进行分类具体为:根据从每个所述认证用户的验证文本中提取出的各个关键词对应的簇类,为每个所述认证用户设置相应的标识。5.根据权利要求4所述的获取目标用户的方法,其特征在于,所述根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户包括:获取所述用户的社交账号所关注的各个认证用户的标识,以及与预设标识相匹配的认证用户的标识的匹配个数;根据所述用户的社交账号所关注的所有认证用户的个数和所述匹配个数,确定所述用户是否为目标用户。6.一...

【专利技术属性】
技术研发人员:王健宗黄章成吴天博肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1