The invention is applicable to the field of information processing technology, and provides a method and device for obtaining a target user. The method includes obtaining the target user: validation text information of each authenticated user access to multiple user account of social concern, and get to the extraction of text information in each validation keyword; each of the extracted keywords will be divided into multiple clusters, and according to the plurality of clusters of all authentication of users are classified according to the classification results for all; authentication of users, each user authentication combined with the user's account of social concern, to determine whether the user for the target users. The method of obtaining the target user can be more accurate to determine whether the user is a target user, and the process is simple.
【技术实现步骤摘要】
获取目标用户的方法及装置
本专利技术属于信息处理
,尤其涉及一种获取目标用户的方法及装置。
技术介绍
在通过社交网络研究用户分类时,往往根据用户在网络中发布的内容对用户进行分类。但很多用户会是潜水用户,不会发布内容;或根据在网络中的关注关系而发布内容,例如,一个金融工作者在微博中如果互动较多的用户是亲戚和邻居,那么该用户则可能不会发布太多专业性太强的内容。因此,通过发布的内容不能准确地基于用户特征对用户进行分类。
技术实现思路
有鉴于此,本专利技术实施例提供了一种获取目标用户的方法及装置,以解决现有技术中通过用户发布的内容不能准确地基于用户特征对用户进行分类的问题。本专利技术实施例的第一方面,提供了一种获取目标用户的方法,包括:获取多个用户的社交账号所关注的各个认证用户的验证文本信息,并提取所获取到的各个验证文本信息中的关键词;将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类;根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户。本专利技术实施例的第二方面,提供了一种获取目标用户的装置,包括:信息获取模块,用于获取多个用户的社交账号所关注的各个认证用户的验证文本信息;关键词提取模块,用于提取所述信息获取模块获取到的各个验证文本信息中的关键词;分类模块,用于将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类;处理模块,用于根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户。本专利技术实施例相对于现有技术所具 ...
【技术保护点】
一种获取目标用户的方法,其特征在于,包括:获取多个用户的社交账号所关注的各个认证用户的验证文本信息,并提取所获取到的各个验证文本信息中的关键词;将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类;根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户。
【技术特征摘要】
1.一种获取目标用户的方法,其特征在于,包括:获取多个用户的社交账号所关注的各个认证用户的验证文本信息,并提取所获取到的各个验证文本信息中的关键词;将所提取的各个关键词分为多个簇类,并根据所述多个簇类对所有的认证用户进行分类;根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户。2.根据权利要求1所述的获取目标用户的方法,其特征在于,所述提取所获取到的各个验证文本信息中的关键词包括:按照预设要求对各个验证文本信息进行分词;将对所有验证文本信息的分词结果进行去干除扰词处理;将经过所述去干除扰词处理后的分词结果中出现次数大于第一阈值的词组设定为关键词。3.根据权利要求2所述的获取目标用户的方法,其特征在于,所述将所提取的各个关键词分为多个簇类包括:计算各个所述关键词对应的向量;根据各个所述关键词对应的向量,将各个所述关键词分为多个所述簇类,每个所述簇类中的各个关键词到对应的簇类中心的距离的平均值小于第二阈值。4.根据权利要求3所述的获取目标用户的方法,其特征在于,每个所述簇类对应一个标识;所述根据所述多个簇类对所有的认证用户进行分类具体为:根据从每个所述认证用户的验证文本中提取出的各个关键词对应的簇类,为每个所述认证用户设置相应的标识。5.根据权利要求4所述的获取目标用户的方法,其特征在于,所述根据对所有认证用户的分类结果,并结合所述用户的社交账号关注的各个认证用户,确定所述用户是否为目标用户包括:获取所述用户的社交账号所关注的各个认证用户的标识,以及与预设标识相匹配的认证用户的标识的匹配个数;根据所述用户的社交账号所关注的所有认证用户的个数和所述匹配个数,确定所述用户是否为目标用户。6.一...
【专利技术属性】
技术研发人员:王健宗,黄章成,吴天博,肖京,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。