【技术实现步骤摘要】
目标用户群体的确定方法及装置
本说明书一个或多个实施例涉及计算机
,尤其涉及一种目标用户群体的确定方法及装置。
技术介绍
传统技术中,在从海量用户中选取目标用户群体时,通常是先对该海量用户主动提供的信息进行人工审核,之后根据经人工审核后确定的目标信息,来进行上述选取操作。或者,预先创建目标名单或者词库,该目标名单或者词库中包含目标信息,之后通过将海量用户各自的文本信息与目标名单或者词库进行匹配,来进行上述选取操作。因此,需要提供一种更快速、更有效地确定目标用户群体的方案。
技术实现思路
本说明书一个或多个实施例描述了一种目标用户群体的确定方法及装置,可以更快速、更有效地确定目标用户群体。第一方面,提供了一种目标用户群体的确定方法,包括:获取全体用户群体;将所述全体用户群体划分为两个以上的子用户群体,其中,不同的子用户群体分别对应不同的文本信息;根据各个子用户群体对应的文本信息的筛选条件,从所述各个子用户群体中筛选出对应的候选用户群体,得到两个以上的候选用户群体;对每个候选用户群体,将对应的文本信息与关键词库中的关键词进行精确匹配,若匹配成功,则确定所述文本信息的匹配分数;合并所述两个以上的候选用户群体,得到核心用户群体;根据所述核心用户群体中用户的各类文本信息的匹配分数,从所述核心用户群体中选取种子用户;分别计算所述种子用户的每类文本信息与所述全体用户群体中除所述种子用户外的其它用户的该类文本信息的相似度;根据所述相似度,从所述其它用户中选取扩展用户;将所述扩展用户扩充到所述核心用户群体,从而得到目标用户群体。第二方面,提供了一种目标用户群体的确定装置, ...
【技术保护点】
一种目标用户群体的确定方法,其特征在于,包括:获取全体用户群体;将所述全体用户群体划分为两个以上的子用户群体,其中,不同的子用户群体分别对应不同的文本信息;根据各个子用户群体对应的文本信息的筛选条件,从所述各个子用户群体中筛选出对应的候选用户群体,得到两个以上的候选用户群体;对每个候选用户群体,将对应的文本信息与关键词库中的关键词进行精确匹配,若匹配成功,则确定所述文本信息的匹配分数;合并所述两个以上的候选用户群体,得到核心用户群体;根据所述核心用户群体中用户的各类文本信息的匹配分数,从所述核心用户群体中选取种子用户;分别计算所述种子用户的每类文本信息与所述全体用户群体中除所述种子用户外的其它用户的该类文本信息的相似度;根据所述相似度,从所述其它用户中选取扩展用户;将所述扩展用户扩充到所述核心用户群体,从而得到目标用户群体。
【技术特征摘要】
1.一种目标用户群体的确定方法,其特征在于,包括:获取全体用户群体;将所述全体用户群体划分为两个以上的子用户群体,其中,不同的子用户群体分别对应不同的文本信息;根据各个子用户群体对应的文本信息的筛选条件,从所述各个子用户群体中筛选出对应的候选用户群体,得到两个以上的候选用户群体;对每个候选用户群体,将对应的文本信息与关键词库中的关键词进行精确匹配,若匹配成功,则确定所述文本信息的匹配分数;合并所述两个以上的候选用户群体,得到核心用户群体;根据所述核心用户群体中用户的各类文本信息的匹配分数,从所述核心用户群体中选取种子用户;分别计算所述种子用户的每类文本信息与所述全体用户群体中除所述种子用户外的其它用户的该类文本信息的相似度;根据所述相似度,从所述其它用户中选取扩展用户;将所述扩展用户扩充到所述核心用户群体,从而得到目标用户群体。2.根据权利要求1所述的方法,其特征在于,所述文本信息包括:收货地址、通讯录、无线网络名称、全球定位系统GPS定位点对应的公司类地名、互联网协议IP地址所对应的公司名称、多媒体访问控制Mac地址所对应的公司名称、社交软件的备注名称、社交软件的群名称、即时通讯工具的备注名称以及即时通讯工具的群名称中的若干个。3.根据权利要求1所述的方法,其特征在于,当所述文本信息为收货地址时,所述收货地址的筛选条件包括以下一种或多种:收货地址为用户本人使用、收货地址在近期被用户使用过以及收货地址归属于公司类地址。4.根据权利要求3所述的方法,其特征在于,所述将对应的文本信息与关键词库中的关键词进行精确匹配,若匹配成功,则确定所述文本信息的匹配分数,包括:从所述收货地址中提取关键性门址;将所述关键性门址与关键词库中的关键词进行精确匹配;若匹配成功,则根据在预设时间段内所述收货地址的使用次数,确定对应的交易天数;将所述交易天数作为所述收货地址的匹配分数。5.根据权利要求1所述的方法,其特征在于,当所述文本信息为通讯录时,所述通讯录包括联系人的标注信息及对应的电话号码;所述通讯录的筛选条件包括以下一种或多种:通讯录所属用户的电话号码为所述用户本人使用以及所述电话号码包含在其它通讯录中。6.根据权利要求5所述的方法,其特征在于,所述将对应的文本信息与关键词库中的关键词进行匹配,若匹配成功,则确定所述文本信息的匹配分数,包括:从所述通讯录中提取联系人的标注信息;从所述标注信息中去除不相关词语,所述不相关词语包括联系人的姓名、昵称以及其它无关称谓;将去除不相关词语后的标注信息与关键词库中的关键词进行精确匹配;若匹配成功,则确定标注信息中包含所述通讯录所属用户的其它通讯录的个数;将所述其它通讯录的个数作为所述通讯录的匹配分数。7.根据权利要求5或6所述的方法,其特征在于,所述分别计算所述种子用户的每类文本信息与所述全体用户群体中除所述种子用户外的其它用户的该类文本信息的相似度,包括:将所述通讯录对应的子用户群体的通讯录中联系人的标注信息进行分词处理,得到全量词语集合;确定所述全量词语集合中各个词语的相关词语;从所述全量词语集合中确定出与所述种子用户的通讯录对应的种子词语的集合;所述种子词语具有对应的相关词语;结合所述种子词语的集合,统计各个种子词语的词频;根据所述各个种子词语的词频以及相关词语,确定扩展词语;将所述扩展词语扩充到所述关键词库中;从与所述其它用户的通讯录对应的词语中选取出现在扩充后的关键词库中的目标词语;计算所述目标词语与所述种子词语的相似度;将所述相似度作为所述种子用户的通讯录与所述其它用户的通讯录的相似度。8.根据权利要求7所述的方法,其特征在于,所述计算所述目标词语与所述种子词语的相似度,包括:结合所述全量词语集合,统计所述目标词语的词频;根据词向量化算法,分别将所述目标词语以及所述种子词语表示为对应的词向量;根据所述目标词语的词频以及对应的词向量,确定所述目标词语的用户向量,并根据所述种子词语的词频以及对应的词向量,确定所述种子词语的用户向量;根据所述目标词语的用户向量以及所述种子词语的用户向量,确定所述目标词语与所述种子词语的相似度。9....
【专利技术属性】
技术研发人员:汪昊宇,彭际群,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。