The invention provides a seed population diffusion method, a device and an information delivery system. The method includes the following steps: obtaining the sample set of the positive example; obtaining the negative example sample set; splicing each positive example sample of the sample sample set with the corresponding sample feature to form a positive example sample feature vector, splicing each negative example sample of the negative example sample and its corresponding negative example sample feature to form the negative. A sample feature vector is given; a target sample feature set is obtained from at least two of the target sample feature vectors and the negative example sample feature vectors in the target population index, the information gain and the logical regression model; the target sample feature set is sent to the decision end, and the feedback information of the decision end is received and based on the feedback information. Feedback information is used to determine whether the seed population is diffused. The invention can effectively evaluate the quality of the seed population and avoid the proliferation of the seed population with poor quality.
【技术实现步骤摘要】
种子人群扩散方法、装置以及信息投放系统
本专利技术属于互联网信息处理
,尤其涉及一种种子人群扩散方法、装置以及信息投放系统。
技术介绍
随着互联网技术的发展,各种即时通信和社交应用也如雨后春笋般应运而生。即时通信和社交应用中所涉及的大量用户数据,比如用户的喜好、年龄和需求等等,对于信息的投放,如广告的投放有着极大的意义。现有技术方案中,将在特定业务场景下收集到的,对产品、服务具有相同需求和兴趣的人群称之为种子人群,种子人群通常数量不多,一般在十万以下;与种子人群具有相同特征的人群称之为扩展人群,扩展人群的数量通常为种子人群的数倍。一般的,进行广告投放时,先通过种子人群找到扩展人群,其后将扩展人群作为广告投放的目标用户,当有多个种子人群时,会先找到各个种子人群的扩展人群,然后会取各个种子人群的扩展人群的交集作为最终广告投放的目标用户。在对现有技术的研究和实践过程中,本专利技术的专利技术人发现,由于现有技术中选取了所有种子人群的扩展人群的交集作为广告投放的目标用户,当种子人群较多时,会导致数据计算量较为庞大;并且,种子人群中可能会存在有冗余或可信度低等非优质种子用户,会对目标用户的确定造成影响,导致广告投放效果不佳的问题。
技术实现思路
为了解决现有技术中存在问题,本专利技术实施例提供一种种子人群扩散方法、装置以及信息投放系统。所述技术方案如下:第一方面,提供一种种子人群扩散方法,所述方法包括如下步骤:获取种子人群信息,将所述种子人群作为正例样本集,所述正例样本集包括多个正例样本;获取非种子人群信息,将所述非种子人群作为负例样本集,所述负例样本集包括多个负例 ...
【技术保护点】
1.一种种子人群扩散方法,其特征在于,所述方法包括如下步骤:获取种子人群信息,将所述种子人群作为正例样本集,所述正例样本集包括多个正例样本;获取非种子人群信息,将所述非种子人群作为负例样本集,所述负例样本集包括多个负例样本;将所述正例样本集中的每个正例样本与其对应的正例样本特征拼接形成正例样本特征向量,将所述负例样本集中的每个负例样本与其对应的负例样本特征拼接形成负例样本特征向量;根据目标群体指数(TGI)、信息增益(IG)和逻辑回归模型(LR)中的至少二个从所述正例样本特征向量和所述负例样本特征向量中获取目标样本特征集;将所述目标样本特征集发送给决策端,接收所述决策端的反馈信息,并根据所述反馈信息判断是否对所述种子人群进行扩散;若是,扩散所述种子人群。
【技术特征摘要】
1.一种种子人群扩散方法,其特征在于,所述方法包括如下步骤:获取种子人群信息,将所述种子人群作为正例样本集,所述正例样本集包括多个正例样本;获取非种子人群信息,将所述非种子人群作为负例样本集,所述负例样本集包括多个负例样本;将所述正例样本集中的每个正例样本与其对应的正例样本特征拼接形成正例样本特征向量,将所述负例样本集中的每个负例样本与其对应的负例样本特征拼接形成负例样本特征向量;根据目标群体指数(TGI)、信息增益(IG)和逻辑回归模型(LR)中的至少二个从所述正例样本特征向量和所述负例样本特征向量中获取目标样本特征集;将所述目标样本特征集发送给决策端,接收所述决策端的反馈信息,并根据所述反馈信息判断是否对所述种子人群进行扩散;若是,扩散所述种子人群。2.根据权利要求1所述的方法,其特征在于,所述获取非种子人群信息,将所述非种子人群作为负例样本集步骤包括:排除大盘用户中的所述种子人群得到非种子大盘用户;从所述非种子大盘用户中选取与所述种子人群等量的人群作为非种子人群;将所述非种子人群作为负例样本集。3.根据权利要求1所述的方法,其特征在于,所述将所述正例样本集中的每个正例样本与其对应的正例样本特征拼接形成正例样本特征向量,将所述负例样本集中的每个负例样本与其对应的负例样本特征拼接形成负例样本特征向量步骤包括:获取所述正例样本的正例样本特征,将所述正例样本特征转换为正例样本特征向量,将所述正例样本和其对应的正例样本特征向量匹配拼接,形成新的正例样本特征向量;获取所述负例样本的负例样本特征,将所述负例样本特征转换为负例样本特征向量,将所述负例样本和其对应的负例样本特征向量匹配拼接,形成新的负例样本特征向量。4.根据权利要求1所述的方法,其特征在于,所述根据目标群体指数(TGI)、信息增益(IG)和逻辑回归模型(LR)中的至少二个从所述正例样本特征向量和所述负例样本特征向量中获取目标样本特征集步骤包括:获取基于所述目标群体指数(TGI)计算得到的第一目标样本特征集、基于信息增益(IG)计算得到的第二目标样本特征集、基于逻辑回归模型(LR)得到的第三目标样本特征集;对所述第一目标样本特征集、第二目标样本特征集、第三目标样本特征集中的至少二个进行特征重排,得到所述目标样本特征。5.根据权利要求4所述的方法,其特征在于,基于所述目标群体指数(TGI)计算得到第一目标样本特征集包括如下步骤:计算正例样本的样本特征的目标群体指数(TGI);选择目标群体指数(TGI)最大的第一数量的样本特征作为第一目标样本特征集。6.根据权利要求4所述的方法,其特征在于,基于信息增益(IG)计算得到的第二目标样本特征包括如下步骤:计算正例样本和负例样本的样本特征的信息增益(IG);选择信息增益(IG)最大的第二数量的样本特征作为第二目标样本特征集。7.根据权利要求4所述的方法,其特征在于,基于逻辑回归模型得到第三目标样本特征包括如下步骤:基于所述正例样本和所述负例样本训练逻辑回归模型(LR);使用所述逻辑回归模型(LR)计算所述正例样本中样本特征的权重值;选择所述权重值最大的第三数量的样本特征作为第三目标样本集。8.根据权利要求1所述的方法,其特征在于,扩散所述种子人群包括:对所述正例样本集和所述负例样集本进行训练,获得扩散模型;使用所述扩散模型对大盘用户进行预测,获得预测结果;根据所述预测结果获得扩散人群。9.一种种子人群扩散装置,其特征在于,所述装置包括如下模块:正例样本获取模块,用于获取种子人群信息,将所述种子人群作为正例样...
【专利技术属性】
技术研发人员:肖映鹏,朱张斌,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。