种子人群扩散方法、装置以及信息投放系统制造方法及图纸

技术编号:18446037 阅读:25 留言:0更新日期:2018-07-14 10:50
本发明专利技术提供一种种子人群扩散方法、装置以及信息投放系统。所述方法包括如下步骤:获取正例样本集;获取负例样本集;将所述正例样本集中的每个正例样本与其对应的正例样本特征拼接形成正例样本特征向量,将所述负例样本集中的每个负例样本与其对应的负例样本特征拼接形成负例样本特征向量;根据目标群体指数、信息增益和逻辑回归模型中的至少二个从所述正例样本特征向量和所述负例样本特征向量中获取目标样本特征集;将所述目标样本特征集发送给决策端,接收所述决策端的反馈信息,并根据所述反馈信息判断是否对所述种子人群进行扩散。本发明专利技术能够有效评价种子人群质量,避免质量不佳的种子人群的扩散。

Seed population diffusion method, device and information delivery system

The invention provides a seed population diffusion method, a device and an information delivery system. The method includes the following steps: obtaining the sample set of the positive example; obtaining the negative example sample set; splicing each positive example sample of the sample sample set with the corresponding sample feature to form a positive example sample feature vector, splicing each negative example sample of the negative example sample and its corresponding negative example sample feature to form the negative. A sample feature vector is given; a target sample feature set is obtained from at least two of the target sample feature vectors and the negative example sample feature vectors in the target population index, the information gain and the logical regression model; the target sample feature set is sent to the decision end, and the feedback information of the decision end is received and based on the feedback information. Feedback information is used to determine whether the seed population is diffused. The invention can effectively evaluate the quality of the seed population and avoid the proliferation of the seed population with poor quality.

【技术实现步骤摘要】
种子人群扩散方法、装置以及信息投放系统
本专利技术属于互联网信息处理
,尤其涉及一种种子人群扩散方法、装置以及信息投放系统。
技术介绍
随着互联网技术的发展,各种即时通信和社交应用也如雨后春笋般应运而生。即时通信和社交应用中所涉及的大量用户数据,比如用户的喜好、年龄和需求等等,对于信息的投放,如广告的投放有着极大的意义。现有技术方案中,将在特定业务场景下收集到的,对产品、服务具有相同需求和兴趣的人群称之为种子人群,种子人群通常数量不多,一般在十万以下;与种子人群具有相同特征的人群称之为扩展人群,扩展人群的数量通常为种子人群的数倍。一般的,进行广告投放时,先通过种子人群找到扩展人群,其后将扩展人群作为广告投放的目标用户,当有多个种子人群时,会先找到各个种子人群的扩展人群,然后会取各个种子人群的扩展人群的交集作为最终广告投放的目标用户。在对现有技术的研究和实践过程中,本专利技术的专利技术人发现,由于现有技术中选取了所有种子人群的扩展人群的交集作为广告投放的目标用户,当种子人群较多时,会导致数据计算量较为庞大;并且,种子人群中可能会存在有冗余或可信度低等非优质种子用户,会对目标用户的确定造成影响,导致广告投放效果不佳的问题。
技术实现思路
为了解决现有技术中存在问题,本专利技术实施例提供一种种子人群扩散方法、装置以及信息投放系统。所述技术方案如下:第一方面,提供一种种子人群扩散方法,所述方法包括如下步骤:获取种子人群信息,将所述种子人群作为正例样本集,所述正例样本集包括多个正例样本;获取非种子人群信息,将所述非种子人群作为负例样本集,所述负例样本集包括多个负例样本;将所述正例样本集中的每个正例样本与其对应的正例样本特征拼接形成正例样本特征向量,将所述负例样本集中的每个负例样本与其对应的负例样本特征拼接形成负例样本特征向量;根据目标群体指数(TGI)、信息增益(IG)和逻辑回归模型(LR)中的至少二个从所述正例样本特征向量和所述负例样本特征向量中获取目标样本特征集;将所述目标样本特征集发送给决策端,接收所述决策端的反馈信息,并根据所述反馈信息判断是否对所述种子人群进行扩散;若是,扩散所述种子人群。第二方面,提供一种种子人群扩散装置,所述装置包括如下模块:正例样本获取模块,用于获取种子人群信息,将所述种子人群作为正例样本集,所述正例样本集包括多个正例样本;负例样本获取模块,用于获取非种子人群信息,将所述非种子人群作为负例样本集,所述负例样本集包括多个负例样本;样本特征拼接模块,用于将所述正例样本集中的每个正例样本与其对应的正例样本特征拼接形成正例样本特征向量,将所述负例样本集中的每个负例样本与其对应的负例样本特征拼接形成负例样本特征向量;目标样本特征获取模块,用于根据目标群体指数(TGI)、信息增益(IG)和逻辑回归模型(LR)中的至少二个从所述正例样本特征向量和所述负例样本特征向量中获取目标样本特征集;扩散判断模块,用于将所述目标样本特征集发送给决策端,接收所述决策端的反馈信息,并根据所述反馈信息判断是否对所述种子人群进行扩散。第三方面,提供一种信息投放系统,所述系统包含前述的种子人群扩散装置。本专利技术能够达到的有益效果:通过目标群体指数(TGI)、信息增益(IG)和逻辑回归模型(LR)实现目标特征集合的获取,并基于目标特征集合可以实现对于种子人群质量的有效评价,能够避免质量不佳的种子人群的扩散。附图说明下面结合附图对本专利技术的具体实施方式作进一步详细的说明;图1是本专利技术实施例提供的一种实施环境的示意图。图2是本专利技术实施例提供的种子人群扩散方法流程示意图。图3是本专利技术实施例提供的种子人群扩散方法子流程示意图。图4是本专利技术实施例提供的种子人群扩散方法子流程示意图。图5是本专利技术实施例提供的种子人群扩散方法子流程示意图。图6是本专利技术实施例提供的种子人群扩散方法子流程示意图。图7是本专利技术实施例提供的种子人群扩散装置原理框图。图8是本专利技术实施例提供的种子人群扩散装置原理框图。图9是本专利技术实施例提供的实施终端结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。本专利技术实施例提供了一种种子人群扩散系统,请参考图1,该图为本专利技术实施例所提供的信息的投放系统的应用场景示意图,该应用场景中,包括数据库,数据库主要用于获取各种收集平台收集获得的海量候选人群,该人群也称为大盘用户。种子人群是从大盘用户中获取的样本人群,种子人群是指在特定业务场景下收集到的,例如对产品、服务具有相同需求和兴趣的人群。种子人群由系统用户设定的目标条件在大盘用户中选择得到。种子人群扩散服务器则是系统中用于根据种子人群的特征在大盘用户中寻找与种子人群具有相似特征的人群的装置。前端服务器用于接收来自各个系统的信息,其还可用于将指定信息投放到目标人群。决策服务器用于对种子人群扩散服务器获得的种子人群特征进行评价和判断,并获得种子人群是否适合进行扩散的决策。请参考图2,其示出了本专利技术一个实施例提供的种子人群扩散方法,该方法可应用于图1所示实施环境中。该方法可以包括如下步骤:S210,获取种子人群信息,将所述种子人群作为正例样本集,所述正例样本集包括多个正例样本。本专利技术实施例中种子人群是指在特定业务场景下收集到的,可以通过各个信息平台或者数据库获得的,并且存储在预设数据库中。在一个示例中种子人群是对某种产品或服务具有相同需求和兴趣的人群,种子人群通常数量不多,一般在十万以下。种子人群可以从预设数据库中获取,其中该预设数据库可以通过各类信息(如广告)的信息主上传,或从对应的交易平台中获取数据。由于种子人群是对产品、服务具有相同需求和兴趣的人群,将这类人群作为正例样本集。S220,获取非种子人群信息,将所述非种子人群作为负例样本集,所述负例样本集包括多个负例样本。将所述种子人群作为正例样本是为了对种子人群进行分析,需要对该种子人群进行分析,在分析过程中,还可能需要使用与种子人群相对的负例样本集。可以理解的是,想从大盘用户里寻找出与种子人群相似的用户群,是将此问题转化为一个经典的二分类(0,1)问题,也就是输出结果只有两种类别,例如:(感兴趣/不感兴趣)、(喜欢/不喜欢)、(垃圾邮件/非垃圾邮件)、(敌军/非敌军)等。其中,二分类模型中训练模型所用的样本数据中被标签化的样本称为正例样本,二分类模型中训练模型所用的样本数据中未被标签化的样本称为负例样本,里面却包含了潜在的标签样本。例如,假设该种子人群是对某品牌平板电脑感兴趣的用户,这时的种子人群用户被定义为分类模型训练学习的正样本集,此处称为第一正例样本集。从大盘用户,即前述预设数据库中候选种子人群中找出对某品牌平板电脑不感兴趣的用户作为负样本供模型训练学习,此处将负样本称为第一负例样本集,在选择过程中,第一负例样本集的样本数量可以与第一正例样本集的数量相同,也本文档来自技高网
...

【技术保护点】
1.一种种子人群扩散方法,其特征在于,所述方法包括如下步骤:获取种子人群信息,将所述种子人群作为正例样本集,所述正例样本集包括多个正例样本;获取非种子人群信息,将所述非种子人群作为负例样本集,所述负例样本集包括多个负例样本;将所述正例样本集中的每个正例样本与其对应的正例样本特征拼接形成正例样本特征向量,将所述负例样本集中的每个负例样本与其对应的负例样本特征拼接形成负例样本特征向量;根据目标群体指数(TGI)、信息增益(IG)和逻辑回归模型(LR)中的至少二个从所述正例样本特征向量和所述负例样本特征向量中获取目标样本特征集;将所述目标样本特征集发送给决策端,接收所述决策端的反馈信息,并根据所述反馈信息判断是否对所述种子人群进行扩散;若是,扩散所述种子人群。

【技术特征摘要】
1.一种种子人群扩散方法,其特征在于,所述方法包括如下步骤:获取种子人群信息,将所述种子人群作为正例样本集,所述正例样本集包括多个正例样本;获取非种子人群信息,将所述非种子人群作为负例样本集,所述负例样本集包括多个负例样本;将所述正例样本集中的每个正例样本与其对应的正例样本特征拼接形成正例样本特征向量,将所述负例样本集中的每个负例样本与其对应的负例样本特征拼接形成负例样本特征向量;根据目标群体指数(TGI)、信息增益(IG)和逻辑回归模型(LR)中的至少二个从所述正例样本特征向量和所述负例样本特征向量中获取目标样本特征集;将所述目标样本特征集发送给决策端,接收所述决策端的反馈信息,并根据所述反馈信息判断是否对所述种子人群进行扩散;若是,扩散所述种子人群。2.根据权利要求1所述的方法,其特征在于,所述获取非种子人群信息,将所述非种子人群作为负例样本集步骤包括:排除大盘用户中的所述种子人群得到非种子大盘用户;从所述非种子大盘用户中选取与所述种子人群等量的人群作为非种子人群;将所述非种子人群作为负例样本集。3.根据权利要求1所述的方法,其特征在于,所述将所述正例样本集中的每个正例样本与其对应的正例样本特征拼接形成正例样本特征向量,将所述负例样本集中的每个负例样本与其对应的负例样本特征拼接形成负例样本特征向量步骤包括:获取所述正例样本的正例样本特征,将所述正例样本特征转换为正例样本特征向量,将所述正例样本和其对应的正例样本特征向量匹配拼接,形成新的正例样本特征向量;获取所述负例样本的负例样本特征,将所述负例样本特征转换为负例样本特征向量,将所述负例样本和其对应的负例样本特征向量匹配拼接,形成新的负例样本特征向量。4.根据权利要求1所述的方法,其特征在于,所述根据目标群体指数(TGI)、信息增益(IG)和逻辑回归模型(LR)中的至少二个从所述正例样本特征向量和所述负例样本特征向量中获取目标样本特征集步骤包括:获取基于所述目标群体指数(TGI)计算得到的第一目标样本特征集、基于信息增益(IG)计算得到的第二目标样本特征集、基于逻辑回归模型(LR)得到的第三目标样本特征集;对所述第一目标样本特征集、第二目标样本特征集、第三目标样本特征集中的至少二个进行特征重排,得到所述目标样本特征。5.根据权利要求4所述的方法,其特征在于,基于所述目标群体指数(TGI)计算得到第一目标样本特征集包括如下步骤:计算正例样本的样本特征的目标群体指数(TGI);选择目标群体指数(TGI)最大的第一数量的样本特征作为第一目标样本特征集。6.根据权利要求4所述的方法,其特征在于,基于信息增益(IG)计算得到的第二目标样本特征包括如下步骤:计算正例样本和负例样本的样本特征的信息增益(IG);选择信息增益(IG)最大的第二数量的样本特征作为第二目标样本特征集。7.根据权利要求4所述的方法,其特征在于,基于逻辑回归模型得到第三目标样本特征包括如下步骤:基于所述正例样本和所述负例样本训练逻辑回归模型(LR);使用所述逻辑回归模型(LR)计算所述正例样本中样本特征的权重值;选择所述权重值最大的第三数量的样本特征作为第三目标样本集。8.根据权利要求1所述的方法,其特征在于,扩散所述种子人群包括:对所述正例样本集和所述负例样集本进行训练,获得扩散模型;使用所述扩散模型对大盘用户进行预测,获得预测结果;根据所述预测结果获得扩散人群。9.一种种子人群扩散装置,其特征在于,所述装置包括如下模块:正例样本获取模块,用于获取种子人群信息,将所述种子人群作为正例样...

【专利技术属性】
技术研发人员:肖映鹏朱张斌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1