一种数据分析方法及装置制造方法及图纸

技术编号:15330919 阅读:159 留言:0更新日期:2017-05-16 14:17
本发明专利技术实施例公开了一种数据分析方法及装置,涉及互联网技术领域,能够修正预估误差,提高所推送数据的准确性。本发明专利技术的方法包括:提取推送服务器的日志信息,并根据日志信息获取两个互斥的样本集合,在各样本集合的样本元素中包括了至少两个维度的信息和互斥信息,同一个样本集合中的样本元素具有相同内容的互斥信息;利用两个互斥的样本集合,通过逻辑回归在线学习算法更新各个维度的权重值;根据更新后的各个维度的权重值,确定推送结果。本发明专利技术适用于提高推送内容的准确率。

Data analysis method and device

The embodiment of the invention discloses a data analysis method and a device, which relates to the technical field of the Internet, and can correct the prediction error and improve the accuracy of the push data. The method of the invention comprises: extracting push server log information sent, and according to the log information two exclusive sample set in the sample elements in each sample set including at least two dimensions of information and exclusive information, the same sample set of sample elements have the same content with exclusive information collection; the use of two mutually exclusive samples by weight logic regression on-line learning algorithm to update the various dimensions of value; according to the weight of each dimension of the updated value, determine the push results. The invention is suitable for improving the accuracy of push content.

【技术实现步骤摘要】
一种数据分析方法及装置
本专利技术涉及互联网
,尤其涉及一种数据分析方法及装置。
技术介绍
随着互联网技术,尤其是在线搜索技术的发展,各大电子商务广告平台都已推出各自的广告推送方案。由于商务信息错综复杂,往往在搜索业务中需要涉及地域、人文、用户群等多种因素,为了提高广告推送结果的准确性,需要对用户点击率进行分析及预估。在目前所采用的点击率预估系统中,主要通过对用户输入的检索词进行文本相似计算,再根据预设的打分规则,确定各个候选广告的得分,根据得分确定推送的优先级。但是,在实际应用中,电子商务广告平台每天都要处理海量用户检索数据,并且用户的检索需求往往会受到市场动态变化的影响,而预先设置的打分规则始终难以契合用户的检索目标,导致最终向用户推送的广告都会与用户的预期出现较大误差。例如:用户搜索“手机”时展现候选广告A、B,其中,根据文本相似度和预设的打分规则,广告A得分高于广告B,广告A展现的位次必然优于广告B。但是由于临时促销活动或是微信营销等快速营销手段,广告B更符合用户的检索需求并且更多的用户选择点击广告B。由此可见,通过现有技术中的文本相似计算和打分规则设置来推送广告的方案,由于预估误差较大,所推送广告的准确性较低。
技术实现思路
本专利技术的实施例提供一种数据分析方法及装置,能够修正预估误差,提高所推送数据的准确性。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,本专利技术的实施例提供一种数据分析方法,包括:提取推送服务器的日志信息,并根据所述日志信息获取两个互斥的样本集合,在各样本集合的样本元素中包括了至少两个维度的信息和互斥信息,同一个样本集合中的样本元素具有相同内容的互斥信息;利用所述两个互斥的样本集合,通过逻辑回归在线学习算法更新各个维度的权重值;根据更新后的各个维度的权重值,确定推送结果。结合第一方面,在第一方面的第一种可能的实现方式中,在一个样本集合中包括了至少两个维度的商务信息和用户点击信息,所述商务信息的类型至少包括:用户编码、商品编码、用户检索词和广告拍卖词,所述用户点击信息用于表示用户是否点击所展现的广告。结合第一方面,在第一方面的第二种可能的实现方式中,所述利用所述两个互斥的样本集合,通过逻辑回归在线学习算法更新各个维度的权重值,包括:根据所述两个互斥的样本集合,获取第一样本集合的点击值和第二样本集合的点击值其中所述两个互斥的样本集合表示为(Iclick,Inoclick),x表示一个维度的标识值,w表示这个这一个维度对整体点击的影响系数;根据所述第一样本集合的点击值和所述第二样本集合的点击值获取损失函数lt(wt)=ytlogpt+(1-yt)log(1-pt),并根据所述损失函数获取梯度函数grad=pt-yt,,其中yt表示实际点击值,t表示样本的编号1-yt表示实际未点击值。根据所述梯度函数更新各个维度的权重值。结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述根据所述梯度函数更新各个维度的权重值,包括:根据所述梯度函数、第一样本集合的点击值和第二样本集合的点击值获取各个样本元素的梯度值gt;根据欧几里得距离公式nt=nt-1+gt2,更新各个维度的欧几里得距离,并根据学习率公式更新各个维度的维度的学习率,nt-1表示第1条到第t-1条样本的梯度欧式距离和;根据更新后的学习率和欧几里得距离,更新各个维度的权重值其中,ω表示各个维度的权重值组成的权重集合,α和β分别表示人工调节参数。结合第一方面的第三种可能的实现方式,还包括:根据所述权重集合,获取各个维度的权重累加和,并通过逻辑回归公式得到各个样本元素的点击率值。第二方面,本专利技术的实施例提供一种数据分析方法,包括:读取模块,用于提取推送服务器的日志信息,并根据所述日志信息获取两个互斥的样本集合,在各样本集合的样本元素中包括了至少两个维度的信息和互斥信息,同一个样本集合中的样本元素具有相同内容的互斥信息;权重更新模块,用于利用所述两个互斥的样本集合,通过逻辑回归在线学习算法更新各个维度的权重值;推送模块,用于根据更新后的各个维度的权重值,确定推送结果。结合第二方面,在第二方面的第一种可能的实现方式中,在一个样本集合中包括了至少两个维度的商务信息和用户点击信息,所述商务信息的类型至少包括:用户编码、商品编码、用户检索词和广告拍卖词,所述用户点击信息用于表示用户是否点击所展现的广告。本专利技术实施例提供的数据分析方法及装置,能够对用户与推送服务器之间的数据交互的日志信息进行分析,并实时更新所推送数据的各个维度的权重值,再根据更新后的各个维度的权重值,重新确定推送结果。相对于现有技术,本专利技术能够实时更新权重值,从而修正预估误差,提高所推送数据的准确性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1a、1b为本专利技术实施例提供的具体应用场景的示意图;图2为本专利技术实施例提供的数据分析方法的流程图;图3为本专利技术实施例提供的数据分析装置的结构示意图。具体实施方式为使本领域技术人员更好地理解本专利技术的技术方案,下面结合附图和具体实施方式对本专利技术作进一步详细描述。下文中将详细描述本专利技术的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。本专利技术实施例中方法流程,可以由一种承担数据推送功能的服务器执行,在本实施例中可称为推送服务器,例如:如图1a所示为根据本专利技术一个具体实施方式的推送服务器。所述推送服务器包括输入单元、处理器单元、输出单元、通信单元、存储单元、外设单元等组件。这些组件通过一条或多条总线进行通信。本领域技术人员可以理解,图中示出的推送服务器的结构并不构成对本专利技术的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本专利技术实施方式中。输入单元用于实现操作人员本文档来自技高网
...
一种数据分析方法及装置

【技术保护点】
一种数据分析方法,其特征在于,包括:提取推送服务器的日志信息,并根据所述日志信息获取两个互斥的样本集合,在各样本集合的样本元素中包括了至少两个维度的信息和互斥信息,同一个样本集合中的样本元素具有相同内容的互斥信息;利用所述两个互斥的样本集合,通过逻辑回归在线学习算法更新各个维度的权重值;根据更新后的各个维度的权重值,确定推送结果。

【技术特征摘要】
1.一种数据分析方法,其特征在于,包括:提取推送服务器的日志信息,并根据所述日志信息获取两个互斥的样本集合,在各样本集合的样本元素中包括了至少两个维度的信息和互斥信息,同一个样本集合中的样本元素具有相同内容的互斥信息;利用所述两个互斥的样本集合,通过逻辑回归在线学习算法更新各个维度的权重值;根据更新后的各个维度的权重值,确定推送结果。2.根据权利要求1所述的方法,其特征在于,在一个样本集合中包括了至少两个维度的商务信息和用户点击信息,所述商务信息的类型至少包括:用户编码、商品编码、用户检索词和广告拍卖词,所述用户点击信息用于表示用户是否点击所展现的广告。3.根据权利要求1所述的方法,其特征在于,所述利用所述两个互斥的样本集合,通过逻辑回归在线学习算法更新各个维度的权重值,包括:根据所述两个互斥的样本集合,获取第一样本集合的点击值和第二样本集合的点击值其中所述两个互斥的样本集合表示为(Iclick,Inoclick),x表示一个维度的标识值,w表示这个这一个维度对整体点击的影响系数;根据所述第一样本集合的点击值和所述第二样本集合的点击值获取损失函数lt(wt)=ytlogpt+(1-yt)log(1-pt),并根据所述损失函数获取梯度函数grad=pt-yt,其中yt表示实际点击值,t表示样本的编号1-yt表示实际未点击值。根据所述梯度函数更新各个维度的权重值。4.根据权利要求3所述的方法,其特征在于,所述根据所述梯度函数更新各个维度的权...

【专利技术属性】
技术研发人员:张研杨冠军蒋程诚
申请(专利权)人:苏宁云商集团股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1