一种数据分析方法及装置制造方法及图纸

技术编号：15330919 阅读：159 留言：0更新日期：2017-05-16 14:17

本发明专利技术实施例公开了一种数据分析方法及装置，涉及互联网技术领域，能够修正预估误差，提高所推送数据的准确性。本发明专利技术的方法包括：提取推送服务器的日志信息，并根据日志信息获取两个互斥的样本集合，在各样本集合的样本元素中包括了至少两个维度的信息和互斥信息，同一个样本集合中的样本元素具有相同内容的互斥信息；利用两个互斥的样本集合，通过逻辑回归在线学习算法更新各个维度的权重值；根据更新后的各个维度的权重值，确定推送结果。本发明专利技术适用于提高推送内容的准确率。

Data analysis method and device

The embodiment of the invention discloses a data analysis method and a device, which relates to the technical field of the Internet, and can correct the prediction error and improve the accuracy of the push data. The method of the invention comprises: extracting push server log information sent, and according to the log information two exclusive sample set in the sample elements in each sample set including at least two dimensions of information and exclusive information, the same sample set of sample elements have the same content with exclusive information collection; the use of two mutually exclusive samples by weight logic regression on-line learning algorithm to update the various dimensions of value; according to the weight of each dimension of the updated value, determine the push results. The invention is suitable for improving the accuracy of push content.

全部详细技术资料下载

【技术实现步骤摘要】
一种数据分析方法及装置
本专利技术涉及互联网
，尤其涉及一种数据分析方法及装置。
技术介绍
随着互联网技术，尤其是在线搜索技术的发展，各大电子商务广告平台都已推出各自的广告推送方案。由于商务信息错综复杂，往往在搜索业务中需要涉及地域、人文、用户群等多种因素，为了提高广告推送结果的准确性，需要对用户点击率进行分析及预估。在目前所采用的点击率预估系统中，主要通过对用户输入的检索词进行文本相似计算，再根据预设的打分规则，确定各个候选广告的得分，根据得分确定推送的优先级。但是，在实际应用中，电子商务广告平台每天都要处理海量用户检索数据，并且用户的检索需求往往会受到市场动态变化的影响，而预先设置的打分规则始终难以契合用户的检索目标，导致最终向用户推送的广告都会与用户的预期出现较大误差。例如：用户搜索“手机”时展现候选广告A、B，其中，根据文本相似度和预设的打分规则，广告A得分高于广告B，广告A展现的位次必然优于广告B。但是由于临时促销活动或是微信营销等快速营销手段，广告B更符合用户的检索需求并且更多的用户选择点击广告B。由此可见，通过现有技术中的文本相似计算和打分规则设置来推送广告的方案，由于预估误差较大，所推送广告的准确性较低。
技术实现思路
本专利技术的实施例提供一种数据分析方法及装置，能够修正预估误差，提高所推送数据的准确性。为达到上述目的，本专利技术的实施例采用如下技术方案：第一方面，本专利技术的实施例提供一种数据分析方法，包括：提取推送服务器的日志信息，并根据所述日志信息获取两个互斥的样本集合，在各样本集合的样本元素中包括了至少两个维度的信息和互斥信息，...
一种数据分析方法及装置

【技术保护点】
一种数据分析方法，其特征在于，包括：提取推送服务器的日志信息，并根据所述日志信息获取两个互斥的样本集合，在各样本集合的样本元素中包括了至少两个维度的信息和互斥信息，同一个样本集合中的样本元素具有相同内容的互斥信息；利用所述两个互斥的样本集合，通过逻辑回归在线学习算法更新各个维度的权重值；根据更新后的各个维度的权重值，确定推送结果。

【技术特征摘要】
1.一种数据分析方法，其特征在于，包括：提取推送服务器的日志信息，并根据所述日志信息获取两个互斥的样本集合，在各样本集合的样本元素中包括了至少两个维度的信息和互斥信息，同一个样本集合中的样本元素具有相同内容的互斥信息；利用所述两个互斥的样本集合，通过逻辑回归在线学习算法更新各个维度的权重值；根据更新后的各个维度的权重值，确定推送结果。2.根据权利要求1所述的方法，其特征在于，在一个样本集合中包括了至少两个维度的商务信息和用户点击信息，所述商务信息的类型至少包括：用户编码、商品编码、用户检索词和广告拍卖词，所述用户点击信息用于表示用户是否点击所展现的广告。3.根据权利要求1所述的方法，其特征在于，所述利用所述两个互斥的样本集合，通过逻辑回归在线学习算法更新各个维度的权重值，包括：根据所述两个互斥的样本集合，获取第一样本集合的点击值和第二样本集合的点击值其中所述两个互斥的样本集合表示为(Iclick，Inoclick)，x表示一个维度的标识值，w表示这个这一个维度对整体点击的影响系数；根据所述第一样本集合的点击值和所述第二样本集合的点击值获取损失函数lt(wt)＝ytlogpt+(1-yt)log(1-pt)，并根据所述损失函数获取梯度函数grad＝pt-yt，其中yt表示实际点击值，t表示样本的编号1-yt表示实际未点击值。根据所述梯度函数更新各个维度的权重值。4.根据权利要求3所述的方法，其特征在于，所述根据所述梯度函数更新各个维度的权...

【专利技术属性】
技术研发人员：张研，杨冠军，蒋程诚，
申请(专利权)人：苏宁云商集团股份有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人