基于非线性最小二乘模型测算网吧安装率的方法技术

技术编号:19964358 阅读:16 留言:0更新日期:2019-01-03 12:53
本发明专利技术公开了基于非线性最小二乘模型测算网吧安装率的方法,包含步骤一、设定网吧安装的客户端分布随机,来上网的人无成群结队,座位的选择较随机;步骤二、通过实时打点的方式每隔固定时间采集一次网吧在线客户端检测数和安装数,经过n次采集后,获取样本量为n的网吧在线检测数和安装数的数据,绘制安装数样本分布图并计算安装数样本分布的偏度值skew,其中n>2;步骤三、安装数样本分布图和计算出的安装数样本分布偏度值skew,了解网吧在线客户端检测数、安装数的分布情况,判断安装数是否存在异常,需要处理;步骤四、使用非线性最小二乘模型,在参数约束的情况下,估算网吧安装率。本发明专利技术具有计算结果稳健,估算的网吧安装率更真实。

A Method of Calculating Installation Rate of Internet Bar Based on Nonlinear Least Square Model

The invention discloses a method for calculating the installation rate of Internet cafes based on the non-linear least squares model, which includes steps 1: setting the random distribution of the clients installed in Internet cafes, no group of people coming to the internet, and the random choice of seats; step 2: collecting the detection number and installation number of Internet cafes online clients every fixed time by real-time dotting, and acquiring them after n times of acquisition. Sample size n of online detection and installation number of Internet cafes data, draw the installation number sample distribution map and calculate the skew of installation number sample distribution, where n > 2; Step 3, installation number sample distribution map and calculated installation number sample distribution skew, understand the distribution of online client detection number and installation number of Internet cafes, determine whether there are any abnormalities in installation number, need Step 4: Estimate the installation rate of Internet cafes under the constraints of parameters by using the non-linear least squares model. The invention has the advantages of robust calculation results and more real estimated installation rate of Internet cafes.

【技术实现步骤摘要】
基于非线性最小二乘模型测算网吧安装率的方法
本专利技术涉及一种软件安装率的测算技术,具体的说是涉及基于非线性最小二乘模型测算网吧安装率的方法。
技术介绍
客户端是否安装软件一般是通过路由器对客户端进行监控,先根据设定的规则通过UDP广播包通知客户端,当客户端收到广播包后回应约定的消息给路由器,再由路由器根据客户端的回应来判断是否安装,路由器每隔一定的时间把客户端在线总数和客户端安装数的统计信息上传到WEB管理平台,并将日志数据存放到Hadoop平台中用于算法处理。软件安装率真实值=总客户端安装数/总客户端数,因数据采集只能监控实时在线安装数和在线客户端数,并不能反映处软件的真实安装率,故而每一次采集数据计算得到的安装率(即在线安装数/在线客户端数)仅是对真实安装率的估计值。当需要获得软件真实安装率时,通常是通过多次采集数据的安装率的平均值来代表真实安装率的,根据点估计原理,只有在抽样次数足够多时,样本估计的平均值才会接近于真实值。然而,在实际应用中,通常会因软件bug、杀毒软件拦截、多镜像等原因导致路由器采集的数据异常,使得安装率极易受到极大或极小时点安装率的影响,从而导致计算结果不稳健。并且在总的客户端中还会包含部分不能安装软件的白名单,如摄像头、无盘服务器、交换机之类的,若存在wifi直连路由器的特殊情况,检测的客户端数还会包含手机数,故软件的安装率应为在线安装数/剔除白名单和手机数后的在线客户端数。对于特定网吧,白名单的个数相对固定,而手机数相对不可控,手机数会随着上网人数变化而波动,因手机问题较复杂且属于特殊情况,故不考虑手机数问题,只需剔除白名单的影响。但在实时监控中,在线白名单个数也是未知,使用平均值的方式很难去剔除白名单,估计的安装率具有系统偏差。故基于上述不稳健和白名单两点原因,本专利技术提出了一种使用非线性最小二乘模型来解决此类问题。
技术实现思路
本专利技术的目的在于提供一种基于非线性最小二乘模型测算网吧安装率的方法,用以解决
技术介绍
中存在的问题。为实现上述目的,本专利技术采取的技术方案为:基于非线性最小二乘模型测算网吧安装率的方法,包括如下步骤:步骤一、设定网吧安装的客户端分布随机,来上网的人无成群结队,座位的选择较随机;步骤二、通过实时打点的方式每隔固定时间采集一次网吧在线客户端检测数和安装数,经过n次采集后,获取样本量为n的网吧在线检测数和安装数的数据,绘制安装数样本分布图并计算安装数样本分布的偏度值skew,其中n>2;步骤三、根据步骤二的安装数样本分布图和计算出的安装数样本分布偏度值skew,了解网吧在线客户端安装数的样本分布情况,判断是否存在异常安装数需要处理的情况,并同时对安装数的取值变异个数不足、安装数最大值不大于1的网吧给予特殊赋值;其中,所述安装数的取值变异个数不足表示的是安装数的取值变异个数≤1;(1)当安装数的取值变异个数≤1时,给予网吧安装率赋值-1;(2)当安装数最大值≤1时,给予网吧安装率赋值0;(3)当安装数的取值变异个数>1且安装数最大值>1且无异常安装数的需处理时,直接使用非性最小二模型估算网吧安装率P;(4)当安装数的样本取值变异个数>1且安装数最大值>1且同时存在异常安装数的需处理时,先剔除异常安装数的样本值,然后观测是否存在需重新设置取值范围的特殊情况,即是否存在检测到的网吧安装数最大值<的上限10的情况;(4a)若检测到的安装数最大值<10时,在剔除异常安装数的样本值后,先将的上限改为检测到的安装数最大值,然后再使用非性最小二模型进行网吧安装率P估算;(4b)若检测到的安装数最大值≥10时,在剔除异常安装数的样本值后,即可使用非性最小二模型进行网吧安装率P估算;步骤四、使用非线性最小二乘模型:式中y表示网吧在线客户端检测数,x表示在线客户端安装数,表示白名单数,β表示安装数增加一个检测数增加的个数;在参数约束的情况下,通过最小化损失函数求得和β的估计值和估计得到的即代表白名单的最优估计值,估计得到的即代表网吧安装率的最优估计值,即进一步,步骤三中,剔除异常安装数的样本值的具体方法如下:(1)根据获取到的网吧安装数的样本分布图,计算网吧客户端安装数的样本分布偏度值skew,判断网吧安装数的样本分布是否出现极度右偏的情形,所述右偏表示偏度值skew>0时;(2)当偏度值0<skew<4时,不做处理;(3)当偏度值skew>4时,表示网吧安装数出现了极度右偏的情况,需进行极大值处理,即将网吧安装数99%分位数以上的样本值当作异常值剔除。进一步,步骤三中,所述白名单为不能安装网吧客户端软件的客户端设备,其数量少且打开的个数较固定,不会随一天24小时的变化而大幅波动;所述在线客户端安装数为检测到的网吧安装有客户端软件的电脑数,其能随一天24小时的网吧人数变化而变动;所述网吧在线客户端检测数由在线客户端安装、在线客户端未安装、白名单及手机数四部分组成。与现有技术相比,本专利技术的优点和有益效果是:采用非线性最小二乘模型进行安装率的测算,不仅避免了安装率极易受到极大或极小时点安装率的影响,保证了计算结果稳健,同时还剔除了白名单对安装率的影响,保证计算结果更趋近于客户端真实安装率,为实现实时监控网吧软件安装率提供更为可靠的技术途径。附图说明图1为安装数接近检测数时,监测到的某网吧安装数、检测数的实测时序图;图中:横坐标轴表示时间,其轴上的间隔点表示的是一天中从00:00至24:00中的某时间节点,纵坐标轴表示个数,其轴上的每个点表示的检测到的安装数、检测数个数;图中位于上方的曲线表示网吧客户端检测数随上网时间变化而变化的波动线,位于下方的曲线表示网吧客户端安装数随上网时间变化而变化的波动线;图2为基于图1中的某网吧安装数接近检测数时的散点图;图中:横坐标轴表示安装数,纵坐标轴表示检测数;图中的某个散点对应的横坐标轴、纵坐标轴的取值即表示某次监测中获取的安装数和检测数数据;图3为检测数大于安装数时,监测到的某网吧安装数、检测数的实测时序图;图中:横坐标轴表示时间,其轴上的间隔点表示的是一天中从00:00至24:00中的某时间节点,纵坐标轴表示个数,其轴上的每个点表示该时刻检测到的安装数、检测数的个数;图中位于上方的曲线表示网吧客户端检测数随上网时间变化而变化的波动线,位于下方的曲线表示网吧客户端安装数随上网时间变化而变化的波动线;图4为基于图3的检测数大于安装数时的散点图;图中:横坐标轴表示安装数,纵坐标轴表示检测数;图中的某个散点对应的横坐标轴、纵坐标轴的取值表示某次监测中获取的安装数和检测数数据。具体实施方式为使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合附图和具体实施方式,进一步阐述本专利技术是如何实施的。基于非线性最小二乘模型测算网吧安装率的方法,其特征在于,包括如下步骤:步骤一、设定网吧安装的客户端分布随机,来上网的人无成群结队,座位的选择较随机;步骤二、通过实时打点的方式每隔固定时间采集一次网吧在线客户端检测数和安装数,经过n次采集后,获取样本量为n的网吧在线检测数和安装数的数据,绘制安装数样本分布图并计算安装数样本分布的偏度值skew,其中n>2;步骤三、根据步骤二的安装数样本分布图和计算出的安装数样本分布偏度值skew,了解网吧在本文档来自技高网
...

【技术保护点】
1.基于非线性最小二乘模型测算网吧安装率的方法,其特征在于,包括如下步骤:步骤一、设定网吧安装的客户端分布随机,来上网的人无成群结队,座位的选择较随机;步骤二、通过实时打点的方式每隔固定时间采集一次网吧在线客户端检测数和安装数,经过n次采集后,获取样本量为n的网吧在线检测数和安装数的数据,绘制安装数样本分布图并计算安装数样本分布的偏度值skew,其中n>2;步骤三、根据步骤二的安装数样本分布图和计算出的安装数样本分布偏度值skew,了解网吧在线客户端安装数的样本分布情况,判断是否存在异常安装数需要处理的情况,并同时对安装数的取值变异个数不足、安装数最大值不大于1的网吧给予特殊赋值;其中,所述安装数的取值变异个数不足表示的是安装数的取值变异个数≤1;(1)当安装数的取值变异个数≤1时,给予网吧安装率赋值‑1;(2)当安装数最大值≤1时,给予网吧安装率赋值0;(3)当安装数的取值变异个数>1且安装数最大值>1且无异常安装数的需处理时,直接使用非性最小二模型估算网吧安装率P;(4)当安装数的样本取值变异个数>1且安装数最大值>1且同时存在异常安装数的需处理时,先剔除异常安装数的样本值,然后观测是否存在需重新设置...

【技术特征摘要】
1.基于非线性最小二乘模型测算网吧安装率的方法,其特征在于,包括如下步骤:步骤一、设定网吧安装的客户端分布随机,来上网的人无成群结队,座位的选择较随机;步骤二、通过实时打点的方式每隔固定时间采集一次网吧在线客户端检测数和安装数,经过n次采集后,获取样本量为n的网吧在线检测数和安装数的数据,绘制安装数样本分布图并计算安装数样本分布的偏度值skew,其中n>2;步骤三、根据步骤二的安装数样本分布图和计算出的安装数样本分布偏度值skew,了解网吧在线客户端安装数的样本分布情况,判断是否存在异常安装数需要处理的情况,并同时对安装数的取值变异个数不足、安装数最大值不大于1的网吧给予特殊赋值;其中,所述安装数的取值变异个数不足表示的是安装数的取值变异个数≤1;(1)当安装数的取值变异个数≤1时,给予网吧安装率赋值-1;(2)当安装数最大值≤1时,给予网吧安装率赋值0;(3)当安装数的取值变异个数>1且安装数最大值>1且无异常安装数的需处理时,直接使用非性最小二模型估算网吧安装率P;(4)当安装数的样本取值变异个数>1且安装数最大值>1且同时存在异常安装数的需处理时,先剔除异常安装数的样本值,然后观测是否存在需重新设置取值范围的特殊情况,即是否存在检测到的的上限10的情况;(4a)若检测到的安装数最大值<10时,在剔除异常安装数的样本值后,先将的上限改为检测到的安装数最大值,然后再使用非性最小二模型进行网吧安装率P估算;(4b)若检测...

【专利技术属性】
技术研发人员:赵丽丽祝小斌
申请(专利权)人:武汉文网亿联科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1