本发明专利技术提出了一种缓存区数据的预处理方法及系统,该方法可以精确预估用户查询时间、用户停留时间和用户查询内容,具体包括:记录构造基础数据,对基础数据预处理;建立最小二乘法模型模拟用户行为,预测用户工作时间和查询内容等参数之间的数据关系;存储从缓存输入接收的数据到缓存区,按照先进先出顺序从所述缓存区中输出。本发明专利技术的系统通过机器学习的方式,研究用户的行为准则,预测用户查询时间,每次工作时间和查询内容等,系统将根据预测信息提前设置缓存区数据,从而使用户的查询体验最优化,解决了电子商务数据处理系统中的精确预估用户工作时间、用户停留时间和用户查询内容的技术问题。
【技术实现步骤摘要】
本专利技术涉及一种数据的预处理方法及系统,尤其涉及一种应用于缓存区数据的预 处理方法及系统。
技术介绍
目前数据预处理技术主要是单纯的采用一种技术,而电子商务数据具有突发性强 和瞬间数据负责异常繁重等特点,单纯使用一种处理技术会造成很大的数据处理负担,不 能满足电子商务的需求。 先入先出队列是一种传统的按序执行方法,当缓存区数据满时,最先进入缓存区 的数据/指令先完成执行并离开缓存区,跟着才执行第二条数据/指令。是一种先进先出 的数据缓存器,他与普通存储器的区别是没有外部读写地址线,这样使用起来非常简单,但 缺点就是只能顺序写入数据,顺序的读出数据,其数据地址由内部读写指针自动加1完成, 不能像普通存储器那样可以由地址线决定读取或写入某个指定的地址,其不能精确预估在 电子商务数据系统中的用户查询时间、停留时间、查询内容;统计方法,利用数学统计方法, 统计数据的系统频率,把活跃用户信息优选存在缓存区,通过颜色寄存器缓存在缓存器内 与当前访问的物理地址的内存区域的颜色对应的缓存区中,能够提高缓存的使用效率,提 高系统性能,但该方法仍然无法满足电子商务数据的特点。 本专利技术提供了一种缓存区数据的预处理方法,该方法通过机器学习的方法,研究 用户的行为准则,预测用户查询时间,每次工作时间和查询内容等,系统将根据预测信息提 前设置缓存区数据,从而使用户的查询体验最优化。
技术实现思路
本专利技术实施例提供了一种缓存区数据的预处理方法,该方法通过机器学习的方 法,研究用户的行为准则,预测用户查询时间,每次工作时间和查询内容等,系统将根据预 测信息提前设置缓存区数据,从而使用户的查询体验最优化。 为达到上述目的,本专利技术的实施例采用如下技术方案: 本专利技术第一方面提供一种缓存区数据预处理方法,包括: 记录构造基础数据,对基础数据预处理; 建立最小二乘法模型模拟用户行为,预测用户工作时间和查询内容等参数之间的 数据关系; 存储从缓存输入接收的数据到缓存区,按照先进先出顺序从所述缓存区中输出。 优选的,根据第一方面,所述记录构造基础数据,具体包括: 基础数据是指用户查询时间TimeUserQuery、用户停留时间TimeUserStand和用 户查询内容ContentUserQuery。构造TimeUserQuery,TimeUserStand和ContentUserQuery 接口函数从初始服务器端获取客户端用户的查询时间,停留时间和查询内容;在所述 TimeUserQuery和TimeUserStand函数中预设计时器Timer,并米用cookie控件技术,获取 当前行为中用户的查询时间和停留时间;将收集到的数据通过GET、POST异步的方式发送 到目标服务器端;所述基础数据通过接口以JS0N格式展示到所述目标服务器端。 优选的,所述用户查询内容ContentUserQuery,具体包括: 系统预设用户可以操作的所有查询内容有Loading、Unloading、Cargo、 Carrier和Route中的一种或其任意组合(不同的行业和需求可预设不同查询内容), ContentUserQuery接口 函数的参数为Loading、Unloading、Cargo、Carrier和Route,根据 用户的不同操作行为,返回和展示的参数值不同,进行了所述查询内容的参数返回值设为 1,没有进行所述查询内容的参数返回值设为0。 优选的,根据第一方面,所述对基础数据预处理,具体包括: 所述目标服务器接收到返回值和返回内容后,系统使用JObject或JArray的 Parse方法将JS0N字符串转换为JS0N对象,通过所述JS0N对象的方式提取所述基础数 据,分析所述基础数据查询内容和查询时间之间的关联即构造Loading、Unloading、Cargo、 Carrier、Route和TimeUserQuery以及TimeUserStand的关系图。优选的,根据第一方面,所述构造Loading、Unloading、Cargo、Carrier、Route和 TimeUserQuery以及TimeUserStand的关系图,一种可能实现方式为: 优选的,所述关系图中,TimeUserQuery和TimeUserStand各自作为因变量和 Loading、Unloading、Cargo、Carrier、Route作为自变量,观察图形发现具有一定的线性回 归趋势,考虑用最小二乘法做出预测。 优选的,最小二乘法是一种数学优化技术,它通过最小化误差的平方和寻找数据 的最佳函数匹配,利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与 实际数据之间误差的平方和为最小,可以求得目标函数的最优值。 步骤1 :所述目标服务器接收到一个用户的多次查询操作,所述用户查询了所述 查询内容的一个或多个,设查询内容为n个,用户查询每个所述查询内容的时间分别记为: T= (t1;t2,t3, . . .t;. . . ,tn) (1) 其中h表示用户查询所述第i项查询内容时的所述查询时间。 步骤2:-个用户的m次查询所述查询内容的所述查询时间表示为: y (t1; K, tn;x〇, x1; K, xn) = Xo+Xjt^ A +xntn (2) 其中y代表用户查询所述查询内容的工作时间,x。,Xl,K,xn表示模型参数,该参数 使得实际值和观测值差的平方和最小,通常取 X(]= 1,用线性方程组表示为: y!= x o+x^!^ A+Xjti^ A+xntln y2= x o+Xit;,^ A +X jt2 j+ A +xnt2n MM Yi= x o+Xit;^ A+Xjt;^ A+xntin (3) M yn= x0+X&+ A +x'+ A +xntnn 其中71表示所述用户第i次查询所述查询内容所用的查询时间,t x]表示所述用户 第i次查询所述第j项查询内容所用的查询时间。 通常将记作数据矩阵A,所述模型参数x i记作参数矢量X,用户所述查询时间 yi记作Y,则线性方程组可表示为: 步骤3 :拟合真实用户行为的查询时间和查询内容的所述模型参数矩阵X的值 为: 由最小二乘法模型可定义用户查询所述一项查询内容的观测估计值爲和所述模 型参数的估计值爲: 于是得到带有所述模型参数的估计值方程组:W 根据(8) (9)得到用户查询所述查询内容所用的时间的观测值和估计值关系为: (1〇) 根据最小二乘的原理,所述模型参数的值为:(.11) 最后得到所述模型参数的估计值是: 步骤4 :预测所述用户的TimeUserQuery时间: (12)其中h表示用户查询所述第i项查询内容时的所述查询时间。xi 表示第i项所述查询内容对应的所述模型参数,其中X(]= 1。若用户只进行Cargo操作,预 测Cargo查询时间为: y3=x0+t3x3。(13) 其中为所述查询内容Loading、Unloading、Cargo、Carrier、Route在数据表中分 别设置一个Sessionld。在上述步骤4中直接通过所述Sessionld获取相关参数值,并将得 到的数据作为缓存区输入数据的原始数据。 优选的,第二方面,提供一种缓存区数据预处理方法,本文档来自技高网...

【技术保护点】
一种缓存区数据的预处理方法,其特征在于,包括:记录构造基础数据,对基础数据预处理;建立最小二乘法模型模拟用户行为,预测用户工作时间和查询内容等参数之间的数据关系;存储从缓存输入接收的数据到缓存区,按照先进先出顺序从所述缓存区中输出。
【技术特征摘要】
【专利技术属性】
技术研发人员:施文进,阎九吉,吴青,王飞,
申请(专利权)人:惠龙易通国际物流股份有限公司,镇江惠龙长江港务有限公司,江苏惠银科技股份有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。