基于张量鲁棒主成分分析的评分分布异常检测方法技术

技术编号:19964370 阅读:43 留言:0更新日期:2019-01-03 12:53
本发明专利技术提供一种基于张量鲁棒主成分分析的评分分布异常检测方法,包括获取评分数据,每条评分数据包括商家编号、评分分值和评分时间;将所有评分数据的评分时间的跨度均分多个时间段,分别计算每个时间段内每个商家编号的评分分布,得到商家编号、评分分值与时间段的三维评分分布张量;利用张量鲁棒主成分分析算法将评分分布张量分解为低秩张量和稀疏张量;计算每个时间段的稀疏张量的范数值,当该时间段内所述稀疏张量的范数值大于一预设阈值时,判定该时间段内评分分布异常。通过本发明专利技术的方法检测出来的用户基本行为,可以客观地衡量多个商家总体的质量水平,而检测出的异常行为则可以及时地发现网站或者消费市场的变化带来的实际效果。

ANOMALIES DETECTION METHOD OF SCALE DISTRIBUTION BASED ON TENSOR ROBUST PRINCIPAL COMPONENT ANALYSIS

The present invention provides a method for anomaly detection of scoring distribution based on tensor robust principal component analysis, which includes acquiring scoring data, each scoring data includes business number, scoring score and scoring time; dividing the scoring time span of all scoring data into several time periods, calculating the scoring distribution of each business number in each time period, and obtaining business number and scoring. The three-dimensional score distribution tensor of score and time interval is calculated; the score distribution tensor is decomposed into low-rank tensor and sparse tensor by using tensor robust principal component analysis algorithm; and the norm value of sparse tensor is calculated for each time interval. When the norm value of the sparse tensor in this time interval is larger than a preset threshold, the anomaly of score distribution in this time interval is determined. The basic user behavior detected by the method of the invention can objectively measure the overall quality level of a plurality of businesses, while the abnormal behavior detected can timely discover the actual effect brought by the changes of the website or the consumer market.

【技术实现步骤摘要】
基于张量鲁棒主成分分析的评分分布异常检测方法
本专利技术涉及数据挖掘领域,尤其涉及一种基于张量鲁棒主成分分析的评分分布异常检测方法。
技术介绍
随着互联网的快速发展,越来越多的网站提供有关商家产品评分的信息服务。例如,大众点评网站提供的用户对餐厅的评价、亚马逊网站提供的用户对购买商品的评价。这些评价通常真实地反映了产品或者服务的质量水平,可以帮助用户进行商品或者服务的挑选。将一个网站上多个商家的评分数据看作一个整体,因为每个商家的经营策略不同,整体的评分会随着时间有稳定的变化。但是,外部的原因,比如网站内容的更新或者市场的调整,会影响到网站上所有的商家,这将导致多个商家整体的评分分布出现异常。针对某个网站上多个商家的评分数据的异常检测,能更好地分析用户群体的整体评价行为,有助于商家了解产品或者服务对用户真实的影响。张量结构数据是一种多维结构数据,在对异常评分分布进行检测时主要考虑三维的张量结构。张量分解是主成分分析方法在多维数据上的扩展,主要思想是将原始的张量在各个维度方向上展开得到不同的矩阵,利用主成分分析的方法对矩阵进行降维,从而实现张量降维。张量分解后得到的核张量包含了原始张量本文档来自技高网...

【技术保护点】
1.一种基于张量鲁棒主成分分析的评分分布异常检测方法,其特征在于,所述评分分布异常检测方法包括以下步骤:步骤S1,获取评分数据,每条评分数据包括商家编号、评分分值和评分时间;步骤S2,将所有评分数据的评分时间的跨度均分多个时间段,分别计算每个时间段内每个商家编号的每个评分分值的评分数据的个数,占该时间段内所有商家的所有评分数据的个数的比值,得到商家编号、评分分值与时间段的三维评分分布张量;步骤S3,利用张量鲁棒主成分分析算法对所述评分分布张量进行分解,将所述评分分布张量分解为低秩张量和稀疏张量,所述低秩张量用于表示所述评分数据中的用户基本行为,所述稀疏张量用于表示所述评分数据的评分分布;步骤S...

【技术特征摘要】
1.一种基于张量鲁棒主成分分析的评分分布异常检测方法,其特征在于,所述评分分布异常检测方法包括以下步骤:步骤S1,获取评分数据,每条评分数据包括商家编号、评分分值和评分时间;步骤S2,将所有评分数据的评分时间的跨度均分多个时间段,分别计算每个时间段内每个商家编号的每个评分分值的评分数据的个数,占该时间段内所有商家的所有评分数据的个数的比值,得到商家编号、评分分值与时间段的三维评分分布张量;步骤S3,利用张量鲁棒主成分分析算法对所述评分分布张量进行分解,将所述评分分布张量分解为低秩张量和稀疏张量,所述低秩张量用于表示所述评分数据中的用户基本行为,所述稀疏张量用于表示所述评分数据的评分分布;步骤S4,计算每个时间段的稀疏张量的范数值,当所述时间段内所述稀疏张量的范数值大于一预设阈值时,判定该时间段内评分分布异常。2.如权利要求1所述的评分分布异常检测方法,其特征在于,在所述步骤S3中,将所述评分分布张量分解为低秩张量和稀疏张量的步骤包括:步骤S31,初始化化低秩张量Lk=0,迭代计算中的拉格朗日乘子Yk=0,稀疏张量Ek=X-Lk,其中X为观察值张量,惩罚因子μ=0.6;步骤S32:计算张量Ltemp=X-Ek-Yk,并对张量Ltemp进行张量奇异值分解,得到张量S、张量U、张量V;步骤S33:对所述张量S进行软阈值压缩,得到压缩后的张量S’;步骤S34:进行张量乘法操作,计算张量Lk+1=U×S’×V;步骤S35:计算张量Etemp=X-Lk+1-Yk,并对张量Etemp进行软阈值压缩,得到压缩后的张量Ek+1;步骤S36:计算Yk...

【专利技术属性】
技术研发人员:吕钊马靓贺樑
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1