当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于矩阵分解的居民客户缴费信息缺失数据的填充方法技术

技术编号:39301532 阅读:11 留言:0更新日期:2023-11-12 15:52
本发明专利技术涉及居民电力缴费工单数据清洗的技术领域,更具体地,涉及一种基于矩阵分解的缴费工单缺失数据填充方法。本发明专利技术采用了SVT算法,它是一种基于矩阵阈值分解的算法,其利用矩阵的低秩性进行矩阵补全。首先,对获取到的居民缴费工单数据进行预处理,将文本数据通过编码转化为数值型数据,并将缺失值置为0;接着,采集观测值,构成一个新的矩阵Ω,其元素为0或者1;最后设立SVT算法所需参数,迭代得到一个新的低秩矩阵,该矩阵能很好地填充原始矩阵的缺失值,填充结束后再将文本数据解码得到最终结果。此方法计算速度比较快,并且能够对大规模稀疏矩阵进行有效地补全,能够很好地补全居民电力缴费工单的缺失数据,具有很高的实用价值。价值。价值。

【技术实现步骤摘要】
一种基于矩阵分解的居民客户缴费信息缺失数据的填充方法


[0001]本专利技术涉及居民电力缴费工单数据清洗的
,更具体地,涉及一种基于矩阵分解的缴费工单缺失数据填充方法。

技术介绍

[0002]随着电力体制改革的持续推进和售电侧市场化竞争,电力营销服务的理念、服务内容及其服务渠道都面临了巨大的变革和影响。目前,国家电网公司已拥有超过40个营销服务渠道,包括“网上国网”App、供电营业厅、微信公众号、银行代收电费网点等。公司形成了自有线上渠道、自有实体渠道、社会线上渠道和社会实体渠道并行的多元化营销服务渠道体系,为支撑电费缴纳、业务办理、信息查询、信息告知等基础客户服务提供了有力保障。
[0003]然而,公司电力营销服务渠道众多且相对分散独立,渠道建设呈“烟囱”模式,各渠道的服务定位不明晰、服务体验不一致、服务水平参差不齐。每年在人力资源、系统运维等方面投入较多运营费用,但实际产生的服务效益却无法量化。此外,在不同渠道上可能会重复投入,造成资源浪费。在推广应用过程中,某些线上渠道存在新用户注册难、功能需求迭代周期长、链条长、系统功能不稳定、用户体验不佳等问题。因此,需要结合公司最新发展政策、社会环境最新变化、客户最新用电需求进行匹配定位,提高客户满意度和公司经营效益。
[0004]随着电力市场化竞争的加剧,提供精准、多元化的线上服务已成为电力营销服务的重要方向。在传统渠道与新兴渠道的统一布局下,有效发挥渠道资源的协同效应,实现老客户的留存和新客户的吸引。通过提供更加精准、个性化的服务,提高服务质量和客户满意度,进而巩固和提升公司在电力市场化竞争中的优势地位。数字化转型将是电力营销服务渠道的未来趋势,提高服务效率和降低运营成本,从而实现公司业务的可持续发展。
[0005]通过整合不同渠道的电力客户数据,可以发现数据中潜在的有用的规则和模式,可以进行轨迹优化完善分析,从而针对不同电力客户的渠道偏好制定有针对性的引流策略。同时,对电力用户行为的研究和数据调研结果的分析,可以帮助识别出电子渠道发展的障碍和生命周期,并提出有效的策略,以突破渠道发展障碍,提升渠道效能、渗透率和用户黏性。利用电力数据挖掘技术对历史工单进行分析,也可以为客户制定有针对性的电子渠道推广策略。这些方法都可以为电力营销服务渠道的数字化转型提供有力支持和帮助。
[0006]考虑到低压居民客户数量占全渠道比例较大,且这部分客户群体相对而言容易接受电力企业电子渠道推广,因此渠道引流的研究工作主要针对低压居民客户展开。同时,由于低压居民客户95%以上的业务类型为电费缴纳,故主要对电力缴费工单数据进行分析。电力缴费工单数据是电力企业获取客户用电信息的重要途径,包含客户编号、性别、年龄、用电类别、电压等级、缴费频次、出账周期等信息。利用这些信息,电力企业可以对客户的用电情况进行分析,制定相应的营销策略,提高客户粘性和电力企业的经济效益。
[0007]但是,由于系统原因,电力缴费工单数据中常常存在缺失值,这些缺失值给工单数据的分析和利用带来了很大的困难。因此,填充电力工单数据的缺失值,具有极其重要的意
义,可以提高工单数据的完整性和准确性,为电力企业的营销决策提供有力的支持。在缺失值填充领域,传统的方法包括均值、中位数、众数填充等。这些方法简单易行,计算速度快,但是其存在很大的局限性。首先,这些方法没有利用数据间的相关性,填充结果往往与实际值差距较大。其次,这些方法无法处理非线性关系,不能很好地处理复杂数据。因此,对于电力工单数据这样的高维数据集,传统的缺失值填充方法往往效果较差。
[0008]矩阵分解是一种利用数据的潜在结构来对数据进行降维的方法,可以通过将原始数据矩阵分解成多个低维矩阵,提高数据的表示效率。与传统的缺失值填充方法相比,矩阵分解方法具有更高的填充精度和更好的泛化性能。此外,矩阵分解方法可以处理高维稀疏数据,并且可以有效利用数据的局部性和局部关联性。因此,矩阵分解方法已经成为现代数据科学中最为重要的方法之一。
[0009]在电力缴费工单数据的填充中,常用的矩阵分解方法包括SVD和NMF。SVD方法在处理数据时具有很好的稳定性和可靠性,但在实际应用中存在一些不足。首先,SVD方法对于大规模矩阵的计算复杂度很高,计算时间长,不适合实时处理。其次,SVD方法在处理数据时对于非线性结构的数据表现不佳。最后,SVD方法不能很好地处理带噪声的数据,容易出现过拟合现象。相比之下,NMF方法可以更好地处理非负数据,但是NMF方法也存在一些不足。首先,NMF方法对于缺失值的处理能力相对较弱,对于大量缺失数据的矩阵表现不佳。其次,NMF方法的稀疏性会导致它在矩阵分解时容易出现过拟合现象。最后,NMF方法在处理大规模矩阵时计算复杂度也较高,不适合实时处理。

技术实现思路

[0010]为了解决现有技术的不足,本专利技术公开了一种基于SVT算法的居民客户电力缴费工单缺失数据的填充方法。SVT算法不仅能够处理大规模的矩阵数据,还能够处理非线性结构的数据和带噪声的数据,算法基于低秩矩阵分解的思想,能够准确地估计缺失值,并且在处理过程中不容易出现过拟合现象。此外,SVT算法计算效率高,能够快速处理大规模矩阵数据,并适用于实时数据处理。因此,SVT算法是一种在电力缴费工单数据填充中表现优异的方法。
[0011]本专利技术所采用的技术方案如下:
[0012]一种基于SVT算法的居民客户电力缴费工单缺失数据的填充方法,包括如下步骤:
[0013]S1.获取居民客户电力缴费工单数据,并对工单数据进行预处理。首先,将文本类型的数据(例如性别、地区、缴费频次、用电类别)编码为数值型数据,采用LabelEncoder等编码方法进行转换。然后,将工单数据中存在的缺失值设置为0,统一表示缺失状态。
[0014]寻找一个矩阵X作为优化目标。我们的目标是最小化矩阵X的奇异值之和,并使其与工单数据的观测值(即未缺失的数据)尽可能接近。这可以通过应用SVT(Singular Value Thresholding)算法来实现。原始的优化目标如下所示:
[0015]minimize rank(X)
[0016]subject to X
ij
=M
ij
,(i,j)∈Ω,
[0017]其中在这里Ω表示的是观测值的下标集合(即非缺失值的下标集合),M就是原始的工单数据矩阵,X是需要优化的矩阵。
[0018]矩阵的秩度量的是矩阵行列之间的相关性,如果矩阵各行或各列是线性无关的,
那么其是一个满秩的矩阵,这里的低秩是相对于矩阵的行数和列数而言的,如果矩阵的秩远小于此,则矩阵就是一个低秩的矩阵。可见,低秩矩阵其实包含有很多的冗余信息,在矩阵补全里面,为了借助已有的观测到的数据来恢复成完全的矩阵,我们需恰恰要这种冗余。因此,最开始我们想要的其实是一个秩最小的X矩阵,但是这是一个非凸的问题(NP

hard),所以Candes等人提出了用rank(X)的最优途径式nu本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于矩阵分解的居民客户缴费信息缺失数据的填充方法,其特征在于,所述方法包括以下步骤:S1、获取居民客户电力缴费工单数据,并对工单数据进行预处理;S2、根据工单数据矩阵构建投影矩阵Ω;S3、设置SVT算法的参数并执行迭代过程;S4、迭代结束后得到的矩阵X用于填充工单数据缺失值。2.根据权利要求1所述的基于矩阵分解的居民客户缴费信息缺失数据的填充方法,其特征在于,S1、获取居民客户电力缴费工单数据,并对工单数据进行预处理,具体如下,首先,将文本类型的数据编码为数值型数据,采用LabelEncoder等编码方法进行转换,然后,将工单数据中存在的缺失值设置为0,统一表示缺失状态。3.根据权利要求1所述的基于矩阵分解的居民客户缴费信息缺失数据的填充方法,其特征在于,S2.根据工单数据矩阵构建投影矩阵Ω,具体如下:Ω是一个与工单数据矩阵相同大小的矩阵,其中的元素值由0和1组成,...

【专利技术属性】
技术研发人员:虞文武陶淳陈都鑫翟千惠朱萌王伟
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1