System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于电力系统监测,具体涉及一种电力用户画像构建方法、装置、设备及介质。
技术介绍
1、分析小区的用电行为可以为小区电路改造、充电桩建设和监测等决策提供数据支撑,同时,也从侧面反映了小区品质。为直观呈现分析结果,往往用到用户画像技术。针对小区用电行为的用户画像,需要构建用电模式、用电习惯、用户常遇用电问题等多个维度的信息。
2、与其余维度不同,用户常遇用电问题所涉及的数据不再是数值型数据,而是音频文本类数据。因此,需要涉及音频格式处理、音频转文字、自然语言处理(natural languageprocessing,nlp)等多种技术。需要对上述各种技术有机结合,实现了低人力成本的小区用电行为用户画像:用户常遇用电问题维度的构建。
3、但目前对上述各种技术结合时,由于数据量大,无法人工进行标注,导致存在大量未标注数据,导致用户画像不准确,建立用户画像的速度慢等问题。
技术实现思路
1、本专利技术的目的在于提供一种电力用户画像构建方法、装置、设备及介质,以解决现有一种电力用户画像构建方法由于数据量大,导致画像建立不准确,建立速度慢的技术问题。
2、为实现上述目的,本专利技术采用如下技术方案予以实现:
3、第一方面,本专利技术提供一种电力用户画像构建方法,包括以下步骤:
4、s1、获取预设区域内用电客户客服通话数据;
5、s2、将客服通话数据转换为文本数据,并根据文本数据建立样本集;
6、s3、将
7、s4、根据标注样本集构建文本分类模型;
8、s5、根据文本分类模型给未标注数据集赋予伪标签,并根据伪标签从未标注数据集中划分出精选集;
9、s6、将精选集和标注数据集合并得到合并集,通过合并集重复s4~s5对文本分类模型进行训练,直至满足截止条件,输出最后的文本分类模型作为最优模型;
10、s7、通过最优模型建立电力用户画像并输出。
11、本专利技术的进一步改进在于:所述将客服通话数据转换为文本数据,并根据文本数据建立样本集的步骤中,具体包括:
12、将客服通话数据转换为同一种格式;
13、将同一种格式的客服通话数据转换为文字数据;
14、对文字数据进行订正得到样本集。
15、本专利技术的进一步改进在于:所述将样本集划分为第一样本集和第二样本集,对第一样本集进行标注构建标注数据集,根据第二样本集构建未标注数据集的步骤中,具体包括:
16、对样本集进行预处理;
17、将进行过预处理的样本集划分为第一样本集和第二样本集,且第一样本集样本数小于第二样本集;
18、设置若干类别标签;
19、根据若干类别标签对第一样本集进行标注,得到标注数据集;
20、第二样本集即为未标注数据集。
21、本专利技术的进一步改进在于:所述根据标注样本集构建文本分类模型的步骤中,具体包括:
22、a1、基于nlp技术构建初始模型;
23、初始模型中包括:bert层、bigru层和softmax层;
24、a2、对标注数据集中的类别标签进行独热编码;
25、a3、将标注数据集中的样本和电力专业词汇输入bert层,得到[cls]标记;
26、a4、将[cls]标记中池化降维后的张量作为bigru层的输入,得到输出张量;
27、a5、将输出张量作为softmax层的输入,得到概率集;
28、a6、将独热编码后的类别标签和概率集代入scc函数求得loss损失值;
29、a7、根据loss损失值对初始模型进行反向传播参数调优,得到文本分类模型。
30、本专利技术的进一步改进在于:所述根据文本分类模型给未标注数据集赋予伪标签,并根据伪标签从未标注数据集中划分出精选集的步骤中,具体包括:
31、根据文本分类模型给未标注数据集赋予伪标签;
32、根据伪标签重复a1~a5得到伪标签对应的概率集,即伪概率集;
33、设置最大置信度阈值kh和最小置信度阈值kl,每个伪概率集对应未标注数据集中一个样本,每个伪概率集中存在最大值m和最小值m,建立第一未标注样本集中,将m>kh且m<kl的样本存入第一未标注样本集;
34、将第一未标注样本集中的一个样本输入文本分类模型中,输入预设次数,每次对输入的样本以预设概率替换为随机掩码,得到与预设次数相同的概率集,计算每个概率集的标准差,并将所有标准差相加,若标准差的和小于第二阈值,则将样本加入精选集中。
35、本专利技术的进一步改进在于:所述截止条件包括迭代次数大于最大迭代次数或精选集中没有新样本加入。
36、本专利技术的进一步改进在于:所述预处理包括剔除无效值、剔除停用词和剔除标点符号。
37、第二方面,本专利技术提供一种电力用户画像构建装置,包括:
38、数据获取模块:用于获取预设区域内用电客户客服通话数据;
39、转换模块:用于将客服通话数据转换为文本数据,并根据文本数据建立样本集;
40、划分模块:用于将样本集划分为第一样本集和第二样本集,对第一样本集进行标注构建标注数据集,根据第二样本集构建未标注数据集;
41、模型构建模块:用于根据标注样本集构建文本分类模型;
42、筛选模块:用于根据文本分类模型给未标注数据集赋予伪标签,并根据伪标签从未标注数据集中划分出精选集;
43、迭代模块:用于将精选集和标注数据集合并得到合并集,通过合并集重复划分模块和模型构建模块中步骤对文本分类模型进行训练,直至满足截止条件,输出最后的文本分类模型作为最优模型;
44、输出模块:用于通过最优模型建立电力用户画像并输出。
45、第三方面,本专利技术提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的一种电力用户画像构建方法。
46、第四方面,本专利技术提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的一种电力用户画像构建方法。
47、与现有技术相比,本专利技术至少包括以下有益效果:
48、本专利技术有效利用大量未标注数据,通过迭代训练提升模型准确率,实现了低人力成本的用户画像构建。该方法综合运用了音频处理、语音识别、自然语言处理等技术,通过音频文本化、数据清理、人工标注、半监督学习迭代训练等步骤,最终获得用户常遇电力问题类别的分类模型。该模型可用于识别新用户通话文本所对应的问题类别,有助于用户画像的构建。
49、总体来说,本专利技术在用户画像领域,具有构建准确率本文档来自技高网...
【技术保护点】
1.一种电力用户画像构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种电力用户画像构建方法,其特征在于,所述将客服通话数据转换为文本数据,并根据文本数据建立样本集的步骤中,具体包括:
3.根据权利要求1所述的一种电力用户画像构建方法,其特征在于,所述将样本集划分为第一样本集和第二样本集,对第一样本集进行标注构建标注数据集,根据第二样本集构建未标注数据集的步骤中,具体包括:
4.根据权利要求1所述的一种电力用户画像构建方法,其特征在于,所述根据标注样本集构建文本分类模型的步骤中,具体包括:
5.根据权利要求4所述的一种电力用户画像构建方法,其特征在于,所述根据文本分类模型给未标注数据集赋予伪标签,并根据伪标签从未标注数据集中划分出精选集的步骤中,具体包括:
6.根据权利要求1所述的一种电力用户画像构建方法,其特征在于,所述截止条件包括迭代次数大于最大迭代次数或精选集中没有新样本加入。
7.根据权利要求3所述的一种电力用户画像构建方法,其特征在于,所述预处理包括剔除无效值、剔除停用词和剔除标点符号
8.一种电力用户画像构建装置,其特征在于,包括:
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述的一种电力用户画像构建方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的一种电力用户画像构建方法。
...【技术特征摘要】
1.一种电力用户画像构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种电力用户画像构建方法,其特征在于,所述将客服通话数据转换为文本数据,并根据文本数据建立样本集的步骤中,具体包括:
3.根据权利要求1所述的一种电力用户画像构建方法,其特征在于,所述将样本集划分为第一样本集和第二样本集,对第一样本集进行标注构建标注数据集,根据第二样本集构建未标注数据集的步骤中,具体包括:
4.根据权利要求1所述的一种电力用户画像构建方法,其特征在于,所述根据标注样本集构建文本分类模型的步骤中,具体包括:
5.根据权利要求4所述的一种电力用户画像构建方法,其特征在于,所述根据文本分类模型给未标注数据集赋予伪标签,并根据伪标签从未标注数据集中划分出精选集的步骤中,具体包括...
【专利技术属性】
技术研发人员:王泽黎,杨云,魏光涛,陈家蕊,朱亮,李明春,张沛铮,曹振博,张晓晨,刘泽宇,宋绪鹏,任立志,王威尧,刘博,秦佳峰,张有才,
申请(专利权)人:国网北京市电力公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。