【技术实现步骤摘要】
一种基于电力短文本分类的异常设备编码检测方法和系统
[0001]本专利技术属于电力信息
,具体涉及一种基于电力短文本分类的异常设备编码检测方法和系统。
技术介绍
[0002]电力数据存在于多个应用系统中,然而从各个数据源汇聚而成的庞大数据集之中往往存在着无用数据、错误数据。以电力设备数据为例,该数据包括设备编码、设备描述、设备价格等多个字段,其中设备编码作为标识该条数据是否正确的唯一值也存在大量空值、乱码以及人工录入错误的情况,相比其他数值类型的字段,设备描述作为多文本字段更加具有可靠性。
[0003]传统方法治理设备编码异常问题,一方面需要电力设备领域的专家来协助,另一方面异常数据规模大,耗时耗力效率低,并且难以持续性维护。因此,需要借助人工智能方法来对设备资产类型进行异常检测和修正。预测设备资产类型方面,相比其他数值类型的字段,设备描述作为多文本字段更加具有可靠性。利用自然语言处理算法,根据设备主数据中设备描述字段自动确认设备类型,解决设备主数据中设备类型缺失、设备错误分类等问题,可以有效提高数据治理效率。 ...
【技术保护点】
【技术特征摘要】
1.一种基于电力短文本分类的异常设备编码检测方法,其特征在于,包括:获取电力设备数据;将电力设备数据中的描述信息输入预先训练的短文本分类接口模型,得到电力设备的标准编码;对比所述标准编码与电力设备数据中的设备编码,若存在差异,则所述电力设备数据中的设备编码为异常数据。2.如权利要求1所述的方法,其特征在于,所述短文本分类接口模型的训练,包括:获取各电力设备的标准编码和对应的标准化描述信息;根据所述标准化描述信息,得到对应电力设备的最高层类别和最底层类别;以各电力设备的标准化描述信息为输入,对应电力设备的最高层类别为输出,对BERT模型进行训练,得到一级分类层模型;分别针对每个最高层类别,以最高层类别中的电力设备的标准化描述信息为输入,对应应电力设备的最底层类别为输出,对卷积神经网络进行训练,得到二级分类层模型;以所有二级分类层模型和所述一级分类层模型作为短文本分类接口模型。3.如权利要求2所述的方法,其特征在于,所述各电力设备的标准化描述信息的获取,包括:采集电力设备数据库中各设备的描述信息;对各设备的描述信息通过正则表达式、分词或词向量聚类处理,得到各电力设备的标准化描述信息。4.如权利要求3所述的方法,其特征在于,对各设备的描述信息通过词向量聚类处理,得到各电力设备的标准化描述信息,包括:去除各设备的描述信息中无意义字符,并对各设备的描述信息进行切分,得到多个词汇;计算各词汇在各设备的描述信息中出现的词频以及各词汇的逆向文件频率;根据各词汇在各设备的描述信息中出现的词频以及各词汇的逆向文件频率,分别计算各词汇在各设备的描述信息中的TF
‑
IDF值;将TF
‑
IDF值超过预设阈值的词汇对应的描述信息转化为词向量;对各词向量进行聚类,并将每个类别对应的描述信息对应生成一个标准化描述信息。5.如权利要求4所述的方法,其特征在于,所述词频的计算式如下:式中,tf
ij
表示第i个词汇在第j个设备的描述信息中出现的词频,n
ij
表示第i个词汇在第j个设备的描述信息中出现的次数,n
qj
表示第i个词汇在第q个设备的描述信息中出现的次数,∑
q
n
qj
表示第j个设备的描述信息中所有词汇出现的总次数。6.如权利要求4所述的方法,其特征在于,所述逆向文件频率的计算式如下:式中,idf
i
表示第i个词汇的逆向文件频率,|D|表示设备的描述信息的总数,|{j:t
i
∈
d
j...
【专利技术属性】
技术研发人员:武丽莎,陈振宇,王路涛,朱天佑,王洁,
申请(专利权)人:国家电网有限公司大数据中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。