【技术实现步骤摘要】
一种面向配用电多维业务的异构数据语义提取方法
[0001]本专利技术属于深度学习算法在电力大数据应用领域,涉及一种异构数据语义提取方法,尤其是一种面向配用电多维业务的异构数据语义提取方法。
技术介绍
[0002]由于配网智能化近年来发展速度快,随着无纸化记录的推进,涌现出大量且组织性差的电力异构数据。其中,图像和文本数据大幅度增长,包括巡检记录等文本数据,巡检机器人摄取的电力设备运行状态、环境状态等图片数据。但是这些数据对于计算机而言是难以理解和使用。同时,配网多维业务领域数据来源广泛、形式多样,其每一种来源或形式都可以看作是一种结构形式,例如图片、数字、文本等。当前的语义提取大多集中于文本等单一结构数据处理,然而,图像等数据的大量涌现,使得对图像数据进行语义提取的需求也更为迫切。
[0003]数据的语义理解让智能体能更深入地感知、理解真实的数据场景,更能进一步对所感知的数据信息进行推理,以更好的支撑电力系统智能感知行业应用。数据语义提取的目标是给定多源异构数据,利用人工或机器学习、深度学习等自动化方式提取出目标语义 ...
【技术保护点】
【技术特征摘要】
1.一种面向配用电多维业务的异构数据语义提取方法,其特征在于:包括以下步骤:步骤1、对配用电多维图片数据进行预处理;步骤2、采用深度学习模型结合人工校正的方式,对步骤1预处理后的配用电多维图片数据进行语义标签提取,构建图像语义标签集;步骤3、基于步骤2所构建的构建图像语义标签集,进行巡检文本数据语义提取,为巡检文本中设备、地点匹配相应的语义标签;步骤4、基于所述步骤3巡检文本数据关键词提取结果,与所述步骤2图片语义标签,利用LCS算法建立文本和图片语义序列,计算序列间的相似度,进行数据匹配校核。2.根据权利要求1所述的一种面向配用电多维业务的异构数据语义提取方法,其特征在于:所述步骤1的具体步骤包括:(1)巡检拍摄图片尺寸统一化,将原始图像缩放成指定的图像大小,将图像大小尺寸统一设置为600
×
800;(2)裁剪填充,通过对不同配网业务来源的图像的尺寸大小进行统一化,如果原始图像大于目标图像,则对原始图像进行裁剪操作,如果原始图像小于目标图像,则对图像拉伸过程中产生的空白像素点利用黑色像素进行填充;(3)调整设备图像比例,调整了数据集中部分图像文件的长宽比,函数取值为1,以中心点作为基准,将调整后的图像作为新的图像存储。3.根据权利要求1所述的一种面向配用电多维业务的异构数据语义提取方法,其特征在于:所述步骤2的具体步骤包括:(1)构建采用Encoder
‑
Decoder结构的深度学习模型,首先将步骤1预处理后的配用电多维图片数据输入,进入Encoder部分,经过CNN的空间特性,使用卷积层的feature map,提取出图片n个位置的特征x=(x1,x2,
…
,x
n
),其中x是D维向量;(2)设在解码的第t阶段,即生成第t个特征语义时,传入Decoder CNN的上下文向量为z
t
,CNN前一阶段的隐藏层状态为g
t
‑1;这个上下文向量z
t
就是x=(x1,x2,...,x
n
)的一个加权平均,具体地,z
t
和x=(x1,x
z
,...,x
n
)的关系可以表达为:其中,α
t,m
是衡量生成第t个特征语义时,第m个位置的图像特征所占的权重;这个权重实际是前一个隐藏层状态g
t
‑1和第m个位置图像特征x
m
的函数;(3)得到特征z
t
作为CNN的输入,经过隐变量生成,输出模型结果y
t
;(4)采用人工干预,校准部分数据,最终得到...
【专利技术属性】
技术研发人员:丁一,张磐,滕飞,庞超,霍现旭,吴磊,戚艳,杨挺,尚学军,陈沛,焦秋良,孙峤,
申请(专利权)人:国网天津市电力公司国家电网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。