异构数据处理方法、装置、服务器及存储介质制造方法及图纸

技术编号:32183077 阅读:37 留言:0更新日期:2022-02-08 15:45
本发明专利技术提供一种异构数据处理方法、装置、服务器及存储介质。该方法包括:接收上传的异构数据集,并确定异构数据集中各个异构数据的数据类型;数据类型包括结构化或者非结构化;针对每一个数据类型为非结构化的异构数据,对该非结构化的异构数据进行结构化处理,将该非结构化的异构数据转换为结构化的异构数据;针对每一个结构化的异构数据,对该结构化的异构数据进行标准化处理,得到该结构化的异构数据的属性词表;将所有属性词表汇集,形成异构数据集的属性词表集;对属性词表集进行语义计算,并根据语义计算的结果确定异构数据集的查询类型词集。本发明专利技术能够提高异构数据处理的效率。率。率。

【技术实现步骤摘要】
异构数据处理方法、装置、服务器及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种异构数据处理方法、装置、服务器及存储介质。

技术介绍

[0002]配电网自动化终端作为配电网自动化运行的组成部分,为配电网稳定、安全、可靠运行提供保障。配电网自动化终端的质量检测一直是各方关注的重点。随着信息化建设不断加深,将终端厂家、供电公司、配电网自动化主站等多方人员的配电网自动化终端的原始检测数据统一上传至主站服务器,进行集中统一管理是未来的发展趋势。各方的检测数据由于留存方式不同,上传至主站服务器的原始检测数可以认为是异构数据。
[0003]现有的异构数据处理中,大多是各个上传终端分别与主站服务器建立对应的数据清洗规则,原始检测数据会在各自的终端进行数据清洗处理,向主站服务器上传的是标准化格式的数据,主站服务器再根据标准化格式的数据进行分类,建立查询类型。然而,若主站服务器或者上传终端发生变化,则二者之间还需要重新建立清洗规则,主站服务器还需要重新对数据进行分类,需要花费较长的时间。即现有异构数据处理方式处理效率低、耗时长。
...

【技术保护点】

【技术特征摘要】
1.一种异构数据处理方法,其特征在于,包括:接收上传的异构数据集,并确定所述异构数据集中各个异构数据的数据类型;所述数据类型包括结构化或者非结构化;针对每一个数据类型为非结构化的异构数据,对该非结构化的异构数据进行结构化处理,将该非结构化的异构数据转换为结构化的异构数据;针对每一个结构化的异构数据,对该结构化的异构数据进行标准化处理,得到该结构化的异构数据的属性词表;将所有属性词表汇集,形成所述异构数据集的属性词表集;对所述属性词表集进行语义计算,并根据语义计算的结果确定所述异构数据集的查询类型词集。2.根据权利要求1所述的异构数据处理方法,其特征在于,所述对所述属性词表集进行语义计算,并根据语义计算的结果确定所述异构数据集的查询类型词集,包括:针对所述属性词表集中的属性词表中每任意两个属性词,计算该两个属性词的语义相似度;在该两个属性词的语义相似度大于预设相似度阈值时,判定该两个属性词相似,选取该两个属性词中任意一个属性词作为查询类型词;将所有查询类型词汇集,得到所述异构数据集的查询类型词集。3.根据权利要求1所述的异构数据处理方法,其特征在于,所述对所述属性词表集进行语义计算,并根据语义计算的结果确定所述异构数据集的查询类型词集,包括:针对所述属性词表集中的属性词表中每任意两个属性词,计算该两个属性词的语义相似度;在该两个属性词的语义相似度小于或等于预设相似度阈值时,判定该两个属性词不相似,将该两个属性词均作为查询类型词;将所有查询类型词汇集,得到所述异构数据集的查询类型词集。4.根据权利要求2或3所述的异构数据处理方法,其特征在于,所述计算该两个属性词的语义相似度,包括:计算该两个属性词的所有义原之间的语义距离,并将该两个属性词的所有义原之间的语义距离的均值作为该两个属性词的语义相似度。5.根据权利要求1所述的异构数据处理方法,其特征在于,所述对该结构化的异构数据进行标准化处理,得到该结构化的异构数据的属性词表,包括:对该结构化的异构数据进行分解,得到该结构...

【专利技术属性】
技术研发人员:贾伯岩马天祥张姿姿段昕贾静然李丹李小玉景皓
申请(专利权)人:国家电网有限公司国网河北能源技术服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1