一种电力数据标注归集方法、系统、设备及介质技术方案

技术编号:37673274 阅读:9 留言:0更新日期:2023-05-26 04:36
本发明专利技术公开了一种电力数据标注归集方法、系统、设备及介质,所述方法包括以下步骤:基于目标电网,获取待标注归集的电力数据;基于预先获取的划分方式及编码方式,对获取的所述电力数据进行分类以及编码标注,实现电力数据标注归集;其中,所述预先获取的划分方式中,基于清晰程度、数据类型、标注开展形式、标注标签和电力系统应用场景中的一个或多个,对电力数据进行划分;所述编码方式中,基于预设的编码方法,获取电力数据的编码ID,所述编码ID用于编码标注。本发明专利技术能够获得的较准确的划分结果,基于获得的划分结果并采用编码的形式,可实现对标注集的归集分类,能够更有效支撑数据在人工智能模型训练中的使用。工智能模型训练中的使用。工智能模型训练中的使用。

【技术实现步骤摘要】
一种电力数据标注归集方法、系统、设备及介质


[0001]本专利技术属于电力系统数字化
,特别涉及一种电力数据标注归集方法、系统、设备及介质。

技术介绍

[0002]数据标注是人工智能发展的基础环节,人工智能需要的大量数据一般都需要人工来标注;其中,数据标注的种类有很多,这取决于人工智能研究的方向和领域。具体示例性的,无人驾驶领域需要的是车辆和场景数据,语音识别领域需要将语音转文字数据;另外,教育、视频、医学等领域都有类似的标注工作。
[0003]电力系统是比较复杂的系统,其中的人工智能模型使用的大量数据几乎涵盖了各个方面(示例性的,如图片、录像、录音及文本等),电力业务数据标注十分复杂。进一步解释性的,目前数据标注的工作一般主要包括:拉框标注、3D点云标注、语义分割、打点标注、快判、普通话语音转写、方言转写、外语校对、OCR等流程。
[0004]随着新型电力系统的构建,能够获取海量数据,其作为训练样本可以为人工智能模型的训练精度提供有效支撑;然而,目前获取的海量数据并不能高效、准确分类,给后续的人工智能模型训练使用带来了很大阻碍(示例性的,如训练样本获取不精确,训练样本获取效率较低等);因此,基于获得的海量数据,对于已经标注好的数据如何分类和归集成为亟需解决的技术问题。

技术实现思路

[0005]本专利技术的目的在于提供一种电力数据标注归集方法、系统、设备及介质,以解决上述存在的一个或多个技术问题。本专利技术提供的技术方案中,能够获得的较准确的划分结果,基于获得的划分结果并采用编码的形式,可实现对标注集的归集分类,能够更有效支撑数据在人工智能模型训练中的使用。
[0006]为达到上述目的,本专利技术采用以下技术方案:
[0007]本专利技术第一方面提供的一种电力数据标注归集方法,包括以下步骤:
[0008]基于目标电网,获取待标注归集的电力数据;
[0009]基于预先获取的划分方式及编码方式,对获取的所述电力数据进行分类以及编码标注,实现电力数据标注归集;
[0010]其中,所述预先获取的划分方式中,基于清晰程度、数据类型、标注开展形式、标注标签和电力系统应用场景中的一个或多个,对电力数据进行划分;所述编码方式中,基于预设的编码方法,获取电力数据的编码ID,所述编码ID用于编码标注。
[0011]本专利技术方法的进一步改进在于,预先获取的编码方式中,采用二进制编码方法。
[0012]本专利技术方法的进一步改进在于,所述预先获取的划分方式的获取步骤包括:
[0013]基于所述目标电网,获取预设数量的历史电力数据;
[0014]基于获取的所述历史电力数据进行划分,获得用于清晰程度划分的阈值、用于数
据类型划分的数据类型种类、用于标注开展形式划分的标注开展形式种类、用于标注标签划分的标注标签种类和用于电力系统应用场景划分的电力系统应用场景种类。
[0015]本专利技术方法的进一步改进在于,
[0016]所述数据类型种类包括图片、视频、文字、音频和其他中的一种或多种;
[0017]所述标注开展形式种类包括拉框标注、3D点云标注、语义分割、打点标注、普通话转写、方言语音转写、外语校对、OCR识别、快判识别和其他中的一种或多种;
[0018]所述标注标签种类包括已做规范、已做不规范、未作、设备正常、设备异常、意图分类、序列指标和其他中的一种或多种;
[0019]所述电力系统应用场景种类包括安监、基建、设备、综合、营销、调度和其他中的一种或多种。
[0020]本专利技术方法的进一步改进在于,预先获取的编码方式包括:
[0021]基于清晰程度的划分结果中,清晰按照1编码,不清晰按照0编码;
[0022]基于数据类型的划分结果中,图片按照001编码,视频按照010编码,文字按照011编码,音频按照100编码,其他按照000编码;
[0023]基于标注开展形式的划分结果中,拉框标注按照0001编码,3D点云标注按照0010编码,语义分割按照0011编码,打点标注按照0100编码,普通话转写按照0101编码,方言语音转写按照0110编码,外语校对按照0111编码,OCR识别按照1000编码,快判识别按照1001编码,其他按照0000编码;
[0024]基于标注标签的划分结果中,已做规范按照001编码,已做不规范按照010编码,未作按照100编码,设备正常按照101编码,设备异常按照110编码,意图分类按照011按照,序列指标按照111按照,其他按照000编码;
[0025]基于电力系统应用场景的划分结果中,安监按照001编码,基建按照010编码,设备按照011编码,综合按照100编码,营销按照101编码,调度按照110编码,其他按照000编码。
[0026]本专利技术方法的进一步改进在于,所述编码ID中,基于清晰程度的二进制编码、基于数据类型的二进制编码、基于标注开展形式的二进制编码、基于标注标签的二进制编码以及基于电力系统应用场景的二进制编码按照预设顺序排列。
[0027]本专利技术方法的进一步改进在于,在实现电力数据标注归集之后,还包括:
[0028]基于获得的电力数据标注归集结果,获取用于电力系统人工智能模型训练的训练样本。
[0029]本专利技术第二方面提供的一种电力数据标注归集系统,包括:
[0030]电力数据获取模块,用于基于目标电网,获取待标注归集的电力数据;
[0031]分类及编码标注模块,用于基于预先获取的划分方式及编码方式,对获取的所述电力数据进行分类以及编码标注,实现电力数据标注归集;
[0032]其中,所述预先获取的划分方式中,基于清晰程度、数据类型、标注开展形式、标注标签和电力系统应用场景中的一个或多个,对电力数据进行划分;所述编码方式中,基于预设的编码方法,获取电力数据的编码ID,所述编码ID用于编码标注。
[0033]本专利技术系统的进一步改进在于,所述分类及编码标注模块中,预先获取的编码方式中,采用二进制编码方法。
[0034]本专利技术系统的进一步改进在于,所述分类及编码标注模块中,预先获取的划分方
式的获取步骤包括:
[0035]基于所述目标电网,获取预设数量的历史电力数据;
[0036]基于获取的所述历史电力数据进行划分,获得用于清晰程度划分的阈值、用于数据类型划分的数据类型种类、用于标注开展形式划分的标注开展形式种类、用于标注标签划分的标注标签种类和用于电力系统应用场景划分的电力系统应用场景种类。
[0037]本专利技术系统的进一步改进在于,
[0038]所述数据类型种类包括图片、视频、文字、音频和其他中的一种或多种;
[0039]所述标注开展形式种类包括拉框标注、3D点云标注、语义分割、打点标注、普通话转写、方言语音转写、外语校对、OCR识别、快判识别和其他中的一种或多种;
[0040]所述标注标签种类包括已做规范、已做不规范、未作、设备正常、设备异常、意图分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电力数据标注归集方法,其特征在于,包括以下步骤:基于目标电网,获取待标注归集的电力数据;基于预先获取的划分方式及编码方式,对获取的所述电力数据进行分类以及编码标注,实现电力数据标注归集;其中,所述预先获取的划分方式中,基于清晰程度、数据类型、标注开展形式、标注标签和电力系统应用场景中的一个或多个,对电力数据进行划分;所述编码方式中,基于预设的编码方法,获取电力数据的编码ID,所述编码ID用于编码标注。2.根据权利要求1所述的一种电力数据标注归集方法,其特征在于,预先获取的编码方式中,采用二进制编码方法。3.根据权利要求1所述的一种电力数据标注归集方法,其特征在于,所述预先获取的划分方式的获取步骤包括:基于所述目标电网,获取预设数量的历史电力数据;基于获取的所述历史电力数据进行划分,获得用于清晰程度划分的阈值、用于数据类型划分的数据类型种类、用于标注开展形式划分的标注开展形式种类、用于标注标签划分的标注标签种类和用于电力系统应用场景划分的电力系统应用场景种类。4.根据权利要求3所述的一种电力数据标注归集方法,其特征在于,所述数据类型种类包括图片、视频、文字、音频和其他中的一种或多种;所述标注开展形式种类包括拉框标注、3D点云标注、语义分割、打点标注、普通话转写、方言语音转写、外语校对、OCR识别、快判识别和其他中的一种或多种;所述标注标签种类包括已做规范、已做不规范、未作、设备正常、设备异常、意图分类、序列指标和其他中的一种或多种;所述电力系统应用场景种类包括安监、基建、设备、综合、营销、调度和其他中的一种或多种。5.根据权利要求4所述的一种电力数据标注归集方法,其特征在于,预先获取的编码方式包括:基于清晰程度的划分结果中,清晰按照1编码,不清晰按照0编码;基于数据类型的划分结果中,图片按照001编码,视频按照010编码,文字按照011编码,音频按照100编码,其他按照000编码;基于标注开展形式的划分结果中,拉框标注按照0001编码,3D点云标注按照0010编码,语义分割按照0011编码,打点标注按照0100编码,普通话转写按照0101编码,方言语音转写按照0110编码,外语校对按照0111编码,OCR识别按照1000编码,快判识别按照1001编码,其他按照0000编码;基于标注标签的划分结果中,已做规范按照001编码,已做不规范按照010编码,未作按照100编码,设备正常按照101编码,设备异常按照110编码,意图分类按照011按照,序列指标按照111按照,其他按照000编码;基于电力系统应用场景的划分结果中,安监按照001编码,基建按照010编码,设备按照011编码,综合按照100编码,营销按照101编码,调度按照110编码,其他按照000编码。6.根据权利要求5所述的一种电力数据标注归集方法,其特征在于,所述编码ID中,基于清晰程度的二进制编码、基于数据类型的二进制编码、基于标注开展形式的二进制编码、
基于标注标签的二进制编码以及基于电力系统应用场景的二进制编码按照预设顺序排列。7.根据权利要求1所述的一种电力数据标注归集方法,其特征在于,在实现电力数据标注归集之后,还包括:基于获得的电力数据标注归集结果,获取用于电力系统人工智能模型训练的训练样本。8.一种电力数据标注归集系统,其特征在于,包括:电力数据获取模块,用于基于目标电网,获取待标注归集的电力数据;分类及编码标注模块,用于基于预先获取的划分方式及编码方式,对获取的所述电力数据进行分类以及编码标注,实现电力数据标注归集;其中,所述预先获取的划分方式中,基于清晰程...

【专利技术属性】
技术研发人员:李琰赵琦李武峰郑碧煌王新迎
申请(专利权)人:国家电网有限公司国网上海市电力公司中国电机工程学会
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1