基于语义的电力计量数据处理方法、装置和计算机设备制造方法及图纸

技术编号:30789914 阅读:15 留言:0更新日期:2021-11-16 07:52
本申请涉及一种基于语义的电力计量数据处理方法、装置、计算机设备和存储介质。所述方法包括:获取待爬取网页;根据所述待爬取网页与电力计量主题的相关度,对所述待爬取网页进行内容爬取,获取爬取结果;将所述爬取结果与电力计量的知识单元数据库中对应的知识单元对应存储,所述知识单元数据库包括各知识单元,任意一个所述知识单元包括所述电力计量主题的实体与实体之间关系的三元组。采用本方法能够提高电力计量数据存储和搜索时的专业度。能够提高电力计量数据存储和搜索时的专业度。能够提高电力计量数据存储和搜索时的专业度。

【技术实现步骤摘要】
基于语义的电力计量数据处理方法、装置和计算机设备


[0001]本申请涉及电力系统
,特别是涉及一种基于语义的电力计量数据处理方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着技术的发展,电力计量
的数据呈现爆炸式增长,对高效采集、管理和利用庞大的电力计量
的数据带来了挑战。传统的电力计量数据,都是按照获得的电力计量数据时的方式,或者仅仅是进行简单的格式转换后进行存储,在后续进行搜索时,再基于关键字进行搜索,搜索的准确率和召回率不稳定。

技术实现思路

[0003]基于此,有必要针对上述技术问题,提供一种基于语义的电力计量数据处理方法、装置、计算机设备和存储介质。
[0004]一种基于语义的电力计量数据处理方法,所述方法包括:
[0005]获取待爬取网页;
[0006]根据所述待爬取网页与电力计量主题的相关度,对所述待爬取网页进行内容爬取,获取爬取结果;
[0007]将所述爬取结果与电力计量的知识单元数据库中对应的知识单元对应存储,所述知识单元数据库包括各知识单元,任意一个所述知识单元包括所述电力计量主题的实体与实体之间关系的三元组。
[0008]一种基于语义的电力计量数据处理方法,所述方法包括:
[0009]接收搜索请求;
[0010]根据所述搜索请求,在电力计量的知识单元数据库中对应的知识单元中进行语义搜索,搜索获得与所述搜索请求对应的知识单元;所述知识单元数据库包括各知识单元,任意一个所述知识单元包括所述电力计量主题的实体与实体之间关系的三元组;
[0011]获取所述电力计量的知识单元数据库中存储的,与搜索到的知识单元对应的数据;将获取的数据作为所述搜索请求对应的搜索结果。
[0012]一种基于语义的电力计量数据处理装置,所述装置包括:
[0013]获取模块,用于获取待爬取网页;
[0014]爬取模块,用于根据所述待爬取网页与电力计量主题的相关度,对所述待爬取网页进行内容爬取,获取爬取结果;
[0015]存储模块,用于将所述爬取结果与电力计量的知识单元数据库中对应的知识单元对应存储,所述知识单元数据库包括各知识单元,任意一个所述知识单元包括所述电力计量主题的实体与实体之间关系的三元组。
[0016]一种基于语义的电力计量数据处理装置,所述装置包括:
[0017]请求接收模块,用于接收搜索请求;
[0018]知识单元搜索模块,用于根据所述搜索请求,在电力计量的知识单元数据库中对应的知识单元中进行语义搜索,搜索获得与所述搜索请求对应的知识单元;所述知识单元数据库包括各知识单元,任意一个所述知识单元包括所述电力计量主题的实体与实体之间关系的三元组;
[0019]数据获取模块,用于获取所述电力计量的知识单元数据库中存储的,与搜索到的知识单元对应的数据;并将获取的数据作为所述搜索请求对应的搜索结果。
[0020]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述任意一个实施例中的基于语义的电力计量数据处理方法的步骤。
[0021]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述任意一个实施例中的基于语义的电力计量数据处理方法的。
[0022]上述基于语义的电力计量数据处理方法、装置、计算机设备和存储介质,其通过待爬取网页与电力计量主题的相关度,对待爬取网页进行内容爬取,获取爬取结果,针对获得的爬取结果,是将其与电力计量的知识单元数据库中对应的知识单元进行存储,且知识单元是包括电力计量主题的实体与实体之间关系的三元组,从而,在对爬取到的与电力计量主题相关的数据进行存储时,是与存在实体与实体之间关系的知识单元对应存储,从而可以对该数据进行语义相关的存储,后续在进行检索时,可以基于对应的知识单元实现基于语义的检索,大大提高了电力计量数据存储和搜索时的专业度,而且可以基于知识单元实现语义理解,提高搜索时的准确率和召回率的稳定性。
附图说明
[0023]图1为一个实施例中基于语义的电力计量数据处理方法的应用环境图;
[0024]图2为一个实施例中基于语义的电力计量数据处理方法的流程示意图;
[0025]图3为一个实施例中基于语义的电力计量数据处理方法的流程示意图;
[0026]图4为一个实施例中的整体实施时的基本功能原理示意图;
[0027]图5为一个实施例中提取知识单元的原理示意图;
[0028]图6为一个实施例中基于语义的电力计量数据处理装置的结构框图;
[0029]图7为一个实施例中基于语义的电力计量数据处理装置的结构框图;
[0030]图8为一个实施例中计算机设备的内部结构图;
[0031]图9为另一个实施例中计算机设备的内部结构图。
具体实施方式
[0032]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0033]本申请提供的基于语义的电力计量数据处理方法,可以应用于如图1所示的应用环境中。其中,该应用环境可以涉及终端10和服务器20,终端10可以从网络或者与电力系统相关的网络的网页中,进行内容爬取,获得爬取结果。服务器20中存储有电力计量的知识单元数据库,知识单元数据库包括各知识单元,任意一个知识单元包括电力计量主题的实体
与实体之间关系的三元组。终端10爬取获得的爬取结果,可以通过与电力计量的知识单元数据库中对应的知识单元对应的方式存储,具体可以是存储该知识单元数据库中。在一些实施例中,也可以是由该服务器20从网络或者与电力系统相关的网络的网页中,进行内容爬取,获得爬取结果,并将获得的爬取结果通过与电力计量的知识单元数据库中对应的知识单元对应的方式存储。
[0034]该应用环境还可以涉及终端30,用户可以通过使用该终端30向服务器20发起查询请求,服务器20基于该查询请求,从知识单元数据库的各知识单元中查找到对应的知识单元,再获得该知识单元关联存储的爬取结果,并将该爬取结果作为查询结果返回给终端30。其中,终端10、30可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器20可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0035]在一个实施例中,如图2所示,提供了一种基于语义的电力计量数据处理方法,以该方法应用于图1中的终端10或者服务器20为例进行说明,包括以下步骤S201至步骤S203。
[0036]步骤S201:获取待爬取网页。
[0037]待爬取网页是要进行内容爬取的目标网页。可以通过各种可能方式获得待爬取网页,例如预先设定有待爬取网页的集合,或者与电力计量相关的网页,都设置为待爬取网页。
[0038]步骤S202:根据所述待爬取网页与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义的电力计量数据处理方法,其特征在于,所述方法包括:获取待爬取网页;根据所述待爬取网页与电力计量主题的相关度,对所述待爬取网页进行内容爬取,获取爬取结果;将所述爬取结果与电力计量的知识单元数据库中对应的知识单元对应存储,所述知识单元数据库包括各知识单元,任意一个所述知识单元包括所述电力计量主题的实体与实体之间关系的三元组。2.根据权利要求1所述的方法,其特征在于,根据所述待爬取网页与电力计量主题的相关度,对所述待爬取网页进行内容爬取,获取爬取结果,包括:计算所述待爬取网页与电力计量主题的第一主题相关度;根据所述第一主题相关度,从所述待爬取网页中筛选出目标爬取网页;计算各所述目标爬取网页的各网页区域与所述电力计量主题的第二主题相关度;根据所述第二主题相关度确定所述DOM树中的目标爬取区域;对所述目标爬取区域对应的内容进行内容爬取,获取爬取结果。3.根据权利要求2所述的方法,其特征在于,计算所述待爬取网页与电力计量主题的第一主题相关度,包括:计算所述待爬取网页与电力计量主题的基于链接的链接相关度;计算所述待爬取网页与电力计量主题的基于内容的内容相关度;基于所述链接相关度和所述内容相关度,确定所述第一主题相关度。4.根据权利要求3所述的方法,其特征在于,计算所述待爬取网页与电力计量主题的基于链接的链接相关度,包括:根据所述待爬取网页被其他网页链接的信息,获得链接所述待爬取网页的各所述其他网页的子相关度;确定各所述其他网页与所述电力计量主题的页面相关度;根据各所述其他网页的子相关度以及各所述其他网页的页面相关度,确定所述链接相关度。5.根据权利要求2所述的方法,其特征在于,计算各所述目标爬取网页的各网页区域与所述电力计量主题的第二主题相关度,包括:将所述目标爬取网页作为一棵DOM树,所述目标爬取网页的各区域作为所述DOM树的分支,各所述区域对应的各标签作为所述DOM树的节点,计算各所述节点与所述电力计量主题的相关度;将所述节点与所述电力计量主题的相关度,作为所述节点对应的标签代表的分块区域与所述电力计量主题的第二主题相关度。6.根据权利要求1所述的方法,其特征在于,包括以下两项中的至少一项:第一项:所述知识单元数据库的建立方式包括:获取电力计量领域的知识图谱;以所述知识图谱的根节点为起点,自顶向下...

【专利技术属性】
技术研发人员:郑楷洪李胜周尚礼龚起航曾璐琨杨庚
申请(专利权)人:南方电网数字电网研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1