一种基于互联网电力政策信息的知识图谱构建方法技术

技术编号:32457745 阅读:9 留言:0更新日期:2022-02-26 08:39
本发明专利技术提供一种基于互联网电力政策信息的知识图谱构建方法,包括如下步骤:S1、采集互联网上的电力领域知识,结构化存储电力数据,构建原始的电力领域知识数据库;S2、构建电力领域知识专用词典,对采集到的互联网上的电力领域知识用基于动态规划的维特比算法进行分词处理,并根据电力领域知识专用词典进行词性标注;S3、基于TextRank算法对文本词、句进行权重判别,提取文本关键词和关键句;S4、根据分词词性提取文中词句中的实体信息,将获取的实体信息、提取的关键词和关键句映射到一个语义空间,使用图数据库对实体信息及其关系进行存储,形成知识图谱。本发明专利技术可有效处理电力专业领域政策信息获取和分析的问题,提高电网决策智能化水平。智能化水平。智能化水平。

【技术实现步骤摘要】
一种基于互联网电力政策信息的知识图谱构建方法


[0001]本专利技术属于电力领域决策辅助领域,具体涉及一种基于互联网电力政策信息的知识图谱构建方法。

技术介绍

[0002]随着全世界对环境保护关注的日趋上升,以及各国对能源管理创新与改革的迫切需求,电力行业面临着节能环保和信息化的变革要求,对传统电力系统的改造和升级显得刻不容缓。对电力系统而言,构建电力知识图谱以及更新知识图谱的重要性表现在:一方面,电力系统每天都在产生新的知识,电力系统的调度和决策的高效执行必须建立在对这些新的知识进行不断的进行学习和获取的基础上。对于这种不断出现的新的知识,知识图谱可以不断的将其结构化,并扩充到知识库中,从而为电力系统各类业务提供参考。另一方面,电力系统旧有的知识每天都在变化,可能是实体的相关属性值发生了变化,或者是实体之间的链接关系发生改变。电力系统的知识不是一成不变的,而是处在不断变化的过程中,电力系统这种知识的不断产生和变化凸显了不断更新和完善知识图谱的重要性。
[0003]对于类似的信息处理问题,在通用领域知识图谱表现良好,而对于电力这一专业领域的信息分析而言,常用的词典无法较准确地分辨一些专有名词和概念,这就产生了分词已经确定实体关系的局限性。为此,将知识图谱引入互联网电力领域政策信息分析场景,提出一种基于互联网电力政策信息的知识图谱构建方法,对互联网上的电力领域知识做采集处理,使从结构化数据与非结构化文档中抽取各类知识成为可能。

技术实现思路

[0004]本专利技术要解决的技术问题是提供一种基于互联网电力政策信息的知识图谱构建方法,在较少牺牲实体抽取精度前提下节约了存储量和运算量,有效节约电力政策信息辅助决策所需的检索与分析时间,长时间的数据记录为后续的决策奠定了良好的基础。
[0005]为解决上述技术问题,本专利技术的实施例提供一种基于互联网电力政策信息的知识图谱构建方法,包括如下步骤:
[0006]S1、采集互联网上的电力领域知识,结构化存储电力数据,构建原始的电力领域知识数据库;
[0007]S2、构建电力领域知识专用词典,以步骤S1中采集到的互联网上的电力领域知识为文本用基于动态规划的维特比算法进行分词处理,并根据电力领域知识专用词典进行词性标注,得到文本词、文本句;
[0008]S3、基于TextRank算法对步骤S2得到的文本词和文本句进行权重判别,提取文本关键词和关键句;
[0009]S4、根据分词词性提取文中词和文本句中的实体信息,将获取的实体信息和步骤S3提取的关键词、关键句映射到一个语义空间,使用图数据库对实体信息及其关系进行存储,形成基于互联网电力政策信息的知识图谱。
[0010]其中,步骤S1的具体步骤包括:
[0011]S1.1、选取电力领域政策信息的可信网络数据源;
[0012]S1.2、对网络数据源上的文本信息通过聚焦网络爬虫进行抓取,并根据系统获取信息的需求设计上下层提取器对网络数据源进行判重和置信度分析,降低信息采集系统的运算量和存储量;
[0013]S1.3、根据采集到信息的不同数据作结构化存储,构建原始的电力领域知识数据库。
[0014]其中,步骤S2的具体步骤包括:
[0015]S2.1、收集多篇语料文档,通过人工手工分词,统计人工分词后的词频:

统计分词后的每个词出现的频率,得到一元核心词典;

统计两个词两两相邻出现的频率,得到二元核心词典;
[0016]根据贝叶斯公式计算词A和词B在语料库中共同出现的频率和词B在语料库中出现的频率,基于这两个频率计算出在给定词B的条件下,下一个词是A的概率;
[0017]贝叶斯公式如下:
[0018]P(A|B)=P(A,B)P(B)=count(A,B)count(B);
[0019]其中,count(A,B)表示词A和词B在语料库中共同出现的频率;count(B)表示词B在语料库中出现的频率;
[0020]S2.2、Verterbi模型通过比较不同分词结果出现的可能性并选择最大者进行分词处理;
[0021]S2.3、根据通用词典和电力领域专用词典组成的词库,生成所有字可能组成的词网,通过遍历上述词网获取从一个词到另一个词的可能性,选择可能性最大的作为分词的结果,并根据电力领域知识专用词典进行词性标注。
[0022]其中,步骤S3包括:
[0023]S3.1、关键词的提取
[0024]将文本看作图,单词看作结点V
i
,选取半径为2的窗口,每个单词V
i
与自身前后固定窗口内的单词V
j
连接,初始化时每个结点的权重TR(V
i
)都是1,以迭代的方式更新每个结点的权重,权重最高的单词即是关键词;
[0025]每次迭代权重的公式如下:
[0026][0027]其中,W
ji
是单词V
j
和V
i
间的连接权重,一般设置为1;W
jk
是单词V
j
和V
k
间的连接权重,一般设置为1;d是阻尼系数,一般设置为0.85;TR(V
j
)是单词V
j
的权重;
[0028]S3.2、关键句的提取
[0029]以句子作为结点s
i
,考察句子间的相似度,相似度的计算公式如下:
[0030][0031]其中,p
k
为句子中的单词节点;
[0032]式中,分子是同时出现在两个句子中的同一个词的个数,分母是对句子中词的个
数求对数之和;
[0033]如果两个句子有相似性,认为这两个句子对应的节点之间存在一条无向有权边,以迭代的方式更新每个结点的权重,句子的迭代公式如下:
[0034][0035]其中,TR(S
i
)为结点S
i
的权重。
[0036]其中,步骤S4的具体步骤包括:
[0037]基于Verterbi模型对文本词的词性标注并对特定实体信息如机构和人名作提取,并将其与文本源作为核心结点构建知识图谱。将实体和实体间的关系映射到语义空间,采用向量的方法来表示实体和关系,导入Neo4j图数据库中保存为基于互联网电力政策信息的知识图谱。
[0038]本专利技术的上述技术方案的有益效果如下:
[0039]1、本专利技术将知识图谱引入互联网电力领域政策信息分析场景,提出了一种基于互联网电力政策信息的知识图谱构建方法,对互联网上的电力领域知识做采集处理,使从结构化数据与非结构化文档中抽取各类知识成为可能。
[0040]2、本专利技术采用知识图谱技术提供的图式的数据存储方式,相比传统存储方式,数据调取速度更快,实时图计算引擎真正实现人机互动的实时响应,做到即时决策。
附图说明
[0041]图1为本专利技术的基于互联网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于互联网电力政策信息的知识图谱构建方法,其特征在于,包括如下步骤:S1、采集互联网上的电力领域知识,结构化存储电力数据,构建原始的电力领域知识数据库;S2、构建电力领域知识专用词典,以步骤S1中采集到的互联网上的电力领域知识为文本用基于动态规划的维特比算法进行分词处理,并根据电力领域知识专用词典进行词性标注,得到文本词、文本句;S3、基于TextRank算法对步骤S2得到的文本词和文本句进行权重判别,提取文本关键词和关键句;S4、根据分词词性提取文中词和文本句中的实体信息,将获取的实体信息和步骤S3提取的关键词、关键句映射到一个语义空间,使用图数据库对实体信息及其关系进行存储,形成基于互联网电力政策信息的知识图谱。2.根据权利要求1所述的基于互联网电力政策信息的知识图谱构建方法,其特征在于,步骤S1的具体步骤包括:S1.1、选取电力领域政策信息的可信网络数据源;S1.2、对网络数据源上的文本信息通过聚焦网络爬虫进行抓取,并根据系统获取信息的需求设计上下层提取器对网络数据源进行判重和置信度分析,降低信息采集系统的运算量和存储量;S1.3、根据采集到信息的不同数据作结构化存储,构建原始的电力领域知识数据库。3.根据权利要求1所述的基于互联网电力政策信息的知识图谱构建方法,其特征在于,步骤S2的具体步骤包括:S2.1、收集多篇语料文档,通过人工手工分词,统计人工分词后的词频:

统计分词后的每个词出现的频率,得到一元核心词典;

统计两个词两两相邻出现的频率,得到二元核心词典;根据贝叶斯公式计算词A和词B在语料库中共同出现的频率和词B在语料库中出现的频率,基于这两个频率计算出在给定词B的条件下,下一个词是A的概率;贝叶斯公式如下:P(A|B)=P(A,B)P(B)=count(A,B)count(B);其中,count(A,B)表示词A和词B在语料库中共同出现的频率;count(B)表示词B在语料库中出现的频率;S2.2、Verterbi模型通过比较不同分词结果出现的可能性并选择最大者进行分词处理;S2...

【专利技术属性】
技术研发人员:王翀查易艺张明明徐青山许梦晗林杉宋玉
申请(专利权)人:国网江苏省电力有限公司信息通信分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1