System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及配电技术标准的,更具体地,涉及一种配电网技术标准知识图谱构建方法及系统。
技术介绍
1、
2、随着我国新型电力系统建设的快速推进,配电网作为电力系统的末端,其功能定位也在随之转变。分布式光伏、台区储能、电动汽车充电桩等装置大规模接入后使得配电网成为具有多元化源网荷储互动的新型配电系统。
3、现有的电力领域知识图谱构建方式中,通过大量获取数据的方式进行构建较为常见,但这种方式下增加了数据处理的复杂度,也不利于获取关键词汇。
技术实现思路
1、为解决现有技术中存在的不足,本专利技术提供一种配电网技术标准知识图谱构建方法,能够解决现有技术中对于配电网技术标准知识图谱构建过程负责、构建的词汇不全面、词汇关系不准确的问题。
2、本专利技术采用如下的技术方案。
3、一种配电网技术标准知识图谱构建方法,包括如下步骤:
4、获取配电网知识文本,对配电网知识文本进行预处理后得到训练数据集,并基于训练数据集对配电网标准类文本分类模型进行训练;
5、获取配电网标准词汇相关的文本信息,并结合训练后的配电网标准类文本分类模型得到配电网专业领域词汇集;
6、基于配电网专业领域词汇集获取各词汇的相关文本数据,并结合步骤1获取的配电网知识文本共同构成配电网标准参考数据库;
7、对配电网标准参考数据库中的数据进行句法分析,得到配电网标准分词实体关系;
8、基于配电网专业领域词汇集中的词汇和配电网
9、优选地,所述获取配电网知识文本,对配电网知识文本进行预处理后得到训练数据集,并基于训练数据集对配电网标准类文本分类模型进行训练,具体包括以下步骤:
10、获取配电网标准知识文本构建初始数据集;
11、对获取到的配电网标准知识文本进行预处理,得到训练所需的训练数据集;
12、基于cnn神经网络和训练数据集对配电网标准类文本分类模型进行训练,得到训练后的配电网标准类文本分类模型。
13、优选地,所述获取配电网标准知识文本构建初始数据集中,获取的配电网知识文本包括技术词典、技术类文章和配电网标准类新闻文本;
14、其中,配电网标准类新闻文本的获取还包括:利用搜索工具对配电网标准的相关新闻进行搜索,通过python程序爬取目标网址url,获得网页源代码,利用beautifulsoup解析工具对源代码进行解析,获得配电网标准类新闻文本。
15、优选地,所述对获取到的配电网标准知识文本进行预处理包括:
16、对于获得的技术类文章和配电网标准类新闻文本,去除所有的非中文字符并将所有的文本长度增加到文本长度最大值,空白文字用指定符号填充;
17、对经过预处理后的技术类文章和配电网标准类新闻文本进行拆分,划分长度相同的数据段得到数据段的集合;
18、依次对比各数据段的相似度,若出现连续k个中文字符一致判定为二者相似,k为预先设置的整数;
19、将相似的数据段划分至同一个集合中,得到m个集合,每个集合中至少有两个数据段,若某一数据段不存在与其相似的数据段,则直接将其划分至训练所需的训练数据集中,且标注为第一类数据集;
20、对m个集合分别按照集合中数据段的个数进行排序,并对每个集合中的数据段进行筛选,去除完全重复数据段避免训练所用的数据集过大,将筛选后的数据段标注为按照所属集合中数据段的个数依次标注为第二类数据集、第三类数据集直至第n类数据集,第n类数据集中所属集合中数据段的个数最多;
21、将筛选并标注后的数据段划分至训练所需的训练数据集中,并对各数据段进行赋权,第一类数据集至第n类数据集中数据段对应的权重依次升高。
22、优选地,所述获取配电网标准词汇相关的文本信息,并结合训练后的配电网标准类文本分类模型得到配电网专业领域词汇集,具体包括:
23、通过网络搜索配电网相关词条并爬取文本信息,将得到文本信息输入至训练后的配电网标准类文本分类模型中,得到配电网专业领域词汇集,以及每个词汇的重要度。
24、优选地,所述基于配电网专业领域词汇集获取各词汇的相关文本数据,并结合步骤1获取的配电网知识文本共同构成配电网标准参考数据库,具体包括:
25、利用得到的配电网专业领域词汇集中的词汇在网络中爬取相关词条文本数据,得到词条文本数据与配电网知识文本共同形成配电网标准参考数据库;其中,参考每个词汇的重要度,重要度越高的词汇所需得到的词汇文本句越多。
26、优选地,所述对配电网标准参考数据库中的数据进行句法分析,得到配电网标准分词实体关系具体包括以下步骤:
27、对于配电网标准参考数据库,通过句法分析得到句子成分,形成包含的词组1、关系、词组2的文本三元组;
28、通过依存句法分析确定句子的中性词,得到中性词的集合;
29、通过判断中心词与其他词的依存距离,确定配电网标准分词中词与词之间的实体关系。
30、本专利技术还提出了一种利用所述知识图谱构建方法的配电网技术标准知识图谱构建系统,包括:
31、数据采集模块,用于采集配电网的相关数据,包括配电网知识文本、配电网相关词条;
32、预处理模块,用于对采集到的配电网知识文本进行预处理,得到训练数据集;
33、训练模块,能够基于训练数据集对配电网标准类文本分类模型进行训练;
34、数据库构建模块,能够根据训练后的配电网标准类文本分类模型得到配电网专业领域词汇集,并基于配电网专业领域词汇集获取各词汇的相关文本数据,结合配电网知识文本构建配电网标准参考数据库;
35、句法分析模块,用于对配电网标准参考数据库中的数据进行句法分析,得到配电网标准分词实体关系;
36、知识图谱构建模块,能够基于配电网专业领域词汇集中的词汇和配电网标准分词实体关系构建配电网标准类知识图谱。
37、本专利技术还提出了一种终端,包括处理器及存储介质;
38、所述存储介质用于存储指令;
39、所述处理器用于根据所述指令进行操作以执行所述知识图谱构建方法的步骤。
40、本专利技术还提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述知识图谱构建方法的步骤。
41、本专利技术的有益效果在于,与现有技术相比,本专利技术提供的一种配电网技术标准知识图谱构建方法,通过爬取互联网中海量的配电网知识文本,训练配电网标准类文本分类模型,抽取配电网标准分词实体关系,构建配电网标准知识图谱,为学习者、使用者提供配电网标准相关分词、关系的搜索查询功能,便于全面、有效地获取相应技术标准,理清标准中词与词的相互关系。本专利技术所提出的知识图谱构建方法能够保证配电网技术标准高效实施,便于基层工作人员学习、运用及评价,辅助查找者全面、有效地获取相应技术标本文档来自技高网...
【技术保护点】
1.一种配电网技术标准知识图谱构建方法,其特征在于,包括如下步骤:
2.如权利要求1所述的配电网技术标准知识图谱构建方法,其特征在于,
3.如权利要求2所述的配电网技术标准知识图谱构建方法,其特征在于,
4.如权利要求2所述的配电网技术标准知识图谱构建方法,其特征在于,
5.如权利要求1所述的配电网技术标准知识图谱构建方法,其特征在于,
6.如权利要求5所述的配电网技术标准知识图谱构建方法,其特征在于,
7.如权利要求1所述的配电网技术标准知识图谱构建方法,其特征在于,
8.一种利用权利要求1-7任一项权利要求所述知识图谱构建方法的配电网技术标准知识图谱构建系统,其特征在于,包括:
9.一种终端,包括处理器及存储介质;其特征在于:
10.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
【技术特征摘要】
1.一种配电网技术标准知识图谱构建方法,其特征在于,包括如下步骤:
2.如权利要求1所述的配电网技术标准知识图谱构建方法,其特征在于,
3.如权利要求2所述的配电网技术标准知识图谱构建方法,其特征在于,
4.如权利要求2所述的配电网技术标准知识图谱构建方法,其特征在于,
5.如权利要求1所述的配电网技术标准知识图谱构建方法,其特征在于,
6.如权利要求5所述的配电网技术标...
【专利技术属性】
技术研发人员:顾泰宇,田野,朱义东,崔征,胡大伟,史可鉴,张新宇,杜威,李海峰,王智博,原峰,代继成,刘兆宸,李斌,韩月,范维,杨璐羽,赵振扬,刘桁宇,孙家正,张哲,张智,王珊珊,呼笑笑,
申请(专利权)人:国网辽宁省电力有限公司电力科学研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。