System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于领域知识图谱的电网智能问答系统技术方案_技高网
当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于领域知识图谱的电网智能问答系统技术方案

技术编号:40334346 阅读:7 留言:0更新日期:2024-02-09 14:24
本发明专利技术涉及电网智能问答系统技术领域,且公开了一种基于领域知识图谱的电网智能问答系统,包括知识图谱模块,所述知识图谱模块输出端连接有三元组置信度计算模块和改进BERT模型模块,其中改进BERT模型模块由数据预处理模块、BERT模型结构模块和损失函数优化模块所构成。本发明专利技术提供了一种基于领域知识图谱的电网智能问答系统,首先通过引入关键词模板对输入的文本进行二次划分,提高BERT模型识别电力领域相关实体的效果;再通过在BERT模型的嵌入层增加平均池化层处理模型的输入表征,提高了对词组语义的处理能力;后使用flooding方法优化损失了函数,使得模型在训练集、测试集和验证集上表现更加稳定的优点。

【技术实现步骤摘要】

本专利技术涉及电网智能问答系统,具体为一种基于领域知识图谱的电网智能问答系统


技术介绍

1、本文主要内容是基于领域知识图谱的电网智能问答系统的后端问答逻辑处理模块,相较于其他的电网智能问答系统,本文主要对后端问答处理模块进行了优化,优化的内容有:①基于改进bert预训练模型的实体识别模型,②基于改进bert模型和三元组置信度的ti_bert答案选择模型。

2、电力领域相关国家标准、变电运检相关制度和标准文件数据以及大量电力相关子领域研究论文等可信度较高的数据源知识结构大多是半结构化的表格数据以及非结构化的文本数据,对这些数据源知识抽取时,在调研学术界及其他领域的常用实体识别方法后,选用了bert-bilstm-crf实体识别模型进行识别,由于使用原生bert模型的bert-bilstm-crf实体识别模型一定程度上能够完成电力领域数据的实体识别任务,但也存在着遗漏重要实体、输出意义重复实体等问题,这是由于原生bert模型本身对中文专业领域数据的实体识别效果较差,以及所使用的电力领域数据集有着长短文本混合,实体名称比较专业化等特点,增加了实体识别的复杂性。

3、因此针对上述问题,我们提出一种基于领域知识图谱的电网智能问答系统。


技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本专利技术提供了一种基于领域知识图谱的电网智能问答系统,首先通过引入关键词模板对输入的文本进行二次划分,提高bert模型识别电力领域相关实体的效果;再通过在bert模型的嵌入层增加平均池化层处理模型的输入表征,提高了对词组语义的处理能力;后使用flooding方法优化损失了函数,使得模型在训练集、测试集和验证集上表现更加稳定的优点,解决了由于使用原生bert模型的bert-bilstm-crf实体识别模型一定程度上能够完成电力领域数据的实体识别任务,但也存在着遗漏重要实体、输出意义重复实体等问题,这是由于原生bert模型本身对中文专业领域数据的实体识别效果较差,以及所使用的电力领域数据集有着长短文本混合,实体名称比较专业化等特点,增加了实体识别复杂性的问题。

3、(二)技术方案

4、为实现上述目的,本专利技术提供如下技术方案:一种基于领域知识图谱的电网智能问答系统,包括知识图谱模块,所述知识图谱模块输出端连接有三元组置信度计算模块和改进bert模型模块,其中改进bert模型模块由数据预处理模块、bert模型结构模块和损失函数优化模块所构成,所述三元组置信度计算模块和改进bert模型模块输出端连接有改进bert答案选择模型模块,所述改进bert答案选择模型模块输入端及输出端分别连接有注意力遮蔽矩阵模块和输出答案模块。

5、优选的,所述数据预处理模块是为了得到输入序列中每一个词对应的表征向量,表征由词嵌入、段嵌入和位置嵌入三部分构成,其中段嵌入包括关键词模块,所述关键词模块基于知识图谱模块,将其中存储的实体和关系作为关键词,并通过分词工具从电力领域相关国家标准、变电运检相关制度和标准以及大量电力相关子领域研究论文等半结构化、非结构化的数据源中获得候选关键词集合,并通过textrank算法对候选关键词进行二次筛选;

6、其中textrank算法模块提取关键词步骤主要是:

7、①对于待提取关键词的文本进行分词、词性筛选、去重和去除停用词等数据预处理操作,得到候选关键词;

8、②构建候选关键词图,节点是候选关键词,共现关系是两点之间的边,两个节点之间仅当它们对应的词汇在长度为k的窗口中共现则存在边,k表示窗口大小即最多共现k个词汇;

9、③计算各节点textrank收敛值;

10、④选择textrank值最高的topn个词汇作为最终关键词;

11、textrank值计算方法如下:

12、

13、其中ws(vi)表示单词i的权重,右侧的求和表示每个相邻单词对本单词的贡献程度,wji表示两个单词的相似度,ws(vj)代表上次迭代出的单词i的权重,in(vi)表示由前面的各个能够到达单词i的单词的合集,out(vj)表示从单词j出去能够到达的其他单词的合集,d是阻尼系数,一般为0.85,公式表明,textrank中一个单词vi的权重取决于与在前面的各个点组成的这条边的权重,以及这个点到其他点的边的权重之和,textrank值越大表示词的重要性越高,从而对候选关键词集合中的关键词进行排序,最终经过二次筛选形成关键词模板。

14、优选的,所述bert模型结构模块主要由bert模型的输入模块、bert模型的嵌入层模块、bert模型的transformer层和bert模型的出入模块构成,其中在bert模型的嵌入层模块中引入平均池化层模型模块对bert模型的输入模块表征中的词嵌入向量进行改进;

15、其中平均池化层模型模块算法算法操作流程如下所示;

16、algorithm1平均池化操作;

17、input:tokenembedding维度t,池化核大小n;

18、parameter:补零操作f;

19、output:平均池化层处理后的token embedding;

20、1:while平均池化操作do;

21、2:t←t+n-1;

22、3:t←f(t);

23、4:endwhile;

24、5:returnt。

25、优选的,所述损失函数优化模块基于bert模型的损失函数并采用flood方法模块进行改进,由于使用原生bert模型的交叉熵损失函数时,模型在一定的训练轮数后能在训练集和验证集上取得较好的拟合效果,但在测试集上的表现相对较差;

26、其中flood方法模块算法操作流程如algorithm2所示;

27、algorithm2flooding操作;

28、input:bert模型输入序列,bert模型输出序列,阈值;

29、parameter:交叉熵函数;

30、output:模型损失值;

31、1:whileflooding操作do;

32、2:l←e(x,c);

33、3:l←|l-b|+b;

34、4:endwhile;

35、5:returnt。

36、优选的,所述三元置信度计算模块基于textrank算法模块思想,依据知识图谱模块中三元组中实体和关系在句子中的共现频率计算置信度,计算方法如下所示:

37、

38、其中weight(w,ri)用于表示实体w与关系ri的相关性,tfadj(w,ri)表示实体w对于关系ri的tf调整值,tfadj,max(ri)是对于所有相关实体集合w中tfadj(wk,ri)的最大值,tfadj,max(ri)的计算方法如下所示:

39、本文档来自技高网...

【技术保护点】

1.一种基于领域知识图谱的电网智能问答系统,包括知识图谱模块,其特征在于:所述知识图谱模块输出端连接有三元组置信度计算模块和改进BERT模型模块,其中改进BERT模型模块由数据预处理模块、BERT模型结构模块和损失函数优化模块所构成,所述三元组置信度计算模块和改进BERT模型模块输出端连接有改进BERT答案选择模型模块,所述改进BERT答案选择模型模块输入端及输出端分别连接有注意力遮蔽矩阵模块和输出答案模块。

2.根据权利要求1所述的一种基于领域知识图谱的电网智能问答系统,其特征在于:所述数据预处理模块是为了得到输入序列中每一个词对应的表征向量,表征由词嵌入、段嵌入和位置嵌入三部分构成,其中段嵌入包括关键词模块,所述关键词模块基于知识图谱模块,将其中存储的实体和关系作为关键词,并通过分词工具从电力领域相关国家标准、变电运检相关制度和标准以及大量电力相关子领域研究论文等半结构化、非结构化的数据源中获得候选关键词集合,并通过TextRank算法对候选关键词进行二次筛选;

3.根据权利要求1所述的一种基于领域知识图谱的电网智能问答系统,其特征在于:所述BERT模型结构模块主要由BERT模型的输入模块、BERT模型的嵌入层模块、BERT模型的Transformer层和BERT模型的出入模块构成,其中在BERT模型的嵌入层模块中引入平均池化层模型模块对BERT模型的输入模块表征中的词嵌入向量进行改进;

4.根据权利要求1所述的一种基于领域知识图谱的电网智能问答系统,其特征在于:所述损失函数优化模块基于BERT模型的损失函数并采用flood方法模块进行改进,由于使用原生BERT模型的交叉熵损失函数时,模型在一定的训练轮数后能在训练集和验证集上取得较好的拟合效果,但在测试集上的表现相对较差;

5.根据权利要求4所述的一种基于领域知识图谱的电网智能问答系统,其特征在于:所述三元置信度计算模块基于TextRank算法模块思想,依据知识图谱模块中三元组中实体和关系在句子中的共现频率计算置信度,计算方法如下所示:

6.根据权利要求1所述的一种基于领域知识图谱的电网智能问答系统,其特征在于:所述改进BERT答案选择模型模块基于改进BERT模型模块,其主要实现思路如下:

7.根据权利要求1所述的一种基于领域知识图谱的电网智能问答系统,其特征在于:所述注意力矩阵模块基于改进BERT答案选择模块,用于消除与输出答案类型不符的实体影响。

...

【技术特征摘要】

1.一种基于领域知识图谱的电网智能问答系统,包括知识图谱模块,其特征在于:所述知识图谱模块输出端连接有三元组置信度计算模块和改进bert模型模块,其中改进bert模型模块由数据预处理模块、bert模型结构模块和损失函数优化模块所构成,所述三元组置信度计算模块和改进bert模型模块输出端连接有改进bert答案选择模型模块,所述改进bert答案选择模型模块输入端及输出端分别连接有注意力遮蔽矩阵模块和输出答案模块。

2.根据权利要求1所述的一种基于领域知识图谱的电网智能问答系统,其特征在于:所述数据预处理模块是为了得到输入序列中每一个词对应的表征向量,表征由词嵌入、段嵌入和位置嵌入三部分构成,其中段嵌入包括关键词模块,所述关键词模块基于知识图谱模块,将其中存储的实体和关系作为关键词,并通过分词工具从电力领域相关国家标准、变电运检相关制度和标准以及大量电力相关子领域研究论文等半结构化、非结构化的数据源中获得候选关键词集合,并通过textrank算法对候选关键词进行二次筛选;

3.根据权利要求1所述的一种基于领域知识图谱的电网智能问答系统,其特征在于:所述bert模型结构模块主要由bert模型的输入模块、bert模型的嵌入层模...

【专利技术属性】
技术研发人员:林靖怡
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1