System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及电网数据处理,特别是一种基于transformer架构的用于电网知识图谱构建方法及系统。
技术介绍
1、随着互联网的高速发展,无时不刻都会产生海量信息,各种类别的电子数据出现了爆发式增长的现象,其中电子数据主要以文本的形式进行存储。然而文本类型的数据具有非结构化的特定,这一类数据蕴含着海量的信息,且难以被常规手段量化,如何从文本形式的数据提取出有效的知识实体,即有价值的信息,是当前的研究热点。一般情况下,采用最多的方式是提取文本中的关键词,通过文本匹配的方式具象化文本内容,但是由于存在“近义词”以及“语义异构”的现象,通过这种方式难以充分挖掘文本数据所蕴含的信息。知识图谱是一种新的知识组织形式,其以有向图的方式对知识实体进行建模,因此基于语义的搜索更容易挖掘文本所蕴含的信息。然而在知识图谱构建领域内,常用的方法包括基于规则的实体识别方法、基于统计学习的实体识别方法,然而这两种方法都局限于人对事物的主观认知,难以给出客观的评价标准,这导致实体识别的可移植性较差,难以进行推广。
2、针对文本形式的数据蕴含信息提取效率低,而传统知识图谱中知识实体识别方法受人主观认知影响大,实体识别方法难以移植的问题。本专利技术专利提出了一种基于transformer架构的用于知识图谱构建的知识实体识别方法,该方法能够引入了自注意力机制,可以建立字符之间的联系并给出相关性,可以解决文本形式数据中出现的长距离语义依赖问题,可以通过自监督的方式学习大量语义数据,在应用过程中只需要少量文本数据就可以实现高效的知识主体识别,具有良好的
技术实现思路
1、鉴于现有的传统知识图谱中知识实体识别方法中存在的问题,提出了本专利技术。
2、因此,本专利技术所要解决的问题在于传统知识图谱中知识实体识别方法受人主观认知影响大,实体识别方法难以移植的问题。
3、为解决上述技术问题,本专利技术提供如下技术方案:
4、第一方面,本专利技术实施例提供了一种基于transformer架构的用于电网知识图谱构建方法,其包括,
5、采用多模态数据融合技术整合不同类型的数据源,并优化数据,降低复杂度;
6、构建多模态transformer架构,并针对电网领域的特定需求进行优化;
7、使用transformer模型分析不同实体之间的关系,基于分析结果确当实体关系,构建知识图谱。
8、作为本专利技术所述基于transformer架构的用于电网知识图谱构建方法的一种优选方案,其中:所述多模态数据融合技术如下式所示:
9、
10、其中,y表示混合神经网络的输出,f()为高层融合函数,用于整合不同子网络的特征,wi为是第i个子网络的权重,gi(xi)是第i个子网络的特征提取函数,其中xi是对应的输入数据,∫ω表示对所有可能的特征组合进行积分,以考虑不同特征之间的复杂交互,h(w,x)是一个复杂信息过滤函数,用于处理不同模态之间的交互,w表示特征组合的参数,x表示整体输入数据。
11、作为本专利技术所述基于transformer架构的用于电网知识图谱构建方法的一种优选方案,其中:所述优化数据采用以下公式表示为:
12、fout=c1×1(xin)
13、y1=c1×3(c3×1(fout))
14、br1=c1×3(c3×1(y1))
15、br2=c1×3,r(c3×1,r(y1))
16、yout=tshuffle(c1×1(br1+br2)+xin)
17、其中,用xin和yout表示输入和输出的特征,r表示的是空洞率,tshuffle表示的是不同通道之间的信息进行随机调换处理,而ci×j表示大小为i×j的卷积。
18、作为本专利技术所述基于transformer架构的用于电网知识图谱构建方法的一种优选方案,其中:所述多模态transformer架构如下式所示:
19、
20、其中,f(y)为是最终的模型函数,用于综合处理多模态数据,h(y)为多模态处理函数,用于处理多模态数据,λ为归一化参数,用于调整不同模态数据的贡献度,wi和g(y)分别是权重和一系列复杂的信息过滤函数,用于提取关键信息,aj和kj(ej)是用于实体识别的系列函数,ej是从数据中识别出的电网相关实体,n和m分别为信息过滤函数和实体识别函数的数量。
21、作为本专利技术所述基于transformer架构的用于电网知识图谱构建方法的一种优选方案,其中:所述多模态transformer架构还包括自注意力机制,计算步骤如下所示:
22、将对输入的自注意力矩阵的数据与三个权重矩阵相乘,产生:查询向量、键值向量和值向量;
23、求解当前输入的多模态数据中所有词语对目标词语的注意力得分;
24、计算softmax得到当前输入数据对关注词的贡献度;
25、将数据中词语的值向量与贡献度相乘,再对进行求和,可以得到当前输入数据对于关注词语的输出值;
26、对所有词语进行上述操作,初步建立全部词语的关系。
27、作为本专利技术所述基于transformer架构的用于电网知识图谱构建方法的一种优选方案,其中:所述确定实体关系包括以下步骤:
28、根据自注意力机制处理后的数据,建立每对实体的关系分数;
29、预测实体间的关系类型;
30、根据实体和预测的关系构建图,实体为节点,关系为边;
31、使用算法处理图,更新节点特征;
32、基于算法输出计算实体间关系的强度,输出新实体表示。
33、作为本专利技术所述基于transformer架构的用于电网知识图谱构建方法的一种优选方案,其中:所述更新节点特征如下式所示:
34、
35、其中,hvl表示节点v在第l层的特征表示,n(v)是v的邻居节点集合,dv和du分别是v和它的邻居u的度,w(l)是可学习的权重矩阵;
36、所述输出新实体表示根据下式输出:
37、
38、其中,是算法输出的新实体表示。
39、第二方面,本专利技术实施例提供了一种基于transformer架构的用于电网知识图谱构建系统,其包括:
40、多模态数据融合模块,用于整合不同类型的数据源,并优化数据以降低复杂度;
41、transformer架构优化模块,用于进一步降低计算量和参数数量,包括特征减半的卷积处理、分解卷积以增加网络深度,以及双分支结构的应用,以提取更丰富的文本信息;
42、多模态transformer模型构建模块,用于从优化过的多模态数据中提取关键信息;
43、实体识别与关系分析模块,用于利用transformer模型分析不同实体之间的关系,并预测实体间的潜在关系;
44、知识图谱构建模块,用于基于提取出的实体和本文档来自技高网...
【技术保护点】
1.一种基于Transformer架构的用于电网知识图谱构建方法,其特征在于:包括,
2.如权利要求1所述的基于Transformer架构的用于电网知识图谱构建方法,其特征在于:所述多模态数据融合技术如下式所示:
3.如权利要求2所述的基于Transformer架构的用于电网知识图谱构建方法,其特征在于:所述优化数据采用以下公式表示为:
4.如权利要求3所述的基于Transformer架构的用于电网知识图谱构建方法,其特征在于:所述多模态Transformer架构如下式所示:
5.如权利要求4所述的基于Transformer架构的用于电网知识图谱构建方法,其特征在于:所述多模态Transformer架构还包括自注意力机制,计算步骤如下所示:
6.如权利要求5所述的基于Transformer架构的用于电网知识图谱构建方法,其特征在于:所述确定实体关系包括以下步骤:
7.如权利要求6所述的基于Transformer架构的用于电网知识图谱构建方法,其特征在于:所述更新节点特征如下式所示:
8.一种基于T
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1~7任一所述的基于Transformer架构的用于电网知识图谱构建方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1~7任一所述的基于Transformer架构的用于电网知识图谱构建方法的步骤。
...【技术特征摘要】
1.一种基于transformer架构的用于电网知识图谱构建方法,其特征在于:包括,
2.如权利要求1所述的基于transformer架构的用于电网知识图谱构建方法,其特征在于:所述多模态数据融合技术如下式所示:
3.如权利要求2所述的基于transformer架构的用于电网知识图谱构建方法,其特征在于:所述优化数据采用以下公式表示为:
4.如权利要求3所述的基于transformer架构的用于电网知识图谱构建方法,其特征在于:所述多模态transformer架构如下式所示:
5.如权利要求4所述的基于transformer架构的用于电网知识图谱构建方法,其特征在于:所述多模态transformer架构还包括自注意力机制,计算步骤如下所示:
6.如权利要求5所述的基于transformer架构的用于电网知识图谱构...
【专利技术属性】
技术研发人员:代盛国,杨晓华,杨茗,杨子阳,赵毅涛,杨昊,孙立元,
申请(专利权)人:云南电网有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。