System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于迹聚类方法的产业链知识库构建方法及系统技术方案_技高网

一种基于迹聚类方法的产业链知识库构建方法及系统技术方案

技术编号:41291198 阅读:2 留言:0更新日期:2024-05-13 14:42
本发明专利技术公开了一种基于迹聚类方法的产业链知识库构建方法及系统,涉及知识库构建技术领域,包括结合流程实例的属性对事件日志分别从三个角度构建空间向量模型;从三个角度分别构建每个角度下的相似性度量方法,加权聚合后得到加权聚合相似性矩阵;对得到的加权聚合相似性矩阵使用K均值的高斯混合模型聚类划分日志,并根据属于同一个变体的迹在各个簇中所占的比例对由K均值的高斯混合模型聚类的结果进行调整,得到最终的聚类结果。本发明专利技术能够针对产业链的工作特点对用电量需求进行多角度预测分析,最终有效构建产业链细分的知识图谱。

【技术实现步骤摘要】

本专利技术涉及知识库构建,特别是一种基于迹聚类方法的产业链知识库构建方法及系统


技术介绍

1、知识体系构建是指采用什么样的方式表达和构建知识,是对知识图谱的数据模型的一种抽象。经常听到各种类型的事件图谱、上下位关系图谱、关系图谱等词汇,这其实是对不同的应用场景,人们对知识体系架构的划分。

2、迹聚类方法作为一种典型的无监督学习方法,被广泛用于对各类知识图谱的分析研究。目前,这类过程相关的数据集主要由事件日志所构成。事件日志首先被分解为子日志,每个子日志都包含类似结构的痕迹。然后,将过程发现技术应用于生成的每个子日志,以获得一组子流程模型,这些模型提供了关于业务流程的更准确和更容易理解的视图。使用不同的方式表示迹,可以从不同角度来度量其相似性。文献使用迹的原编码,通过评估标准字符串距离度量,如levenshtein编辑距离,计算迹的相似性。

3、然而,如果迹中包含多次循环的序列,使用编辑距离会产生比较大的误差。现有技术提出了基于保守模式的多个特征集,并验证了所提出的特征集比传统主流距离度量方法具有更好的性能。然而对于产业链知识库而言,其数据属性中不仅包含活动属性,还有资源和时间等属性。设计知识体系是以业务出发点,不同应用场景下,知识体系的构建都有所不同,能经常听到各种类型的事件图谱、上下位关系图谱、关系图谱等词汇,这其实是对不同的应用场景,人们对知识体系架构的划分。若仅考虑事件流视角来区分案例间的相似性则难以构建满足需求。


技术实现思路

1、鉴于上述现有迹中包含多次循环的序列,使用编辑距离会产生比较大的误差的问题,提出了本专利技术。

2、因此,本专利技术所要解决的问题在于如何提供一种能对产业链数据的多维度分析,为后续聚类分析提供理论支撑和实现对产业链知识数据的分类整理的方法。

3、为解决上述技术问题,本专利技术提供如下技术方案:

4、第一方面,本专利技术实施例提供了一种基于迹聚类方法的产业链知识库构建方法,其包括,结合流程实例的属性对事件日志分别从三个角度构建空间向量模型;从三个角度分别构建每个角度下的相似性度量方法,加权聚合后得到加权聚合相似性矩阵;对得到的加权聚合相似性矩阵使用k均值的高斯混合模型聚类划分日志,并根据属于同一个变体的迹在各个簇中所占的比例对由k均值的高斯混合模型聚类的结果进行调整,得到最终的聚类结果。

5、作为本专利技术所述基于迹聚类方法的产业链知识库构建方法的一种优选方案,其中:所述三个角度包括事件流、时间维度和空间维度。

6、作为本专利技术所述基于迹聚类方法的产业链知识库构建方法的一种优选方案,其中:所述事件流使用基于活动的后继关系,且考虑活动之间的并发关系构建事件流编码;发现活动之间的并发关系使用如下计算过程:给定一个阈值,如果a||b,其中,ab∈ω,当且仅当以下公式时,表明a和b为并发活动:

7、

8、其中,a→b表示产业链节点a指向b的事件流,|a→b|表示a指向b的事件流在事件流编码σn中出现的次数;计算两个迹σ1和σ2在事件流视角的相似度的公式如下:

9、

10、其中,σ1和σ2分别为两个不同的事件流编码,sc为相似度,l为事件流编码长度,k为产业链节点的序号。

11、作为本专利技术所述基于迹聚类方法的产业链知识库构建方法的一种优选方案,其中:所述时空维度的相似性度量包括如下内容:采用深度学习方法提取时空属性的语义特征;为便于把不同单位及量级的时空维度值进行比较,使不同的数据具有相同的尺度,将构建所有产业链活动的最近关联活动集:

12、nap={(b,a),(c,a),(e,c),(e,d),…}

13、其中,a~e分别表示不同的产业链节点,nap表示最近关联活动集;基于z-score对关联活动数据进行标准化清洗处理:

14、

15、其中,其中,是当前要标准化的活动对的值,和分别为原始数据的平均值和方差;分别比较时间和空间维度下迹的相似性,计算公式如下:

16、

17、

18、其中,表示nap集合中第n个元素对在时域上保持关联的最大时间,t1*和t2*分别表示时间维度上t1和t2中包含的有效的最近关联活动对的类别;表示nap集合中第n个元素对在空域上保持关联的最大距离,和分别表示空间维度上π1和π2中包含的有效的最近关联活动对的类别。δ为尺度常数。

19、作为本专利技术所述基于迹聚类方法的产业链知识库构建方法的一种优选方案,其中:所述加权聚合后得到加权聚合相似性矩阵包括:基于加权方法将不同维度的相似性参数进行聚合,公式如下:

20、s=ω1sc(σ1,σ2)+ω2st(t1,t2)+(1-ω1-ω2)sp(π1,π2)

21、其中,s为聚合相似性,ω1为事件流权值,ω2为时间维度权值。

22、作为本专利技术所述基于迹聚类方法的产业链知识库构建方法的一种优选方案,其中:所述加权聚合后得到加权聚合相似性矩阵还包括动态调整不同角度权重的大小,包括以下内容:强化学习模型:对q值进行更新,公式如下:

23、

24、其中,q(s,a)是在状态l下采取行动a的预期回报,α是学习率,γ是折扣因子,r是奖励。

25、作为本专利技术所述基于迹聚类方法的产业链知识库构建方法的一种优选方案,其中:所述使用k均值的高斯混合模型聚类划分日志,并根据属于同一个变体的迹在各个簇中所占的比例对由k均值的高斯混合模型聚类的结果进行调整包括以下步骤:输入为产业链图谱数据样本集g,高斯混合成分个数k;输出为样本集类集合c;对样本集g进行k均值聚类,得到族划分ckm;计算初始参数:

26、

27、

28、

29、n1+n2+…+nk+…+nk=n

30、计算样本集g中由各高斯成分生成的概率πik,对参数进行更新:

31、

32、

33、

34、将{(πk,μk,σk)∣1≤k≤k}更新为直到满足停止条件;其中,和分别为迭代前后高斯成分k的混合系数,和为迭代前后高斯成分k的聚类均值,和分别为迭代前后高斯成分k的协方差矩阵,nk为高斯聚类k的样本数。

35、第二方面,本专利技术为进一步解决现有迹中包含多次循环的序列,使用编辑距离会产生比较大的误差的问题,实施例提供了基于迹聚类方法的产业链知识库构建系统,其包括:向量构建模块,用于根据事件日志属性构建多角度的空间向量模型;相似度计算模块,用于分别从事件流、时间和空间等角度计算迹之间的相似度;加权聚合模块,用于对不同角度的相似度进行加权融合,得到聚合相似度矩阵;聚类模块,用于使用高斯混合模型对相似度矩阵进行聚类,并结合迹聚类验证结果调整以得到最终聚类。

36、第三方面,本专利技术实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中:所述计算机程序被处理器执行时实本文档来自技高网...

【技术保护点】

1.一种基于迹聚类方法的产业链知识库构建方法,其特征在于:包括:

2.如权利要求1所述的基于迹聚类方法的产业链知识库构建方法,其特征在于:所述多个角度包括事件流、时间维度和空间维度。

3.如权利要求2所述的基于迹聚类方法的产业链知识库构建方法,其特征在于:所述事件流使用基于活动的后继关系,且考虑活动之间的并发关系构建事件流编码;

4.所述如权利要求3所述的基于迹聚类方法的产业链知识库构建方法,其特征在于:所述时间维度和空间维度的相似性度量包括如下内容:

5.如权利要求4所述的基于迹聚类方法的产业链知识库构建方法,其特征在于:所述加权聚合后得到加权聚合相似性矩阵是基于加权方法将不同维度的相似性参数进行聚合,公式如下:

6.如权利要求5所述的基于迹聚类方法的产业链知识库构建方法,其特征在于:所述加权聚合后得到加权聚合相似性矩阵还包括动态调整不同角度权重的大小,包括以下内容:

7.如权利要求6所述的基于迹聚类方法的产业链知识库构建方法,其特征在于:所述使用K均值的高斯混合模型聚类划分日志,并根据属于同一个变体的迹在各个簇中所占的比例对由K均值的高斯混合模型聚类的结果进行调整包括以下步骤:

8.一种多频运行的单相并网逆变器拓扑及其控制系统,基于权利要求1~7任一所述的基于迹聚类方法的产业链知识库构建方法,其特征在于:包括:

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1~7任一所述的基于迹聚类方法的产业链知识库构建方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1~7任一所述的基于迹聚类方法的产业链知识库构建方法的步骤。

...

【技术特征摘要】

1.一种基于迹聚类方法的产业链知识库构建方法,其特征在于:包括:

2.如权利要求1所述的基于迹聚类方法的产业链知识库构建方法,其特征在于:所述多个角度包括事件流、时间维度和空间维度。

3.如权利要求2所述的基于迹聚类方法的产业链知识库构建方法,其特征在于:所述事件流使用基于活动的后继关系,且考虑活动之间的并发关系构建事件流编码;

4.所述如权利要求3所述的基于迹聚类方法的产业链知识库构建方法,其特征在于:所述时间维度和空间维度的相似性度量包括如下内容:

5.如权利要求4所述的基于迹聚类方法的产业链知识库构建方法,其特征在于:所述加权聚合后得到加权聚合相似性矩阵是基于加权方法将不同维度的相似性参数进行聚合,公式如下:

6.如权利要求5所述的基于迹聚类方法的产业链知识库构建方法,其特征在于:所述加权聚合后得到加权聚合相似性矩阵还包...

【专利技术属性】
技术研发人员:代盛国赵永辉杨晓华杨子阳茶建华艾渊李家浩
申请(专利权)人:云南电网有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1