System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大数据语义的相似事件检索方法、系统、设备和介质技术方案_技高网

基于大数据语义的相似事件检索方法、系统、设备和介质技术方案

技术编号:40323546 阅读:6 留言:0更新日期:2024-02-09 14:18
本申请涉及基于大数据语义的相似事件检索方法、系统、设备和介质,该方法利用分布式计算平台对指定业务领域的多源异构数据进行数据汇聚和整编,加快数据计算速度,然后采用伯特模型将事件案例库中事件的文本信息进行向量化处理,实现事件的文本向量化,再采用费斯向量数据库进行相似语义搜索,得到各事件的事件相关属性,最后根据各事件的事件相关属性和指定的目标事件,进一步利用事件相似度计算模型分别计算得到目标事件的相似事件的结构相似度和属性相似度,实现较细粒度的指定业务领域的相似事件区分,大幅提高了细分业务领域的相似事件检索准确率。

【技术实现步骤摘要】

本专利技术属于数据处理,涉及一种基于大数据语义的相似事件检索方法、系统、设备和介质


技术介绍

1、随着信息技术的发展和事件数据分析的需求增长,从各种各样的事件数据中快速找出关注的事件并进行分析,对于地区事件管理和事态发展的处理日益重要,其中,快速应对层出不穷的重要事件,可以历史案例中去寻找踪迹,以获取相似事件为决策者制定决策提供数据辅助。在当下,较为常见的相似事件计算方法可以有集合模型法、词向量相似法和深度学习法等,然而这些传统方法在面对日益庞大的事件数据场景时,仍存在着细分业务领域的相似事件检索准确度不高的技术问题。


技术实现思路

1、针对上述传统方法中存在的问题,本专利技术提出了一种基于大数据语义的相似事件检索方法、一种基于大数据语义的相似事件检索系统、一种计算机设备和一种计算机可读存储介质,能够大幅提高细分业务领域的相似事件检索准确度。

2、为了实现上述目的,本专利技术实施例采用以下技术方案:

3、一方面,提供一种基于大数据语义的相似事件检索方法,包括步骤:

4、获取指定业务领域的多源异构数据;多源异构数据包括结构化数据和半结构化数据;

5、利用分布式计算平台对多源异构数据进行奇异值剔除和冗余信息合并,构成事件案例库并整编存入分布式计算平台的蜂箱数据仓库;

6、采用伯特模型将事件案例库中事件的文本信息进行向量化处理,生成各事件对应的高维文本向量;

7、根据各高维文本向量采用费斯向量数据库进行相似语义搜索,得到各事件的事件相关属性;

8、根据各事件的事件相关属性和指定的目标事件,利用事件相似度计算模型分别计算得到目标事件的相似事件的结构相似度和属性相似度。

9、在其中一个实施例中,采用伯特模型将所述事件案例库中事件的文本信息进行向量化处理的过程中,根据伯特模型进行文本向量化后,采用向量相似对同一事件的不同表述进行相似判别。

10、在其中一个实施例中,高维文本向量为768维向量。

11、在其中一个实施例中,根据各高维文本向量采用费斯向量数据库进行相似语义搜索,得到各事件的事件相关属性的步骤,包括:

12、分别对各高维文本向量进行主成分分析降维处理;

13、采用层次式可导航小世界算法为主成分分析降维处理后的各高维文本向量构建索引;

14、获取指定的目标事件的各历史相似事件;

15、根据各历史相似事件的事件标识,应用斯帕克结构化查询技术获取各历史相似事件的事件相关属性。

16、在其中一个实施例中,采用层次式可导航小世界算法为主成分分析降维处理后的各高维文本向量构建索引之后,还包括:

17、对各高维文本向量进行乘积量化操作。

18、在其中一个实施例中,构成事件案例库的过程中,采用斯帕克工具进行资源调度。

19、另一方面,还提供一种基于大数据语义的相似事件检索系统,包括:

20、数据获取模块,用于获取指定业务领域的多源异构数据;多源异构数据包括结构化数据和半结构化数据;

21、数据汇聚模块,用于利用分布式计算平台对多源异构数据进行奇异值剔除和冗余信息合并,构成事件案例库并整编存入分布式计算平台的蜂箱数据仓库;

22、向量化模块,用于采用伯特模型将事件案例库中事件的文本信息进行向量化处理,生成各事件对应的高维文本向量;

23、语义搜索模块,用于根据各高维文本向量采用费斯向量数据库进行相似语义搜索,得到各事件的事件相关属性;

24、相似计算模块,用于根据各事件的事件相关属性和指定的目标事件,利用事件相似度计算模型分别计算得到目标事件的相似事件的结构相似度和属性相似度。

25、在其中一个实施例中,构成事件案例库的过程中,采用斯帕克工具进行资源调度。

26、又一方面,还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述的基于大数据语义的相似事件检索方法的步骤。

27、再一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的基于大数据语义的相似事件检索方法的步骤。

28、上述技术方案中的一个技术方案具有如下优点和有益效果:

29、上述基于大数据语义的相似事件检索方法、系统、设备和介质,通过利用分布式计算平台对指定业务领域的多源异构数据进行数据汇聚和整编,加快数据计算速度,然后采用伯特模型将事件案例库中事件的文本信息进行向量化处理,实现事件的文本向量化,再采用费斯向量数据库进行相似语义搜索,得到各事件的事件相关属性,最后根据各事件的事件相关属性和指定的目标事件,进一步利用事件相似度计算模型分别计算得到目标事件的相似事件的结构相似度和属性相似度,实现较细粒度的指定业务领域的相似事件区分。

30、相比于传统方法,上述技术方案实现了数据汇聚、向量编码、快速语义搜索和结构属性融合计算的相似事件案例推荐的计算输出,实现了对多源异构大数据的充分利用,精准提供相似事件以辅助决策,而且实现了语义信息相似和结构属性信息相似的融合计算,大幅提高了细分业务领域的相似事件检索准确率,在应对新发的重要事件时,可以更高效、精准地提供与新发的重要事件相似的历史案例,据此为决策者提供更准确的辅助信息以更快速构建危机应对方案。

本文档来自技高网...

【技术保护点】

1.一种基于大数据语义的相似事件检索方法,其特征在于,包括步骤:

2.根据权利要求1所述的基于大数据语义的相似事件检索方法,其特征在于,采用伯特模型将所述事件案例库中事件的文本信息进行向量化处理的过程中,根据伯特模型进行文本向量化后,采用向量相似对同一事件的不同表述进行相似判别。

3.根据权利要求1或2所述的基于大数据语义的相似事件检索方法,其特征在于,所述高维文本向量为768维向量。

4.根据权利要求3所述的基于大数据语义的相似事件检索方法,其特征在于,根据各所述高维文本向量采用费斯向量数据库进行相似语义搜索,得到各事件的事件相关属性的步骤,包括:

5.根据权利要求4所述的基于大数据语义的相似事件检索方法,其特征在于,采用层次式可导航小世界算法为主成分分析降维处理后的各所述高维文本向量构建索引之后,还包括:

6.根据权利要求1所述的基于大数据语义的相似事件检索方法,其特征在于,构成事件案例库的过程中,采用斯帕克工具进行资源调度。

7.一种基于大数据语义的相似事件检索系统,其特征在于,包括:

8.根据权利要求7所述的基于大数据语义的相似事件检索系统,其特征在于,构成事件案例库的过程中,采用斯帕克工具进行资源调度。

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的基于大数据语义的相似事件检索方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述的基于大数据语义的相似事件检索方法的步骤。

...

【技术特征摘要】

1.一种基于大数据语义的相似事件检索方法,其特征在于,包括步骤:

2.根据权利要求1所述的基于大数据语义的相似事件检索方法,其特征在于,采用伯特模型将所述事件案例库中事件的文本信息进行向量化处理的过程中,根据伯特模型进行文本向量化后,采用向量相似对同一事件的不同表述进行相似判别。

3.根据权利要求1或2所述的基于大数据语义的相似事件检索方法,其特征在于,所述高维文本向量为768维向量。

4.根据权利要求3所述的基于大数据语义的相似事件检索方法,其特征在于,根据各所述高维文本向量采用费斯向量数据库进行相似语义搜索,得到各事件的事件相关属性的步骤,包括:

5.根据权利要求4所述的基于大数据语义的相似事件检索方法,其特征在于,采用层次式可导航小世界算法为主成分分析降维处理后的各所述高维文本向...

【专利技术属性】
技术研发人员:赵蕊王记坤罗批张岩张胤裘慧媛杨淑卉贾坤原鑫
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1