一种基于多模态融合大模型的舆情事件监测方法技术

技术编号：40053543 阅读：7 留言：0更新日期：2024-01-16 21:35

本发明专利技术公开了一种基于多模态融合大模型的舆情事件监测方法，涉及数据分析技术领域。包括以下步骤：S1，获取多模态文档信息；S2，对多模态文档信息进行解析，分离文本、图片和音频；S3，将所述图片和音频转化为嵌入变量表达；S4，将所述图片和音频的嵌入变量表达融合到文本语义空间内；S5，精炼所述文本得到精炼文本块；S6，分别计算所述图片和音频的嵌入变量表达与精炼文本块的相似度，保留相似度最大的规定数量的图片和音频；S7，将精炼文本块以及保留的图片和音频拼接，送入多模态模型中，获取舆情事件监测信息。本发明专利技术能够自动化、高效地处理大量多模态数据，如文本、图片、音频等，实现实时高效的舆情事件监测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据分析，尤其涉及一种基于多模态融合大模型的舆情事件监测方法。

技术介绍

1、随着社会媒体的快速发展，舆情事件监测系统对于信息的采集、处理和分析变得越来越重要。当前的舆情事件监测系统大多基于文本数据进行分析，但文本数据往往无法涵盖所有的信息。而且，现有的系统主要依赖于规则和关键词匹配，这使得分析结果存在较大的局限性。另一方面，现有的系统无法对数据进行实时处理和分析，这使得系统的实时性和准确性有待提高。

技术实现思路

1、为了解决
技术介绍
中提到的至少一个技术问题，本专利技术的目的在于提供一种基于多模态融合大模型的舆情事件监测方法，能够自动化、高效地处理大量多模态数据，如文本、图片、音频等，实现实时高效的舆情事件监测。

2、为实现上述目的，本专利技术提供如下技术方案：

3、一种基于多模态融合大模型的舆情事件监测方法，包括以下步骤：

4、s1，基于大语言模型获取包含文本、图片和音频的多模态文档信息；

5、s2，对所述多模态文档信息进行解析，分离文本、图片和音频；

6、s3，将所述图片和音频转化为嵌入变量表达；

7、s4，将所述图片和音频的嵌入变量表达融合到文本语义空间内；

8、s5，精炼所述文本得到精炼文本块；

9、s6，分别计算所述图片和音频的嵌入变量表达与精炼文本块的相似度，保留相似度最大的规定数量的图片和音频；

10、s7，将精炼文本块以及保留的图片和音频拼接，

11、在本专利技术的某些实施例中，所述多模态文档信息的获取方法如下：

12、在提示词给定想要提取的信息，以及任务的设定，输入大语言模型；所述大语言模型自动生成爬虫代码，并调用python解释器执行爬虫代码，抓取包含文本、图片和音频的多模态文档信息，放入缓存文档中。

13、在本专利技术的某些实施例中，所述爬虫代码若在运行中出现故障未能获取到多模态文档信息，则将代码信息以及故障信息回传至大语言模型，让大语言模型进行反思，并迭代获取多模态文档信息的步骤直至获取到多模态文档信息。

14、在本专利技术的某些实施例中，将图片转化为嵌入变量表达的方法如下：

15、将图片切割成若干个图片块，将该若干个图片块作为输入，经transformer网络，可到最终的嵌入变量表达。

16、在本专利技术的某些实施例中，所述图片切割的方法如下：

17、将图片从左到右，从上到下切割成n个小的图片块，转化为，其中，分别为图片的高度、宽度、通道数，为小正方图片块的边长，为一张图片最终所被切割成的小图片块数。

18、在本专利技术的某些实施例中，将音频转化为嵌入变量表达的方法如下：将音频经过一个多层卷积特征提取器，获得一系列隐变量，再经过一个transformer网络转换为最终的嵌入变量表达。

19、在本专利技术的某些实施例中，将所述图片和音频的嵌入变量表达融合到文本语义空间内的方法如下：使用chatglm或者bloom作为模型底座，添加两个专家混合模型，将图片和音频的嵌入变量表达融合到文本语义空间内。

20、在本专利技术的某些实施例中，精炼所述文本的方法如下：

21、将文本切割成若干段的小文本段；

22、对于第一段小文本段，将其作为提示词输入大语言进行总结归纳得到对应的中间精炼文本块；

23、对于其他小文本段，将上一段小文本段对应的中间精炼文本块与其拼接后作为提示词输入大语言进行总结归纳得到对应的中间精炼文本块，直至最后一段小文本段总结归纳完成，得到最终的精炼文本块。

24、在本专利技术的某些实施例中，所述相似度为余弦相似度。

25、本专利技术还提供如下技术方案：

26、一种基于多模态融合大模型的舆情事件监测系统，包括：

27、智能爬虫模块，基于大语言模型获取包含文本、图片和音频的多模态文档信息；

28、文档处理模块，对所述多模态文档信息进行解析，分离文本、图片和音频；

29、多模态处理模块，包括图片处理单元，音频处理单元和文本精炼单元；所述图片处理单元，将所述图片和音频转化为嵌入变量表达；所述音频处理单元，将所述图片和音频的嵌入变量表达融合到文本语义空间内；所述文本精炼单元，精炼所述文本得到精炼文本块；

30、相似处理模块，分别计算所述图片和音频的嵌入变量表达与精炼文本块的相似度，保留相似度最大的规定数量的图片和音频；

31、舆情检测模块，将精炼文本块以及保留的图片和音频拼接，送入多模态模型中，获取舆情事件监测信息。

32、与现有技术相比，本专利技术的有益效果是：

33、1. 本专利技术实现多模态融合：通过将文字、图片和音频等多种模态数据进行融合，有效提取了更全面的信息，从而更精确地捕捉所蕴含的语义信息，超越了现有只依靠文字进行舆情分析的限制。

34、2. 本专利技术提高舆情事件监测准确性：将多模态融合后的信息输入到大模型中，能够更好地把握情绪的正负取向，从而提高舆情事件监测的准确性。

35、3. 本专利技术的实时性和智能化强：用户只需输入想要监测的网址，大模型即可自动生成爬虫代码并实时进行舆情事件监测，大大降低了用户使用门槛和工作复杂度。

36、4. 本专利技术的自我优化能力强：在运行过程中，若出现问题，系统能自动反馈给大模型进行反思并优化，使舆情事件监测效果持续改进。

本文档来自技高网...

【技术保护点】

1.一种基于多模态融合大模型的舆情事件监测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多模态融合大模型的舆情事件监测方法，其特征在于，所述多模态文档信息的获取方法如下：

3.根据权利要求2所述的一种基于多模态融合大模型的舆情事件监测方法，其特征在于，所述爬虫代码若在运行中出现故障未能获取到多模态文档信息，则将代码信息以及故障信息回传至大语言模型，让大语言模型进行反思，并迭代获取多模态文档信息的步骤直至获取到多模态文档信息。

4.根据权利要求1所述的一种基于多模态融合大模型的舆情事件监测方法，其特征在于，将图片转化为嵌入变量表达的方法如下：

5.根据权利要求4所述的一种基于多模态融合大模型的舆情事件监测方法，其特征在于，所述图片切割的方法如下：

6.根据权利要求1所述的一种基于多模态融合大模型的舆情事件监测方法，其特征在于，将音频转化为嵌入变量表达的方法如下：将音频经过一个多层卷积特征提取器，获得一系列隐变量，再经过一个Transformer网络转换为最终的嵌入变量表达。

7.根据权利要求

8.根据权利要求1所述的一种基于多模态融合大模型的舆情事件监测方法，其特征在于，精炼所述文本的方法如下：

9.根据权利要求1所述的一种基于多模态融合大模型的舆情事件监测方法，其特征在于，所述相似度为余弦相似度。

...

【技术特征摘要】

1.一种基于多模态融合大模型的舆情事件监测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多模态融合大模型的舆情事件监测方法，其特征在于，所述多模态文档信息的获取方法如下：

4.根据权利要求1所述的一种基于多模态融合大模型的舆情事件监测方法，其特征在于，将图片转化为嵌入变量表达的方法如下：

5.根据权利要求4所述的一种基于多模态融合大模型的舆情事件监测方法，其特征在于，所述图片切割的方法如下：

6...

【专利技术属性】
技术研发人员：姜励，顾孟钧，吴炫康，
申请(专利权)人：浙江省公众信息产业有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人