一种基于分类算法的大数据处理方法及系统技术方案

技术编号：42635840 阅读：25 留言：0更新日期：2024-09-06 01:34

本申请公开一种基于分类算法的大数据处理方法及系统，包括：对目标视频平台进行数据采集，获取视频内容和相关元数据；提取所述视频内容的多模态特征；利用舆情分类模型对所述多模态特征进行舆情分类；基于所述舆情分类，预测不同类别下的舆情走势，并展示舆情分析结果。本发明专利技术能够实时获取短视频平台的海量舆情数据,并从中发现有价值的信息,提供舆情监测、风险预警、热点发现、溯源分析等多种数据服务。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及信息，具体涉及一种基于分类算法的舆情大数据处理方法及系统。

技术介绍

1、随着短视频平台的迅速发展,每天产生的短视频数据量急剧增加,蕴藏着丰富的社会舆情信息。及时获取和分析这些舆情数据，对于把握社会动态、防范舆情风险、制定科学决策有重要意义。

2、目前常见的舆情分析系统通常只能处理文本数据,且普遍存在数据量小、实时性差、分析维度单一等问题。对于以视频为主的短视频平台舆情信息,缺乏有效的获取和分析手段。主要技术难点在于:

3、1.短视频数据量大、更新速度快,难以全量采集；

4、2.短视频内容丰富,涉及视频、音频、文字、图片等多种形式,传统的文本分析方法难以适用；

5、3.缺乏针对性的算法模型,无法准确分类、预测短视频舆情走向。

技术实现思路

1、鉴于此，本申请提供一种基于分类算法的舆情大数据处理方法及系统，解决了现有技术中无法准确进行视频舆情分类和预测舆情走向的问题。

2、本申请实施例提供了一种基于分类算法的舆情大数据处理方法，包括：

3、对目标视频平台进行数据采集，获取视频内容和相关元数据；

4、提取所述视频内容的多模态特征；

5、利用舆情分类模型对所述多模态特征进行舆情分类；

6、基于所述舆情分类，预测不同类别下的舆情走势，并展示舆情分析结果。

7、可选地，提取所述视频内容的多模态特征，包括：

8、使用slowfast网络对所述视频内容进行

9、使用预训练的word2vec词嵌入模型，对所述视频内容进行文本特征提取，获得文本特征向量；

10、使用vggish模型对所述视频内容中的音频进行特征提取，获得音频特征向量；

11、将所述视觉特征向量、文本特征向量和音频特征向量拼接成一个融合向量；

12、利用注意力机制对所述融合向量进行加权融合，并进行特征归一化，以获得所述多模态特征。

13、可选地，利用舆情分类模型对所述多模态特征进行舆情分类，包括：

14、生成舆情分类任务；

15、选择生成式人工智能模型aigc模型；

16、获取训练数据，利用所述训练数据对所述aigc模型进行微调；

17、将所述舆情分类任务转化为文本分类问题；

18、将所述多模态特征映射为描述视频内容的自然语言文本；

19、将所述自然语言文本和提示词，输入至微调后的所述aigc模型，以便通过所述aigc模型进行舆情分类。

20、可选地，获取训练数据，利用所述训练数据对所述aigc模型进行微调，包括：

21、收集一批历史视频作为训练数据，并由人工标注其舆情标签；

22、对每个收集的历史视频,将其多模态特征转换为描述视频内容的自然语言文本,并将其与标注的所述舆情标签配对,形成训练数据；

23、利用所述训练数据对所述aigc模型进行微调。

24、可选地，所述方法还包括：

25、所述aigc模型基于输入的所述自然语言文本和提示词，生成所述视频内容的舆情分类标签和置信度得分；

26、如果所述置信度得分低于预设阈值，则触发检索增强生成rag流程，以通过所述rag流程修正所述舆情分类标签。

27、可选地，触发检索增强生成rag流程，以通过所述rag流程修正所述舆情分类标签，包括：

28、构建领域知识库；

29、将所述视频内容的文本描述作为查询，在所述领域知识库中检索前k个最相关的知识库条目，其中k为自定义正整数；

30、将所述前k个知识库条目拼接，形成知识上下文，并输入至所述aigc模型中，以便所述aigc模型基于输入的所述自然语言文本、提示词和所述知识上下文，重新生成舆情分类标签和置信度。

31、可选地，基于所述舆情分类，预测不同类别下的舆情走势，包括：

32、搭建多智能体系统，所述多智能体系统中包括多个智能体，且每一智能体由所述aigc模型构建；

33、定义多智能体的角色，包括指标智能体、预测智能体、决策智能体和执行智能体；

34、定义多智能体之间的交互机制；

35、通过所述指标智能体、预测智能体、决策智能体和执行智能体进行不同类别下的舆情走势预测，其中，

36、所述指标智能体获取不同类别下的舆情走势指标；

37、所述预测智能体根据所述不同类别下的舆情走势指标，对未来舆情走势进行预测；

38、所述决策智能体接收预测结果，并根据预设的决策规则，形成最终的舆情预测决策，并将决策结果发送至所述执行智能体；

39、所述执行智能体输出决策结果，并自动完成与决策结果相关的行动。

40、可选地，所述舆情分类模型为基于分层任务网络htn的专家模型，则利用舆情分类模型对所述多模态特征进行舆情分类，包括：

41、构建领域本体及对应的本体语言；

42、设计htn分解策略，所述分解策略用于将舆情分类任务分解为多个子任务；

43、构建专家知识库；

44、将所述多模态特征输入至所述舆情分类模型，其中，所述舆情分类模型包含所述领域本体及对应的本体语言、所述htn分解策略和所述专家知识库；

45、所述舆情分类模型基于所述htn分解策略，将舆情分类任务分解为多个子任务；

46、对于每一个子任务，调用对应的算法模型进行舆情分类处理。

47、可选地，基于所述舆情分类，预测不同类别下的舆情走势，包括：

48、构建舆情传播指标；

49、基于所述舆情分类，将舆情预测任务分解为多个不同类别的子任务；

50、对于每个类别的子任务，调用对应类别的预测模型进行舆情走势预测。

51、本申请实施例还提供一种基于分类算法的舆情大数据处理系统，包括：

52、数据采集模块，用于对目标视频平台进行数据采集，获取视频内容和相关元数据；

53、提取模块，用于提取所述视频内容的多模态特征；

54、舆情分类模块，用于利用舆情分类模型对所述多模态特征进行舆情分类；

55、预测模块，用于基于所述舆情分类，预测不同类别下的舆情走势，并展示舆情分析结果。

56、本申请实施例还提供一种计算机装置，所述计算机装置包括：

57、至少一个处理器；以及，

58、与所述至少一个处理器通信连接的存储器；其中，

59、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述基于分类算法的舆情大数据处理方法。

60、本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储计算机指令，该计算机指令用于本文档来自技高网...

【技术保护点】

1.一种基于分类算法的大数据处理的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，提取所述视频内容的多模态特征，包括：

3.根据权利要求1所述的方法，其特征在于，利用舆情分类模型对所述多模态特征进行舆情分类，包括：

4.根据权利要求3所述的方法，其特征在于，获取训练数据，利用所述训练数据对所述AIGC模型进行微调，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，触发检索增强生成RAG流程，以通过所述RAG流程修正所述舆情分类标签，包括：

7.根据权利要求3所述的方法，其特征在于，基于所述舆情分类，预测不同类别下的舆情走势，包括：

8.根据权利要求1所述的方法，其特征在于，所述舆情分类模型为基于分层任务网络HTN的专家模型，则利用舆情分类模型对所述多模态特征进行舆情分类，包括：

9.根据权利要求8所述的方法，其特征在于，基于所述舆情分类，预测不同类别下的舆情走势，包括：

10.一种基于分类算法的

...

【技术特征摘要】

1.一种基于分类算法的大数据处理的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，提取所述视频内容的多模态特征，包括：

3.根据权利要求1所述的方法，其特征在于，利用舆情分类模型对所述多模态特征进行舆情分类，包括：

4.根据权利要求3所述的方法，其特征在于，获取训练数据，利用所述训练数据对所述aigc模型进行微调，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，触发检索...

【专利技术属性】
技术研发人员：蒋合领，张保才，刘洪波，许跟东，
申请(专利权)人：黔南州联合电子网络系统有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人