一种基于大数据的信息收集分析方法和系统技术方案

技术编号：40164572 阅读：9 留言：0更新日期：2024-01-26 23:37

本发明专利技术提供的一种基于大数据的信息收集分析方法和系统，该方法包括计算多个评论用户信息与播放用户信息的相似度；基于播放视频信息和播放视频的多条评论使用播放处理模型确定每一条评论的质量信息；基于每一条评论的质量信息使用K均值聚类算法进行聚类得到K个簇和K个簇中的每个簇的聚类中心，其中K个簇中的每个簇包括聚类后的多条评论的质量信息；将K个簇和K个簇中的每个簇的聚类中心输入到评论输出模型得到K个待显示评论；基于图神经网络模型对K个待显示评论进行处理得到K个待显示评论的显示顺序，基于所述K个待显示评论的显示顺序对所述K个待显示评论进行显示，该方法能够将不同观点的优质评论准确的显示给用户。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息收集分析，具体涉及一种基于大数据的信息收集分析方法和系统。

技术介绍

1、大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着大数据的发展，大数据应用于越来越多的领域，帮助人们更好的进行数据分析。

2、在当前社交媒体和在线视频平台的盛行背景下，用户评论已成为视频内容交流和社区互动的重要组成部分。目前，大多数视频平台的评论显示方法都是按照时间顺序排列，即最新的评论显示在最前面。这种显示方式存在一些局限性，例如新用户常常需要阅读大量无关紧要的评论才能找到有价值的内容，而且随着用户评论数量的增加，很多评论同质化严重，很多评论都表达的是同一个观点和看法，用户只能从评论中得到有限的信息，其他不同观点的评论信息往往不能及时显示给用户，造成用户体验较差。

3、因此，如何进行大数据信息收集与分析，将不同观点的优质评论准确的显示给用户是目前亟待解决的问题。

技术实现思路

1、本专利技术主要解决的技术问题如何将不同观点的优质评论准确的显示给用户。

2、根据第一方面，本专利技术提供一种基于大数据的信息收集分析方法，包括：获取播放用户信息、播放视频信息和播放视频的多条评论；获取所述播放视频的多条评论信息所对应的多个评论用户信息；计算多个评论用户信息与播放用户信息的相似度；基于所述播放视频信息和所述播放视频的多条评论使用播放处理模

3、更进一步地，所述播放视频信息包括播放视频、视频的文字介绍、视频的封面图片、视频弹幕。

4、更进一步地，所述播放处理模型为transformer模型，所述播放处理模型的输入为所述播放视频信息和所述播放视频的多条评论，所述播放处理模型的输出为所述每一条评论的质量信息。

5、更进一步地，所述方法还包括：基于一致性确定模型确定视频内容的一致程度，所述一致性确定模型为transformer模型，所述一致性确定模型的输入为所述播放视频信息，所述一致性确定模型的输出为所述视频内容的一致程度。

6、更进一步地，所述计算多个评论用户信息与播放用户信息的相似度包括：将评论用户信息的文本数据转换为第一向量，将播放用户信息的文本数据转换为第二向量，基于编辑距离计算第一向量和第二向量的相似度。

7、根据第二方面，本专利技术提供一种基于大数据的信息收集分析系统，包括：第一获取模块，用于获取播放用户信息、播放视频信息和播放视频的多条评论；第二获取模块，用于获取所述播放视频的多条评论信息所对应的多个评论用户信息；相似度计算模块，用于计算多个评论用户信息与播放用户信息的相似度；质量信息确定模块，用于基于所述播放视频信息和所述播放视频的多条评论使用播放处理模型确定每一条评论的质量信息，所述每一条评论的质量信息包括每一条评论的视频关联程度、每一条评论的客观程度、每一条评论的语法正确程度、每一条评论的积极程度；聚类模块，用于基于所述每一条评论的质量信息使用k均值聚类算法进行聚类得到k个簇和k个簇中的每个簇的聚类中心，其中k个簇中的每个簇包括聚类后的多条评论的质量信息；评论输出模块，用于将k个簇和k个簇中的每个簇的聚类中心输入到评论输出模型得到k个待显示评论；显示顺序确定模块，用于基于图神经网络模型对所述k个待显示评论进行处理得到所述k个待显示评论的显示顺序，所述图神经网络模型的输入为k个待显示评论节点和k个待显示评论节点之间的多条边，所述k个待显示评论节点中的每个待显示评论节点包括多个节点特征，所述多个节点特征包括待显示评论的视频关联程度、待显示评论的客观程度、待显示评论的语法正确程度、待显示评论的积极程度、待显示评论所对应的评论用户信息与播放用户信息的相似度，所述图神经网络模型的输出为所述k个待显示评论的显示顺序；显示模块，用于基于所述k个待显示评论的显示顺序对所述k个待显示评论进行显示。

8、更进一步地，所述播放视频信息包括播放视频、视频的文字介绍、视频的封面图片、视频弹幕。

9、更进一步地，所述播放处理模型为transformer模型，所述播放处理模型的输入为所述播放视频信息和所述播放视频的多条评论，所述播放处理模型的输出为所述每一条评论的质量信息。

10、更进一步地，所述系统还用于：基于一致性确定模型确定视频内容的一致程度，所述一致性确定模型为transformer模型，所述一致性确定模型的输入为所述播放视频信息，所述一致性确定模型的输出为所述视频内容的一致程度。

11、更进一步地，所述相似度计算模块还用于：将评论用户信息的文本数据转换为第一向量，将播放用户信息的文本数据转换为第二向量，基于编辑距离计算第一向量和第二向量的相似度。

12、本专利技术提供的一种基于大数据的信息收集分析方法和系统，该方法包括获取播放用户信息、播放视频信息和播放视频的多条评论；获取所述播放视频的多条评论信息所对应的多个评论用户信息；计算多个评论用户信息与播放用户信息的相似度；基于所述播放视频信息和所述播放视频的多条评论使用播放处理模型确定每一条评论的质量信息，所述每一条评论的质量信息包括每一条评论的视频关联程度、每一条评论的客观程度、每一条评论的语法正确程度、每一条评论的积极程度；基于所述每一条评论的质量信息使用k均值聚类算法进行聚类得到k个簇和k个簇中的每个簇的聚类中心，其中k个簇中的每个簇包括聚类后的多条评论的质量信息；将k个簇和k个簇中的每个簇的聚类中心输入到评论输出模型得到k个待显示评论；基于图神经网络模型对所述k个待显示评论进行处理得到所述k个待显示评论的显示顺序，所述图神经网络模型的输入为k个待显示评论节点和k个待显示评论节点之间的多条边，所述k个待显示评论节点中的每个待显示评论节点包括多个节点特征，所述多个节点特征包括待显示评论的视频关联程度、待显示评论的客观程度、待显示评论的语法正确程度、待显示评论的积极本文档来自技高网...

【技术保护点】

1.一种基于大数据的信息收集分析方法，其特征在于，包括：

2.如权利要求1所述的基于大数据的信息收集分析方法，其特征在于，所述播放视频信息包括播放视频、视频的文字介绍、视频的封面图片、视频弹幕。

3.如权利要求2所述的基于大数据的信息收集分析方法，其特征在于，所述播放处理模型为Transformer模型，所述播放处理模型的输入为所述播放视频信息和所述播放视频的多条评论，所述播放处理模型的输出为所述每一条评论的质量信息。

4.如权利要求2所述的基于大数据的信息收集分析方法，其特征在于，所述方法还包括：基于一致性确定模型确定视频内容的一致程度，所述一致性确定模型为Transformer模型，所述一致性确定模型的输入为所述播放视频信息，所述一致性确定模型的输出为所述视频内容的一致程度。

5.如权利要求1所述的基于大数据的信息收集分析方法，其特征在于，所述计算多个评论用户信息与播放用户信息的相似度包括：将评论用户信息的文本数据转换为第一向量，将播放用户信息的文本数据转换为第二向量，基于编辑距离计算第一向量和第二向量的相似度。

7.如权利要求6所述的基于大数据的信息收集分析系统，其特征在于，所述播放视频信息包括播放视频、视频的文字介绍、视频的封面图片、视频弹幕。

8.如权利要求7所述的基于大数据的信息收集分析系统，其特征在于，所述播放处理模型为Transformer模型，所述播放处理模型的输入为所述播放视频信息和所述播放视频的多条评论，所述播放处理模型的输出为所述每一条评论的质量信息。

9.如权利要求7所述的基于大数据的信息收集分析系统，其特征在于，所述系统还用于：基于一致性确定模型确定视频内容的一致程度，所述一致性确定模型为Transformer模型，所述一致性确定模型的输入为所述播放视频信息，所述一致性确定模型的输出为所述视频内容的一致程度。

10.如权利要求6所述的基于大数据的信息收集分析系统，其特征在于，所述相似度计算模块还用于：将评论用户信息的文本数据转换为第一向量，将播放用户信息的文本数据转换为第二向量，基于编辑距离计算第一向量和第二向量的相似度。

...

【技术特征摘要】

1.一种基于大数据的信息收集分析方法，其特征在于，包括：

2.如权利要求1所述的基于大数据的信息收集分析方法，其特征在于，所述播放视频信息包括播放视频、视频的文字介绍、视频的封面图片、视频弹幕。

3.如权利要求2所述的基于大数据的信息收集分析方法，其特征在于，所述播放处理模型为transformer模型，所述播放处理模型的输入为所述播放视频信息和所述播放视频的多条评论，所述播放处理模型的输出为所述每一条评论的质量信息。

4.如权利要求2所述的基于大数据的信息收集分析方法，其特征在于，所述方法还包括：基于一致性确定模型确定视频内容的一致程度，所述一致性确定模型为transformer模型，所述一致性确定模型的输入为所述播放视频信息，所述一致性确定模型的输出为所述视频内容的一致程度。

5.如权利要求1所述的基于大数据的信息收集分析方法，其特征在于，所述计算多个评论用户信息与播放用户信息的相似度包括：将评论用户信息的文本数据转换为第一向量，将播放用户信息的文本数据转换为第二向量，基于编辑距离计算第一向量和第二向量的相似...

【专利技术属性】
技术研发人员：黄文杰，
申请(专利权)人：瑞达可信安全技术广州有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人