System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大语言模型和主题模型的网民观点分析方法技术_技高网

一种基于大语言模型和主题模型的网民观点分析方法技术

技术编号:40656559 阅读:6 留言:0更新日期:2024-03-13 21:33
本发明专利技术涉及一种基于大语言模型和主题模型的网民观点分析方法。本发明专利技术通过综合考虑不同维度的信息,如TF‑IDF、关键词、主题模型和命名实体识别等,能够准确地分析和总结网民观点,并生成准确的观点情感结果。它能够从多个角度分析观点,发现不同维度的共性和差异,为决策提供更全面的参考。利用大语言模型处理和分析大量的文本数据,减少了人工干预的需求,提高了效率和可扩展性。该方法能够节省时间和人力成本,并能够处理大规模的数据,从而更全面地了解和总结观点。另外,可以根据具体需求进行定制和调整,包括设置TF‑IDF阈值、预定义关键词码表、调整主题模型参数、更替大语言模型prompt等,这使得技术能够适应不同领域和应用场景的需求。

【技术实现步骤摘要】

本专利技术涉及网络信息处理,具体为一种基于大语言模型和主题模型的网民观点分析方法


技术介绍

1、网民观点分析方法,旨在对网民的观点进行聚类分析。通过收集特定话题下的评论和转发内容,从中挖掘出用户的观点信息。通过对这些观点进行分类,帮助用户快速了解网民对于特定话题的态度和看法。

2、网民观点分析方法主要包括以下环节:1.数据采集:从互联网上收集相关的网民评论、社交媒体帖子或新闻评论等数据。这可以通过爬虫技术从网页或api中获取数据;2.数据清洗:对采集到的数据进行清洗和预处理。这包括去除噪声、过滤无关信息、处理缺失值等。常见的预处理操作包括文本去除停用词、词干化和词向量化等;3.特征提取:从文本数据中提取有用的特征,用于后续的分析和建模。常见的特征包括词频、tf-idf权重、word2vec词向量等;4.模型训练和评估:使用机器学习或深度学习算法构建模型,用于构建和优化模型,并对模型的性能进行评估;5结果分析和可视化:分析模型的输出结果,进行观点分析和可视化展示。这可以帮助用户了解网民的观点和情感倾向。

3、现有的缝隙方法存在以下不足:1.缺乏准确性和全面性:传统的网民观点分析方法可能无法准确地分析和总结网民观点,导致生成的观点情感结果不够准确。这可能是因为这些方法仅仅依赖于简单的文本特征提取,无法全面考虑不同维度的信息。2.人工干预和效率低下:传统方法可能需要大量的人工干预来处理和分析大量的文本数据,这不仅增加了时间和人力成本,还限制了其可扩展性。人工干预的过程可能存在主观性和主观偏差,导致分析结果的偏离。3.缺乏定制化和灵活性:传统方法往往缺乏根据具体需求进行定制和调整的能力。例如,无法根据不同领域和应用场景的需求进行定制化的分析和总结。这可能导致技术的适用性和可操作性受限。


技术实现思路

1、鉴于现有技术中所存在的问题,本专利技术公开了一种基于大语言模型和主题模型的网民观点分析方法,包括步骤如下:

2、步骤一、社交媒体数据抓取与清洗:包括步骤如下,

3、步骤1、社媒数据抓取:使用网络爬虫技术从网页上抓取数据,解析html和javascript生成的内容,利用开源api来访问其数据;例如twitter的api允许用户根据关键字、话题、用户等参数抓取推文。通过两种方法从社交媒体平台获取原始数据。

4、步骤2、数据清洗:对抓取的数据进行清洗,包括去除无关内容、格式化文本、删除重复信息、进行情感分析和实体识别;这个过程不仅需要技术上的精确执行,还要确保遵守法律和伦理准则,目的是得到准确、有用且易于分析的数据集,从而支持更深入的舆论分析和决策制定;

5、步骤3、数据存储:清洗后的社交媒体舆情数据可使用关系型或非关系型数据库进行存储数据,清洗后的数据存储在适合进一步分析的格式和系统中;步骤二、tf-idf词频过滤:根据tf-idf值对词语进行筛选和过滤,只保留重要性词语;在tf-idf词频过滤中,设置一个阈值,只保留tf-idf值高于该阈值的词语,而过滤掉tf-idf值低于该阈值的词语;这样可以过滤掉在文本中频繁出现但对文本主题没有太大贡献的常见词语,而保留更加关键和具有区分性的词语。通过tf-idf词频过滤,可以减少特征空间的维度,提高模型的效率和性能;过滤后的词语更加具有代表性,可以更好地捕捉文本的主题和含义。

6、步骤三、关键词过滤:在文本处理中,根据特定的规则或标准,筛选和过滤掉不相关或无用的关键词,以提取出更具有信息量和重要性的关键词;关键词过滤通过以下几种方式实现:

7、(1)停用词过滤:停用词是指在文本中频繁出现但对文本主题没有太大贡献的常见词语,如介词、连词和冠词;通过建立停用词表,可以将这些停用词从关键词列表中过滤掉,以减少噪声和提取更加关键的词语;

8、(2)长度过滤:根据词语的长度进行过滤,筛选出具有一定长度的关键词;过滤掉过短的词语可以减少噪声和无用信息,而保留较长的词语可以提取更具有特征性的关键词;

9、(3)词性过滤:根据词语的词性进行过滤,只保留特定词性的关键词;例如,在文本分类任务中,可以只保留名词作为关键词,以提取出更能代表文本主题的名词关键词。

10、步骤四、使用主题模型对观点聚类分析:主题模型可以自主发现文本中的主题,并为每个观点分配一个主题分布,利用主题模型得到的主题分布,使用聚类算法将具有相似主题的观点聚类到一起;聚类算法可以根据观点之间的相似度度量(如余弦相似度)将它们分配到不同的簇中。通过查看每个簇中的观点和主题分布来理解每个簇的特点和主题。这有助于总结和概括不同观点的共性和差异。

11、步骤五、ner及码表过滤:ner为命名实体识别,是一种文本处理任务,旨在识别和分类文本中的命名实体;ner可以帮助提取和理解文本中的重要信息,并支持各种文本分析任务;使用预定义的码表规则进行词语过滤和筛选,通过应用码表过滤,保留符合码表中的词语,同时过滤掉不符合码表的词语,提高文本处理的准确性和效率;这些码表通常包含了一系列特定的词语或词汇表,用于标记或过滤文本中的特定词语。这种过滤和筛选的方法有助于提高文本处理的效果,使得我们能够更加准确地获取文本中的关键信息。

12、步骤六、对网民观点分类、情感分析:通过socialgpt语言模型,准确地识别和分类网民的观点,并进行情感分析;

13、步骤七、结果展示:根据每个话题的关键词和评论原文,使用socialgpt语言模型生成一句总结观点和观点情感(正面、中性、负面)的句子;具体的,首先提取每个话题的前十词及其词频,以及互动量最高的前十评论原文;然后,将这些信息输入到socialgpt语言模型中,利用其生成能力和上下文理解能力,生成一句准确概括观点和观点情感的句子。

14、作为本专利技术的一种优选方案,步骤六、步骤七所述socialgpt自研大型语言模型是对网民观点分类和情感分析的技术,实现原理基于深度学习和自然语言处理(nlp)技术。首先通过预训练在大量文本数据上学习语言的基本结构和模式,从而理解不同的语言特性和上下文含义。在预训练阶段,模型通常接受如词汇预测、语句连贯性判断等任务,以此学习捕捉语言的复杂性和微妙差异。接着,在特定的分类或情感分析任务上进行微调,这时模型会使用标注好的特定数据集进行训练,学习如何根据文本内容判断其类别或情感倾向。这一过程中,模型通过调整其内部网络参数,逐渐提高在特定任务上的准确性。最终,socialgpt能够对新的输入文本进行有效分类或情感判断,提供对网民观点的深度理解和分析。

15、本专利技术的有益效果:本专利技术通过综合考虑不同维度的信息,如tf-idf、关键词、主题模型和命名实体识别等,能够准确地分析和总结网民观点,并生成准确的观点情感结果。它能够从多个角度分析观点,发现不同维度的共性和差异,为决策提供更全面的参考。利用大语言模型处理和分析大量的文本数据,减少了人工干预的需求,提高了效率和可扩展性。该方法能够节省时间和人力成本,并能够本文档来自技高网...

【技术保护点】

1.一种基于大语言模型和主题模型的网民观点分析方法,其特征在于,包括步骤如下:

2.根据权利要求1所述的一种基于大语言模型和主题模型的网民观点分析方法,其特征在于:步骤二在TF-IDF词频过滤中,设置一个阈值,只保留TF-IDF值高于该阈值的词语,而过滤掉TF-IDF值低于该阈值的词语;这样可以过滤掉在文本中频繁出现但对文本主题没有太大贡献的常见词语,而保留更加关键和具有区分性的词语。

3.根据权利要求1所述的一种基于大语言模型和主题模型的网民观点分析方法,其特征在于:步骤三中关键词过滤通过以下几种方式实现:

4.根据权利要求1所述的一种基于大语言模型和主题模型的网民观点分析方法,其特征在于:步骤七中,总结观点和观点情感的句子生成方法具体为,首先提取每个话题的前十词及其词频,以及互动量最高的前十评论原文;然后,将这些信息输入到SocialGPT语言模型中,利用其生成能力和上下文理解能力,生成一句准确概括观点和观点情感的句子。

【技术特征摘要】

1.一种基于大语言模型和主题模型的网民观点分析方法,其特征在于,包括步骤如下:

2.根据权利要求1所述的一种基于大语言模型和主题模型的网民观点分析方法,其特征在于:步骤二在tf-idf词频过滤中,设置一个阈值,只保留tf-idf值高于该阈值的词语,而过滤掉tf-idf值低于该阈值的词语;这样可以过滤掉在文本中频繁出现但对文本主题没有太大贡献的常见词语,而保留更加关键和具有区分性的词语。

3.根据权利要求1所述...

【专利技术属性】
技术研发人员:陈学言王波林泳
申请(专利权)人:广东数源智汇科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1