基于BERT无监督文本分类的舆情分析方法和系统技术方案

技术编号：35557312 阅读：21 留言：0更新日期：2022-11-12 15:38

本发明专利技术涉及一种基于BERT无监督文本分类的舆情分析方法和系统。该方法的步骤包括：定义类目关键词列表；利用BERT模型和无标注语料扩展类目关键词列表，根据扩展的类目关键词列表构建类目指示词表；通过类目指示词表和无标注语料训练BERT模型，用于预测类目指示词所属的类目；利用训练所得的BERT模型预测舆情文本所属的类目；根据BERT模型的预测结果进行舆情分析。本发明专利技术通过BERT语言模型和大规模无标注语料，能够得到效果较好的文本分类模型并实现舆情分析，可以用于热点话题发现、有害信息检测、自动生成舆情信息分类训练集等应用场景。自动生成舆情信息分类训练集等应用场景。自动生成舆情信息分类训练集等应用场景。

全部详细技术资料下载

【技术实现步骤摘要】
基于BERT无监督文本分类的舆情分析方法和系统

[0001]本专利技术属于信息
，涉及一种基于BERT无监督文本分类的舆情分析方法和系统，尤其适用无标注样本的分类场景。

技术介绍

[0002]舆情的应用范畴由政务领域逐步扩展至企业服务、个人服务、行业研究等领域，而舆情分析作为舆情服务的基础技术，舆情系统作为舆情服务的基础工具，随着整个舆情行业的发展也经历了多轮变革与迭代。
[0003]目前，公知的文本分类模型有：朴素贝叶斯、BiLSTM、BERT等。这些文本分类模型都需要大量有类别标记的文本语料，而在实际舆情分析中，难以得到大量标注语料，使得上述文本分类模型的效果不理想。

技术实现思路

[0004]为了得到大规模标注语料，改善分类效果，提高舆情分析能力，本专利技术提供一种无监督文本分类模型，不需要大规模标注语料，就可以训练得到效果较好的文本分类模型。
[0005]本专利技术解决其技术问题所采用的技术方案是：
[0006]一种基于BERT无监督文本分类的舆情分析方法，该方法利用BERT语言模型从大规模无标注语料中学习类别意义，进而获得文本分类能力；该方法的步骤包括：
[0007]定义类目关键词列表；
[0008]利用BERT模型和无标注语料扩展类目关键词列表，根据扩展的类目关键词列表构建类目指示词表；
[0009]通过类目指示词表和无标注语料训练BERT模型，用于预测类目指示词所属的类目；
[0010]利用训练所得的BERT模型预测舆情文本所...

【技术保护点】

【技术特征摘要】
1.一种基于BERT无监督文本分类的舆情分析方法，其特征在于，包括以下步骤：定义类目关键词列表；利用BERT模型和无标注语料扩展类目关键词列表，根据扩展的类目关键词列表构建类目指示词表；通过类目指示词表和无标注语料训练BERT模型，用于预测类目指示词所属的类目；利用训练所得的BERT模型预测舆情文本所属的类目；根据BERT模型的预测结果进行舆情分析。2.根据权利要求1所述的方法，其特征在于，所述利用BERT模型和无标注语料扩展类目关键词列表，包括：遍历无标注语料，遇到类目关键词时，用BERT模型预测该词出现位置可能出现的词语，得到候选词语列表；按照词语出现概率对候选词语列表中的词语排序，截取top
‑
N个词语作为扩展出的关键词；删除每个类目关键词列表中的停用词，以及在多个类目关键词列表中都出现的词，再根据词语出现概率排序关键词，最后只保留top
‑
M个词语。3.根据权利要求2所述的方法，其特征在于，所述top
‑
N为top
‑
50，所述top
‑
M为top
‑
100。4.根据权利要求1所述的方法，其特征在于，所述根据扩展的类目关键词列表构建类目指示词表，包括：遍历无标注语料的每个词语w，用BERT模型预测该词语位置可能出现的词语，得到词语列表；按照词语出现概率对词语列表中的词语排序，截取top
‑
N个词语；如果top
‑
N个词语中有n个词语出现在某个类目的类目关键词表中，则将词语w作为类目指示词，放入该类目下的类目指示词表中。5.根据权利要求4所述的方法，其特征在于，所述top
‑
N为top...

【专利技术属性】
技术研发人员：呼大永，孟庆川，董伊然，马灿，于飞，贾广恒，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人