基于BERT无监督文本分类的舆情分析方法和系统技术方案

技术编号:35557312 阅读:21 留言:0更新日期:2022-11-12 15:38
本发明专利技术涉及一种基于BERT无监督文本分类的舆情分析方法和系统。该方法的步骤包括:定义类目关键词列表;利用BERT模型和无标注语料扩展类目关键词列表,根据扩展的类目关键词列表构建类目指示词表;通过类目指示词表和无标注语料训练BERT模型,用于预测类目指示词所属的类目;利用训练所得的BERT模型预测舆情文本所属的类目;根据BERT模型的预测结果进行舆情分析。本发明专利技术通过BERT语言模型和大规模无标注语料,能够得到效果较好的文本分类模型并实现舆情分析,可以用于热点话题发现、有害信息检测、自动生成舆情信息分类训练集等应用场景。自动生成舆情信息分类训练集等应用场景。自动生成舆情信息分类训练集等应用场景。

【技术实现步骤摘要】
基于BERT无监督文本分类的舆情分析方法和系统


[0001]本专利技术属于信息
,涉及一种基于BERT无监督文本分类的舆情分析方法和系统,尤其适用无标注样本的分类场景。

技术介绍

[0002]舆情的应用范畴由政务领域逐步扩展至企业服务、个人服务、行业研究等领域,而舆情分析作为舆情服务的基础技术,舆情系统作为舆情服务的基础工具,随着整个舆情行业的发展也经历了多轮变革与迭代。
[0003]目前,公知的文本分类模型有:朴素贝叶斯、BiLSTM、BERT等。这些文本分类模型都需要大量有类别标记的文本语料,而在实际舆情分析中,难以得到大量标注语料,使得上述文本分类模型的效果不理想。

技术实现思路

[0004]为了得到大规模标注语料,改善分类效果,提高舆情分析能力,本专利技术提供一种无监督文本分类模型,不需要大规模标注语料,就可以训练得到效果较好的文本分类模型。
[0005]本专利技术解决其技术问题所采用的技术方案是:
[0006]一种基于BERT无监督文本分类的舆情分析方法,该方法利用BERT语言模型从大规模无标注语料中学习类别意义,进而获得文本分类能力;该方法的步骤包括:
[0007]定义类目关键词列表;
[0008]利用BERT模型和无标注语料扩展类目关键词列表,根据扩展的类目关键词列表构建类目指示词表;
[0009]通过类目指示词表和无标注语料训练BERT模型,用于预测类目指示词所属的类目;
[0010]利用训练所得的BERT模型预测舆情文本所属的类目;
[0011]根据BERT模型的预测结果进行舆情分析。
[0012]进一步地,所述利用BERT模型和无标注语料扩展类目关键词列表,包括:
[0013]遍历无标注语料,遇到类目关键词时,用BERT模型预测该词出现位置可能出现的词语,得到候选词语列表;
[0014]按照词语出现概率对候选词语列表中的词语排序,截取top

N个词语作为扩展出的关键词;
[0015]删除每个类目关键词列表中的停用词,以及在多个类目关键词列表中都出现的词,再根据词语出现概率排序关键词,最后只保留top

M个词语。
[0016]优选地,所述top

N为top

50,所述top

M为top

100。
[0017]进一步地,所述根据扩展的类目关键词列表构建类目指示词表,包括:
[0018]遍历无标注语料的每个词语w,用BERT模型预测该词语位置可能出现的词语,得到词语列表;
[0019]按照词语出现概率对词语列表中的词语排序,截取top

N个词语;
[0020]如果top

N个词语中有n个词语出现在某个类目的类目关键词表中,则将词语w作为类目指示词,放入该类目下的类目指示词表中。
[0021]优选地,所述top

N为top

50,所述n为20。
[0022]进一步地,所述通过类目指示词表和无标注语料训练BERT模型,包括:
[0023]将BERT预测输出的类目指示词向量输入到softmax层;
[0024]Softmax层输出类目指示词所属类目的概率分布;
[0025]采用交叉熵作为损失函数,训练BERT模型。
[0026]进一步地,所述利用训练所得的BERT模型预测舆情文本所属的类目,类目可以是军事、医疗、教育等。
[0027]进一步地,所述根据BERT模型的预测结果进行舆情分析,包括:统计各类目下文本数量,关键词,如果一段时间内某个类目下文本数量快速增长,则该类目为热点类目,该类目下的高频关键词为热点词,于是,达到了动态发现热点话题的目的。
[0028]一种基于BERT无监督文本分类的舆情分析系统,包括:
[0029]类目关键词列表扩展模块,用于定义类目关键词列表,利用BERT模型和无标注语料扩展类目关键词列表;
[0030]类目指示词表构建模块,用于根据扩展的类目关键词列表构建类目指示词表;
[0031]BERT模型训练模块,用于通过类目指示词表和无标注语料训练BERT模型,用于预测类目指示词所属的类目;
[0032]舆情分析模块,用于利用训练所得的BERT模型预测舆情文本所属的类目,根据BERT 模型的预测结果进行舆情分析。
[0033]本专利技术的有益效果是:
[0034]本专利技术通过BERT语言模型和大规模无标注语料,能够得到效果较好的文本分类模型。本专利技术的文本分类模型可以用于热点话题发现、有害信息检测、自动生成舆情信息分类训练集等应用场景。
附图说明
[0035]图1.扩展类目关键词列表的示意图。
[0036]图2.Top

20候选词出现在类目c中的示意图。
[0037]图3.预测类目指示词所属类目的示意图。
[0038]图4.预测句子所属类目的示意图。
具体实施方式
[0039]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本专利技术做进一步详细说明。
[0040]本专利技术一个实施例的一种基于BERT无监督文本分类的舆情分析方法,包括以下步骤:
[0041]1.扩展类目关键词列表
[0042]首先,定义类目关键词列表。类目关键词列表是指由类目关键词形成的列表,类目
关键词是表征类目特征的词,例如在教育类中类目关键词有:学校、教师、学生等。
[0043]然后,对类目关键词列表进行扩展,包括以下步骤:
[0044](1)遍历无标注语料,遇到类目关键词时,用BERT模型预测该词出现位置可能出现的词语,得到候选词语列表。BERT模型接收输入词向量,将预测出的向量送入softmax层得到可能出现的词语的概率分布。
[0045]图1是扩展类目关键词列表的示意图,其中,E
[CLS
]是句子开始符嵌入表示,E1~E7是词 1~词7嵌入表示,E
[SEP
]是句子结束符嵌入表示;T
[CLS
]是模型预测出的句子向量表示,T1~T7是模型预测出的词1~词7的向量表示,T
[SEP
]是模型预测出的句子结束符向量表示。
[0046](2)按照词语出现概率对候选词语列表中的词语排序,截取top

50个词语作为扩展出的关键词。
[0047](3)删除每个类目关键词列表中的停用词,以及在多个类目关键词列表中都出现的词,再根据词语出现概率排序关键词,最后只保留top

100个词语。
[0048]2.预测类目指示词所属类目
[0049]分为两个子任务:
[0050]子任务1

构建类目指示词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT无监督文本分类的舆情分析方法,其特征在于,包括以下步骤:定义类目关键词列表;利用BERT模型和无标注语料扩展类目关键词列表,根据扩展的类目关键词列表构建类目指示词表;通过类目指示词表和无标注语料训练BERT模型,用于预测类目指示词所属的类目;利用训练所得的BERT模型预测舆情文本所属的类目;根据BERT模型的预测结果进行舆情分析。2.根据权利要求1所述的方法,其特征在于,所述利用BERT模型和无标注语料扩展类目关键词列表,包括:遍历无标注语料,遇到类目关键词时,用BERT模型预测该词出现位置可能出现的词语,得到候选词语列表;按照词语出现概率对候选词语列表中的词语排序,截取top

N个词语作为扩展出的关键词;删除每个类目关键词列表中的停用词,以及在多个类目关键词列表中都出现的词,再根据词语出现概率排序关键词,最后只保留top

M个词语。3.根据权利要求2所述的方法,其特征在于,所述top

N为top

50,所述top

M为top

100。4.根据权利要求1所述的方法,其特征在于,所述根据扩展的类目关键词列表构建类目指示词表,包括:遍历无标注语料的每个词语w,用BERT模型预测该词语位置可能出现的词语,得到词语列表;按照词语出现概率对词语列表中的词语排序,截取top

N个词语;如果top

N个词语中有n个词语出现在某个类目的类目关键词表中,则将词语w作为类目指示词,放入该类目下的类目指示词表中。5.根据权利要求4所述的方法,其特征在于,所述top

N为top...

【专利技术属性】
技术研发人员:呼大永孟庆川董伊然马灿于飞贾广恒
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1