一种基于BERT模型的话题检测方法、设备及存储介质技术

技术编号:31480080 阅读:17 留言:0更新日期:2021-12-18 12:13
本发明专利技术涉及一种基于BERT模型的话题检测方法与装置、设备及存储介质,包括步:(1)使用BERT模型对原始数据中的文本进行编码,将可变长度文本转换为固定长度的文本特征向量;(2)对文本特征向量依次进行归一化、卷积、池化处理,得到文本特征向量;(3)计算文本特征向量之间的相似度,对相似的文本特征向量去重;(4)使用文本特征向量分类器对文本特征向量进行分类,剔除垃圾信息;(5)利用X

【技术实现步骤摘要】
一种基于BERT模型的话题检测方法、设备及存储介质


[0001]本专利技术涉及一种基于BERT模型的话题检测方法、设备及存储介质,属于神经网络


技术介绍

[0002]随着互联网的迅速发展以及移动终端设备的日益普及,以新浪微博、微信、知乎、抖音、推特、 贴吧、论坛等社交媒体成为人们发表言论、分享经验、获取信息的重要工具和渠道。但社交媒体网 络规模庞大,面对社交网络中杂乱无章的海量数据,如何快速准确地检测、挖掘突发话题和热门话 题,并对其进行演化分析具有重要的研究意义和应用价值。
[0003]社交媒体文本数据规模庞大且文本数据语法不规范,并非所有的文本数据都是书面用语,文本 数据内容存在口语化与碎片化表达,不同实例的语言组织方式差别很大。这些社交媒体数据存在大 量的重复数据,其中大部分数据之间存在较小差异,并非完全重复。同时在这些数据中也存在大量 无任何价值且只是为了蹭热点的垃圾信息。
[0004]目前,针对社交媒体的话题检测方法可分为三类,一类是基于聚类的方法,另一类是基于主题 模型的方法,还有一类是基于统计信息的方法。基于聚类的方法有划分聚类、层次聚类、网格聚类 和密度聚类等,划分聚类方法如K

means算法需设置类别数,它对类簇中心选择敏感。层次聚类 方法计算量较大,很少直接适用于社交媒体的话题检测。网格聚类方法对参数设置敏感,聚类精度 不高。密度聚类方法的结果精度与参数设置密切相关,实用性不强;基于主题模型的方法有LDA 模型(Latent Dirichlet Allocation,隐狄利克雷分配模型)、PLSA模型(Probabilistic latent semanticanalysis,概率隐性语义分析)和LSA模型(Latent semantic analysis,隐性语义分析)等,这些模型对 社交媒体文本话题的检测效果差,容易受到数据稀疏的影响。基于统计信息的方法有词频、 TF

IDF(Term Frequency

Inverse Document Frequency,词频

逆文档频率)等方法,这些方法在处理中 小量规模、语法较为规整的数据时有一定的效果,但是在面对数据规模庞大且复杂的数据时,这些 方法的处理效果远远无法达到预期。

技术实现思路

[0005]针对现有技术的不足,本专利技术提供了一种基于BERT模型的话题检测方法。
[0006]本专利技术提出了一种基于BERT模型的话题检测方法。首先,使用BERT模型将原始文本数据中 的文本编码成固定长度的文本特征向量;接着,对文本特征向量做特征向量归一化、卷积、池化处 理得到降维后的文本特征向量;之后,计算文本特征向量的相似度,对相似的文本特征向量去重; 最后,利用X

Means算法对文本特征向量聚类,输出文本特征向量的聚类结果。本专利技术可以有效 地检测、挖掘社交媒体的突发话题和热门话题,提高了话题检测的效率及准确性。
[0007]本专利技术还提供了一种计算机设备和计算机可读存储介质。
[0008]术语解释:
[0009]1、BERT(BidirectionalEncoderRepresentationfromTransformers)模型是Google公司在2018年10 月推出的深度语言表示模型,它旨在通过联合调节所有层中的上下文来预先训练深度双向表示。使 用BERT模型编码句子,将可变长度的句子转变为固定长度的向量。
[0010]2、归一化处理,为了让数据在训练过程中保持同一分布,在每一个隐藏层进行批量归一化。 对于每一个批次数据,计算该批次数据的均值与方差,在将线性计算结果送入激活函数之前,先对 计算结果进行批量归一化处理,即减均值、除标准差,保证计算结果符合均值为0,方差为1的标 准正态分布,然后再将计算结果作为激活函数的输入值进行计算。
[0011]3、卷积处理,卷积处理:向文本特征向量应用核(滤波器)的过程。
[0012]4、池化处理,池化处理:通过下采样降低文本特征向量大小的过程,其中下采样是指降低文 本特征向量维数的操作。
[0013]本专利技术的技术方案为:
[0014]一种基于BERT模型的话题检测方法,包括步骤如下:
[0015](1)使用BERT模型对原始数据中的文本进行编码,将可变长度文本转换为固定长度的文本 特征向量;原始数据是指利用网络爬虫从新浪微博、知乎、贴吧、论坛等社交媒体爬取的文本数据。
[0016](2)对步骤(1)得到的文本特征向量依次进行归一化、卷积、池化处理,得到文本特征向量;
[0017](3)计算步骤(2)得到的文本特征向量之间的相似度,对相似的文本特征向量去重;
[0018](4)使用文本特征向量分类器对步骤(3)处理后的文本特征向量进行分类,剔除垃圾信息;
[0019](5)利用X

means算法对剔除垃圾信息后的文本特征向量聚类,输出文本聚类结果。
[0020]根据本专利技术优选的,步骤(1)中,包括步骤如下:
[0021]使用BERT模型对原始数据中的文本进行编码,获取文本的编码信息,文本的编码信息即固定 长度的文本特征向量。
[0022]根据本专利技术优选的,步骤(1)中,利用网络爬虫从社交媒体采集原始数据。
[0023]根据本专利技术优选的,步骤(3)中,文本特征向量之间的相似度是指文本特征向量之间的欧式 距离,对于两个文本特征向量x和y之间的欧式距离d的计算公式如式(Ⅰ)所示:
[0024][0025]式(Ⅰ)中,x
i
表示文本特征向量x第i维的数值,y
i
表示文本特征向量y第i维的数值,384表 示文本特征向量的维度。
[0026]根据本专利技术优选的,步骤(3)中,设置阈值,当两个文本特征向量之间的欧式距离小于该阈 值时,即判断这两个文本特征向量为重复文本,进行去重。
[0027]进一步优选的,该阈值的取值范围为[3,10]。
[0028]根据本专利技术优选的,步骤(4)中,文本特征向量分类器为两层全连接神经网络,包
括输入层、 隐藏层和输出层,文本特征向量分类器的输入为384维文本特征向量,隐藏层包含64个节点,输 出层包含3个节点。
[0029]根据本专利技术优选的,步骤(4)的具体实现步骤包括:
[0030]A、训练:将步骤(3)处理后的文本特征向量输入文本特征向量分类器进行训练,采用交叉 熵作为损失函数,其中,文本特征向量维度为384,学习率为0.0001、训练轮数为200,批数据大 小为24,衰减率为0.18;
[0031]B、分类:采用Softmax函数对文本特征向量进行分类,Softmax函数为每个潜在输出类别生成 概率,其中最大概率对应的类别即为文本特征向量分类器的输出。
[0032]根据本专利技术优选的,步骤(5)的具体实现步骤包括:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT模型的话题检测方法,其特征在于,包括步骤如下:(1)使用BERT模型对原始数据中的文本进行编码,将可变长度文本转换为固定长度的文本特征向量;原始数据是指利用网络爬虫从新浪微博、知乎、贴吧、论坛等社交媒体爬取的文本数据。(2)对步骤(1)得到的文本特征向量依次进行归一化、卷积、池化处理,得到文本特征向量;(3)计算步骤(2)得到的文本特征向量之间的相似度,对相似的文本特征向量去重;(4)使用文本特征向量分类器对步骤(3)处理后的文本特征向量进行分类,剔除垃圾信息;(5)利用X

means算法对剔除垃圾信息后的文本特征向量聚类,输出文本聚类结果。2.根据权利要求1所述的一种基于BERT模型的话题检测方法,其特征在于,步骤(1)中,包括步骤如下:使用BERT模型对原始数据中的文本进行编码,获取文本的编码信息,文本的编码信息即固定长度的文本特征向量。3.根据权利要求1所述的一种基于BERT模型的话题检测方法,其特征在于,步骤(1)中,利用网络爬虫从社交媒体采集原始数据。4.根据权利要求1所述的一种基于BERT模型的话题检测方法,其特征在于,步骤(3)中,文本特征向量之间的相似度是指文本特征向量之间的欧式距离,对于两个文本特征向量x和y之间的欧式距离d的计算公式如式(Ⅰ)所示:式(Ⅰ)中,x
i
表示文本特征向量x第i维的数值,y
i
表示文本特征向量y第i维的数值,384表示文本特征向量的维度。5.根据权利要求1所述的一种基于BERT模型的话题检测方法,其特征在于,步骤(3)中,设置阈值,当两个文本特征向量之间的欧式距离小于该阈值时,即判断这两个文本特征向量为重复文本,进行去重;进一步优选的,该阈值的取值范围为[3,10]。6.根据权利要求1所述的一种基于BERT模型的话题检测方法,其特征在于,步骤(4)中,文本特征向量分类器为两层全连接神经网络,包括输入层、隐藏层和输出层,文本特征向量分类器的输入为384维文本特征向量,隐藏层包含64个节点,输出层包含3个节点。7.根据权利要求1所述的一种基于BERT模型的...

【专利技术属性】
技术研发人员:王超俊魏玉良王佰玲刘扬刘红日辛国栋
申请(专利权)人:哈尔滨工业大学威海
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1