一种基于BERT模型的话题检测方法、设备及存储介质技术

技术编号：31480080 阅读：17 留言：0更新日期：2021-12-18 12:13

本发明专利技术涉及一种基于BERT模型的话题检测方法与装置、设备及存储介质，包括步：(1)使用BERT模型对原始数据中的文本进行编码，将可变长度文本转换为固定长度的文本特征向量；(2)对文本特征向量依次进行归一化、卷积、池化处理，得到文本特征向量；(3)计算文本特征向量之间的相似度，对相似的文本特征向量去重；(4)使用文本特征向量分类器对文本特征向量进行分类，剔除垃圾信息；(5)利用X

全部详细技术资料下载

【技术实现步骤摘要】
一种基于BERT模型的话题检测方法、设备及存储介质

[0001]本专利技术涉及一种基于BERT模型的话题检测方法、设备及存储介质，属于神经网络

技术介绍

[0002]随着互联网的迅速发展以及移动终端设备的日益普及，以新浪微博、微信、知乎、抖音、推特、贴吧、论坛等社交媒体成为人们发表言论、分享经验、获取信息的重要工具和渠道。但社交媒体网络规模庞大，面对社交网络中杂乱无章的海量数据，如何快速准确地检测、挖掘突发话题和热门话题，并对其进行演化分析具有重要的研究意义和应用价值。
[0003]社交媒体文本数据规模庞大且文本数据语法不规范，并非所有的文本数据都是书面用语，文本数据内容存在口语化与碎片化表达，不同实例的语言组织方式差别很大。这些社交媒体数据存在大量的重复数据，其中大部分数据之间存在较小差异，并非完全重复。同时在这些数据中也存在大量无任何价值且只是为了蹭热点的垃圾信息。
[0004]目前，针对社交媒体的话题检测方法可分为三类，一类是基于聚类的方法，另一类是基于主题模型的方法，还有一类是基于统计信息的方法。基于聚类的方法有划分聚类、层次聚类、网格聚类和密度聚类等，划分聚类方法如K
‑
means算法需设置类别数，它对类簇中心选择敏感。层次聚类方法计算量较大，很少直接适用于社交媒体的话题检测。网格聚类方法对参数设置敏感，聚类精度不高。密度聚类方法的结果精度与参数设置密切相关，实用性不强；基于主题模型的方法有LDA 模型(Latent Dirichlet All...

【技术保护点】

【技术特征摘要】
1.一种基于BERT模型的话题检测方法，其特征在于，包括步骤如下：(1)使用BERT模型对原始数据中的文本进行编码，将可变长度文本转换为固定长度的文本特征向量；原始数据是指利用网络爬虫从新浪微博、知乎、贴吧、论坛等社交媒体爬取的文本数据。(2)对步骤(1)得到的文本特征向量依次进行归一化、卷积、池化处理，得到文本特征向量；(3)计算步骤(2)得到的文本特征向量之间的相似度，对相似的文本特征向量去重；(4)使用文本特征向量分类器对步骤(3)处理后的文本特征向量进行分类，剔除垃圾信息；(5)利用X
‑
means算法对剔除垃圾信息后的文本特征向量聚类，输出文本聚类结果。2.根据权利要求1所述的一种基于BERT模型的话题检测方法，其特征在于，步骤(1)中，包括步骤如下：使用BERT模型对原始数据中的文本进行编码，获取文本的编码信息，文本的编码信息即固定长度的文本特征向量。3.根据权利要求1所述的一种基于BERT模型的话题检测方法，其特征在于，步骤(1)中，利用网络爬虫从社交媒体采集原始数据。4.根据权利要求1所述的一种基于BERT模型的话题检测方法，其特征在于，步骤(3)中，文本特征向量之间的相似度是指文本特征向量之间的欧式距离，对于两个文本特征向量x和y之间的欧式距离d的计算公式如式(Ⅰ)所示：式(Ⅰ)中，x
i
表示文本特征向量x第i维的数值，y
i
表示文本特征向量y第i维的数值，384表示文本特征向量的维度。5.根据权利要求1所述的一种基于BERT模型的话题检测方法，其特征在于，步骤(3)中，设置阈值，当两个文本特征向量之间的欧式距离小于该阈值时，即判断这两个文本特征向量为重复文本，进行去重；进一步优选的，该阈值的取值范围为[3，10]。6.根据权利要求1所述的一种基于BERT模型的话题检测方法，其特征在于，步骤(4)中，文本特征向量分类器为两层全连接神经网络，包括输入层、隐藏层和输出层，文本特征向量分类器的输入为384维文本特征向量，隐藏层包含64个节点，输出层包含3个节点。7.根据权利要求1所述的一种基于BERT模型的...

【专利技术属性】
技术研发人员：王超俊，魏玉良，王佰玲，刘扬，刘红日，辛国栋，
申请(专利权)人：哈尔滨工业大学威海，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人