当前位置: 首页 > 专利查询>华侨大学专利>正文

基于BERT模型和种子LDA模型的话题检测方法及装置制造方法及图纸

技术编号:39276164 阅读:9 留言:0更新日期:2023-11-07 10:53
本发明专利技术公开了一种基于BERT模型和种子LDA模型的话题检测方法及装置,涉及自然语言处理领域,获取原始文本集,对原始文本集进行预处理,得到文本集;构建种子LDA模型,将文本集中的每条文本输入BERT模型,得到每条文本的语义特征向量,通过BERT模型和种子LDA模型对文本集中每条文本的主题进行特征提取,得到每条文本的主题特征向量,将每条文本的语义特征向量和主题特征向量进行特征融合,得到每条文本的融合特征向量;将文本集中所有文本的融合特征向量输入K

【技术实现步骤摘要】
基于BERT模型和种子LDA模型的话题检测方法及装置


[0001]本专利技术涉及自然语言处理领域,具体涉及一种基于BERT模型和种子LDA模型的话题检测方法及装置。

技术介绍

[0002]随着计算机技术和互联网的迅速发展,越来越多的人习惯于通过互联网了解社会热点,借助互联网发表个人的意见、看法和主张。互联网已成为人们获取信息、发表意见、维护权益的重要场所。因而,如何监管舆情事件在互联网上的传播已成为一个具有现实意义的重大问题。网络舆情具有传播速度快、影响力大、参与性强的特点,网民们的态度极易受到网络舆情传播方向的影响,话题检测技术正是在这种情况下应运而生的,它不仅能够帮助用户及时从海量数据中获取自己感兴趣的话题信息。
[0003]话题检测是TDT的任务之一,目标是检测提取出文档中的话题。目前的话题检测方法存在以下几种问题:
[0004]1)基于分类的话题检测需要对语料进行标注,人工成本代价大;
[0005]2)基于聚类的话题检测是无监督模型,但话题提取效果不够优秀;
[0006]3)基于主题模型的话题检测仅考虑了文档的词语分布情况,未考虑文档的上下文信息;
[0007]4)LDA模型对于越长的训练文本生成的概率越准确,更适合长文本的主题挖掘,对于短文本的主题提取效果不好。

技术实现思路

[0008]针对上述提到的技术问题。本申请的实施例的目的在于提出了一种基于BERT模型和种子LDA模型的话题检测方法及装置,来解决以上
技术介绍
部分提到的技术问题。
[0009]第一方面,本专利技术提供了一种基于BERT模型和种子LDA模型的话题检测方法,包括以下步骤:
[0010]获取原始文本集,对原始文本集进行预处理,得到文本集;
[0011]构建种子LDA模型,将文本集中的每条文本输入BERT模型,得到每条文本的语义特征向量,通过BERT模型和种子LDA模型对文本集中每条文本的主题进行特征提取,得到每条文本的主题特征向量,将每条文本的语义特征向量和主题特征向量进行特征融合,得到每条文本的融合特征向量;
[0012]将文本集中所有文本的融合特征向量输入K

means算法进行聚类,得到若干个话题簇;
[0013]基于若干个话题簇采用TF

IDF算法提取出话题。
[0014]作为优选,通过BERT模型和种子LDA模型对文本集中每条文本的主题进行特征提取,得到每条文本的主题特征向量,具体包括:
[0015]将文本集输入种子LDA模型,输出指定个数的主题及其对应的主题词、文本集中每
条文本对应不同主题的概率以及不同主题词的概率;
[0016]将每个主题对应的主题词输入BERT模型,对主题词进行特征表示,得到主题词的特征表示,将主题词的概率作为权重,对主题词的特征表示进行加权,得到主题的特征向量表示:
[0017][0018]其中,topic_vec表示主题的特征向量表示,word_vec表示主题词的特征表示,topic2word_weight表示主题词的概率,i=1,2,

,m,m为主题的数量;
[0019]将文本集中每条文本不同主题的概率作为权重,对主题的特征表示向量进行加权,得到每条文本的主题特征向量:
[0020][0021]其中,doc_topic_vec表示文本的主题特征向量,doc2topic_weight表示文本对应主题的概率,j=1,2,

,n,n表示文本的数量。
[0022]作为优选,将每条文本的语义特征向量和主题特征向量进行特征融合,得到每条文本的融合特征向量,具体包括:
[0023]采用加权求和的方式将每条文本的语义特征向量与主题特征向量进行融合,得到每条文本的融合特征向量。
[0024]作为优选,构建种子LDA模型,具体包括:
[0025]定义文本集为D={d1,d2,

,d
M
},M为文本集中文本的总数,每个文本有N个词语;
[0026]从狄利克雷分布β
r
中选取生成常规主题词语分布
[0027]从狄利克雷分布β
s
中选取生成种子主题词语分布
[0028]从狄利克雷分布α中选取生成第i个文本d
i
的主题分布θ
i
,θ
i
为多项式分布;
[0029]从主题分布θ
i
中取样生成第i个文本d
i
的第j个词的主题z
i,j

[0030]从beta分布π
k
中选取x,如果x为0,则从常规主题分布中采样生成词语w;如果x为1,则从种子主题分布中采样生成词语w;
[0031]种子LDA模型中各种变量关系如下:
[0032][0033]其中,为主题z
i,j
的词分布,w
i,j
为采样生成的词语,表示所有变量的联合概率分布,p(θ
i
|α)表示在狄利克雷分布α条件下主题分布θ
i
的概率,p(z
i,j

i
)表示在主题分布θ
i
条件下主题z
i,j
的词分布概率,表示在狄利克雷分布β
s
条件下种子主题词语分布概率,表示在主题z
i,j
的词分布条件下生成的词语w
i,j
的概率,表示在狄利克雷分布β
r
条件下生成常规主题词语分布的概率。
[0034]作为优选,对原始文本集进行预处理,具体包括:
[0035]对原始文本集进行数据清洗、分词、去停用词。
[0036]作为优选,将文本集中所有文本的融合特征向量输入K

means算法进行聚类,得到若干个话题簇,具体包括:
[0037]S31,将文本集中所有文本的融合特征向量中划分为K份数据,并在每份数据中随机选取一个样本作为初始聚类中心;
[0038]S32,计算每份数据的每个融合特征向量与其对应的聚类中心之间的欧式距离,将其分配给距离最小的簇中;
[0039]S33,重新计算各个簇的聚类中心,该聚类中心为簇中样本的均值;
[0040]S34,重复步骤S32

S33,直至符合收敛终止条件,收敛得到的簇即为话题簇。
[0041]作为优选,基于若干个话题簇采用TF

IDF算法提取出话题,具体包括:
[0042]提取每个话题簇中的前N个词语,并计算每个词语在文本中出现的频次,得到词频:
[0043][0044]其中,n
d,w
表示词语w出现在文本d中的次数;
[0045]计算出每个词语的逆文档频率:
[0046][0047]其中,|M
w本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT模型和种子LDA模型的话题检测方法,其特征在于,包括以下步骤:获取原始文本集,对所述原始文本集进行预处理,得到文本集;构建种子LDA模型,将所述文本集中的每条文本输入BERT模型,得到每条文本的语义特征向量,通过所述BERT模型和种子LDA模型对所述文本集中每条文本的主题进行特征提取,得到每条文本的主题特征向量,将每条文本的语义特征向量和主题特征向量进行特征融合,得到每条文本的融合特征向量;将所述文本集中所有文本的所述融合特征向量输入K

means算法进行聚类,得到若干个话题簇;基于所述若干个话题簇采用TF

IDF算法提取出话题。2.根据权利要求1所述的基于BERT模型和种子LDA模型的话题检测方法,其特征在于,所述通过所述BERT模型和种子LDA模型对所述文本集中每条文本的主题进行特征提取,得到每条文本的主题特征向量,具体包括:将所述文本集输入种子LDA模型,输出指定个数的主题及其对应的主题词、所述文本集中每条文本对应不同主题的概率以及不同主题词的概率;将每个主题对应的所述主题词输入BERT模型,对所述主题词进行特征表示,得到主题词的特征表示,将主题词的概率作为权重,对所述主题词的特征表示进行加权,得到主题的特征向量表示:其中,topic_vec表示主题的特征向量表示,word_vec表示主题词的特征表示,topic2word_weight表示主题词的概率,i=1,2,

,m,m为主题的数量;将所述文本集中每条文本不同主题的概率作为权重,对所述主题的特征表示向量进行加权,得到每条文本的主题特征向量:其中,doc_topic_vec表示文本的主题特征向量,doc2topic_weight表示文本对应主题的概率,j=1,2,

,n,n表示文本的数量。3.根据权利要求2所述的基于BERT模型和种子LDA模型的话题检测方法,其特征在于,所述将每条文本的语义特征向量和主题特征向量进行特征融合,得到每条文本的融合特征向量,具体包括:采用加权求和的方式将每条文本的所述语义特征向量与主题特征向量进行融合,得到每条文本的融合特征向量。4.根据权利要求1所述的基于BERT模型和种子LDA模型的话题检测方法,其特征在于,所述构建种子LDA模型,具体包括:定义所述文本集为D={d1,d2,

,d
M
},M为所述文本集中文本的总数,每个文本有N个词语;从狄利克雷分布β
r
中选取生成常规主题词语分布从狄利克雷分布β
s
中选取生成种子主题词语分布
从狄利克雷分布α中选取生成第i个文本d
i
的主题分布θ
i
,θ
i
为多项式分布;从主题分布θ
i
中取样生成第i个文本d
i
的第j个词的主题z
i,j
;从beta分布π
k
中选取x,如果x为0,则从常规主题分布中采样生成词语w;如果x为1,则从种子主题分布中采样生成词语w;所述种子LDA模型中各种变量关系如下:其中,为主题z
i,j
的词分布,w
i,j
为采样生成的词语,表示所有变量的联合概率分布,p(θ
i
|α)表示在狄利克雷分布α条件下主题分布θ
i
的概率,p(...

【专利技术属性】
技术研发人员:李弼程黄志勇刘其龙吴静皮慧娟王成王华珍
申请(专利权)人:华侨大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1