主题建模方法技术

技术编号:39731073 阅读:24 留言:0更新日期:2023-12-17 23:34
本申请实施例涉及一种主题建模方法

【技术实现步骤摘要】
主题建模方法、装置、电子设备和计算机可读存储介质


[0001]本申请涉及人工智能
,具体涉及一种主题建模方法

装置

电子设备和计算机可读存储介质


技术介绍

[0002]互联网

通信等领域的企业,在每天的生产过程或者用户使用过程中会产生大量的文档数据

由于数据量巨大,高价值信息极易被大量无用数据淹没,难以被获取和有效利用

通过主题建模技术,能够从海量文档中发掘出共性信息,对相似文档进行结构化归类,并提取出对应主题

而且,主题建模技术能够从侧面反应出海量文本数据随时间的变化趋势,有助于分析数据的规律与内在关联

因此,如何更加准确地提取文档的主题,成为当下的研究热点


技术实现思路

[0003]本申请实施例公开了一种主题建模方法

装置

电子设备和计算机可读存储介质,能够结合声学和语义层面的理解,准确地确定各个文档类别的目标主题...

【技术保护点】

【技术特征摘要】
1.
一种主题建模方法,其特征在于,所述方法包括:获取多个文档数据,所述文档数据包括文本数据及与所述文本数据对应的语音数据;通过特征提取模型分别对第一文档数据包括的语音数据和文本数据进行特征提取,得到声学特征向量和文本特征向量,并对所述声学特征向量和文本特征向量进行融合,得到所述第一文档数据对应的第一声学语义向量;所述第一文档数据为任一所述文档数据;根据所述多个文档数据分别对应的第一声学语义向量,对所述多个文档数据进行聚类,以得到多个文档类别;根据各个所述文档类别包含的文档数据,确定各个所述文档类别对应的目标主题
。2.
根据权利要求1所述的方法,其特征在于,所述根据所述多个文档数据分别对应的第一声学语义向量,对所述多个文档数据进行聚类,以得到多个文档类别,包括:将所述多个文档数据分别对应的第一声学语义向量从第一向量空间映射到第二向量空间,得到所述多个文档数据分别对应的第二声学语义向量;所述第一向量空间的维度大于所述第二向量空间;根据密度聚类算法对所述多个文档数据分别对应的第二声学语义向量进行聚类,以得到多个文档类别,所述多个文档类别与聚类得到的多个簇类一一对应
。3.
根据权利要求1所述的方法,其特征在于,所述根据各个所述文档类别包含的文档数据,确定各个所述文档类别对应的目标主题,包括:将第一文档类别包含的所有文档数据作为一个长文档;所述第一文档类别为任一所述文档类别;根据所述第一文档类别对应的长文档中包含的各个词语对应的词频,确定所述第一文档类别对应的目标主题
。4.
根据权利要求3所述的方法,其特征在于,在所述确定各个所述文档类别对应的目标主题之后,所述方法还包括:计算任意两个当前的文档类别对应的目标主题之间的相似度;将相似度大于相似度阈值的两个文档类别进行合并,并重新确定合并后的文档类别对应的目标主题,以得到更新后的多个文档类别及各个文档类别对应的目标主题;将所述更新后的多个文档类别作为新的当前的文档类别,重新执行所述计算任意两个当前的文档类别对应的目标主题之间的相似度的步骤,直至任意两个当前的文档类别对应的目标主题之间的相似度都不大于所述相似度阈值
。5.
根据权利要求1所述的方法,其特征在于,所述特征提取模型的训练过程,包括:加载通过样本语料集合进行预训练得到的模型参数,以构建预训练的特征提取模型;获取多个样本语音数据及各个所述样本语音数据对应的样本文本数据;通过所述预训练的特征提取模型...

【专利技术属性】
技术研发人员:肖清吕召彪赵文博许程冲
申请(专利权)人:联通广东产业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1