一种面向在线论坛的低资源话题关键主题抽取方法技术

技术编号:45536340 阅读:25 留言:0更新日期:2025-06-13 17:37
本申请属于自然语言处理与文本挖掘技术领域,公开了一种面向在线论坛的低资源话题关键主题抽取方法,包括:通过大型语言模型对原始文本进行语义保持的数据增强,生成增强文档集合;利用预训练语言模型提取文档的上下文感知语义表示;构建可学习的主题嵌入矩阵,计算生成主题分布;设计语义感知对比学习框架,采用动态负样本筛选策略优化主题多样性;同时使用先验对齐损失来确保主题一致性。本发明专利技术创新性地融合LLM增强的数据扩充机制与轻量化主题编码架构,通过对比学习正则化和先验分布匹配的双重优化,有效解决了低资源场景下数据稀疏、模型过拟合和噪声敏感三大技术难题,为社交媒体舆情分析提供了高效可靠的主题建模解决方案。

【技术实现步骤摘要】

本申请属于自然语言处理与文本挖掘,具体的说是涉及一种面向在线论坛低资源话题关键主题抽取方法。


技术介绍

1、随着互联网的普及,网络论坛已经成为用户分享日常生活和交流意见的流行平。这些用户生成的文本为分析公众对各种社会现象的意见提供了宝贵的资源。然而,论坛上的大多数子版块显示出低资源属性,活跃成员和帖子有限。尽管语料库的规模很小,但是用户提交的文章包含了重要的方面,比如 “心理健康和家庭问题”,比如 “孤独和浪漫关系”,比如 “健康和医疗斗争”,所有这些都会导致不快乐的感觉,并且具有潜在的分析价值。

2、传统主题建模技术面临三大核心挑战:a)数据稀疏性:低活跃度社区文档数量常低于3000篇,导致神经网络训练不充分。b)噪声敏感性:用户生成文本存在拼写错误和语法不规范问题,影响词袋模型效果。c)模型复杂度:vae架构的神经主题模型参数量过多,在小数据集上易出现过拟合。

3、现有解决方案存在显著缺陷,如传统的贝叶斯方法,如 lda和基于bow 的神经变体,如ecrtm,不能解决数据稀缺性和噪音信息的挑战;同样,最近开发的基于vae 的上下本文档来自技高网...

【技术保护点】

1.一种面向在线论坛的低资源话题关键主题抽取方法,其特征在于:所述低资源话题关键主题抽取方法具体包括以下步骤:

2.根据权利要求1所述的一种面向在线论坛的低资源话题关键主题抽取方法,其特征在于:所述步骤1中获取在线论坛的低资源文档,通过大型语言模型对获取的低资源文档进行语义保持的数据增强,生成增强文档集合,具体包括如下步骤:

3.根据权利要求所述的一种面向在线论坛的低资源话题关键主题抽取方法,其特征在于:所述步骤2提取增强语料中文档的文档级别表示,具体包括如下步骤:

4.根据权利要求3所述的一种面向在线论坛的低资源话题关键主题抽取方法,其特征在于:所述...

【技术特征摘要】

1.一种面向在线论坛的低资源话题关键主题抽取方法,其特征在于:所述低资源话题关键主题抽取方法具体包括以下步骤:

2.根据权利要求1所述的一种面向在线论坛的低资源话题关键主题抽取方法,其特征在于:所述步骤1中获取在线论坛的低资源文档,通过大型语言模型对获取的低资源文档进行语义保持的数据增强,生成增强文档集合,具体包括如下步骤:

3.根据权利要求所述的一种面向在线论坛的低资源话题关键主题抽取方法,其特征在于:所述步骤2提取增强语料中文档的文档级别表示,具体包括如下步骤:

4.根据权利要求3所述的一种面向在线论坛的低资源话题关键主题抽取方法,其特征在于:所述步骤3构建可学习的主题嵌入矩阵,通过文档-主题相似度计算文档主题分布,具体包括如下步骤:

【专利技术属性】
技术研发人员:王睿郑毅姚遥
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1