【技术实现步骤摘要】
本申请属于自然语言处理与文本挖掘,具体的说是涉及一种面向在线论坛低资源话题关键主题抽取方法。
技术介绍
1、随着互联网的普及,网络论坛已经成为用户分享日常生活和交流意见的流行平。这些用户生成的文本为分析公众对各种社会现象的意见提供了宝贵的资源。然而,论坛上的大多数子版块显示出低资源属性,活跃成员和帖子有限。尽管语料库的规模很小,但是用户提交的文章包含了重要的方面,比如 “心理健康和家庭问题”,比如 “孤独和浪漫关系”,比如 “健康和医疗斗争”,所有这些都会导致不快乐的感觉,并且具有潜在的分析价值。
2、传统主题建模技术面临三大核心挑战:a)数据稀疏性:低活跃度社区文档数量常低于3000篇,导致神经网络训练不充分。b)噪声敏感性:用户生成文本存在拼写错误和语法不规范问题,影响词袋模型效果。c)模型复杂度:vae架构的神经主题模型参数量过多,在小数据集上易出现过拟合。
3、现有解决方案存在显著缺陷,如传统的贝叶斯方法,如 lda和基于bow 的神经变体,如ecrtm,不能解决数据稀缺性和噪音信息的挑战;同样,最近开发
...【技术保护点】
1.一种面向在线论坛的低资源话题关键主题抽取方法,其特征在于:所述低资源话题关键主题抽取方法具体包括以下步骤:
2.根据权利要求1所述的一种面向在线论坛的低资源话题关键主题抽取方法,其特征在于:所述步骤1中获取在线论坛的低资源文档,通过大型语言模型对获取的低资源文档进行语义保持的数据增强,生成增强文档集合,具体包括如下步骤:
3.根据权利要求所述的一种面向在线论坛的低资源话题关键主题抽取方法,其特征在于:所述步骤2提取增强语料中文档的文档级别表示,具体包括如下步骤:
4.根据权利要求3所述的一种面向在线论坛的低资源话题关键主题抽取方
...【技术特征摘要】
1.一种面向在线论坛的低资源话题关键主题抽取方法,其特征在于:所述低资源话题关键主题抽取方法具体包括以下步骤:
2.根据权利要求1所述的一种面向在线论坛的低资源话题关键主题抽取方法,其特征在于:所述步骤1中获取在线论坛的低资源文档,通过大型语言模型对获取的低资源文档进行语义保持的数据增强,生成增强文档集合,具体包括如下步骤:
3.根据权利要求所述的一种面向在线论坛的低资源话题关键主题抽取方法,其特征在于:所述步骤2提取增强语料中文档的文档级别表示,具体包括如下步骤:
4.根据权利要求3所述的一种面向在线论坛的低资源话题关键主题抽取方法,其特征在于:所述步骤3构建可学习的主题嵌入矩阵,通过文档-主题相似度计算文档主题分布,具体包括如下步骤:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。