一种基于LDA模型的新闻自动标签方法技术

技术编号:22330314 阅读:56 留言:0更新日期:2019-10-19 12:19
本发明专利技术涉及一种基于LDA模型的新闻自动标签方法,在语义层面上对文本数据特征的提取,在实际应用中具有较好的效果;针对LDA模型提出改进,利用点互信息对主题词关系进行量化,通过计算主题词的权重得到主题词间的共现关系,设置阈值选择最佳主题词,该方法通过对词汇对应不同主题表征能力的强弱,选出准确率较高的关键词通过本发明专利技术,能够引入互信息对主题‑词项矩阵进行改进,提高了LDA模型在新闻文档自动标签应用中的准确率,更好的刻画主题词之间的相关性。

An automatic news tagging method based on LDA model

【技术实现步骤摘要】
一种基于LDA模型的新闻自动标签方法
本专利技术涉及文本处理
,更具体地说,涉及一种基于LDA模型的新闻自动标签方法。
技术介绍
随着信息网络的发展,信息过载,新闻文本爆炸式激增,文本大多篇幅较长,如果在未仔细阅读之前就可以大致了解文章讲的是什么,可以节省时间迅速找到个人关注的新闻内容,选择性的仔细阅读某一条新闻,新闻自动标签的任务就是通过对文本内容进行表征,进而筛选出有用的信息,如何更准确的提取文本中要表达的信息是当下研究的重要课题之一,被广泛应用于文本分类、聚类、新闻推荐、机器翻译、论文索引等自然语言处理任务中。LDA主题模型是一种常用的语义提取模型,通过词项之间的共现,将词项空间转化为主题空间,提取主题词,达到降维的目的。由于LDA模型有很好的语义提取和降维功能被广泛应用于各个领域。自动标签关键词常用的方法有基于统计的方法,如TFIDF,该方法快速简单,但是仅仅基于词频方面去考虑,不够全面,并且忽略了语义信息,从语义方面考虑有基于主题的方法,如LDA模型,对于语义信息的提取和特征空间的降维效果很好,还有TextRank,该算法不需要训练数据,并且速度较快,但是它忽略了语义本文档来自技高网...

【技术保护点】
1.基于LDA模型的新闻自动标签方法,其特征在于,包括以下步骤:将需要进行自动标签的文本进行预处理;其中预处理的方式至少包括中文分词、去停用词;利用LDA模型对预处理后的文本进行建模,计算文本中每个词项的词项权重;根据计算所得的词项权重,从预处理后的文本中采样每一个主题;在预处理后的文本中,分别计算文档‑主题分布和主题‑词分布;通过主题‑词分布,计算采样得到的每个主题的主题权重;根据每个主题的主题权重计算主题词间权重,选出符合的主题词;获取主题编号,输出文章主题标签。

【技术特征摘要】
1.基于LDA模型的新闻自动标签方法,其特征在于,包括以下步骤:将需要进行自动标签的文本进行预处理;其中预处理的方式至少包括中文分词、去停用词;利用LDA模型对预处理后的文本进行建模,计算文本中每个词项的词项权重;根据计算所得的词项权重,从预处理后的文本中采样每一个主题;在预处理后的文本中,分别计算文档-主题分布和主题-词分布;通过主题-词分布,计算采样得到的每个主题的主题权重;根据每个主题的主题权重计算主题词间权重,选出符合的主题词;获取主题编号,输出文章主题标签。2.根据权利要求1所述的基于LDA模型的新闻自动标签方法,其特征在于,每个主题的主题权重的计算公式为:其中,N为主题个数,t1,t2为任意两个不同主题。3.根据权利要求1所述的基于LDA模型的新闻自动标签方法,其特征在于,从预处理后的文本中采样每一个主题时,采样方式为Gibbs采样;在Gibbs采样中,每个主题的采样公式如下:其中,W为词项总数,nmkw表示在文本m中,主题词k下词的个数,nkw表示主题为k的词项中,词w出现的次数,根据公...

【专利技术属性】
技术研发人员:谢珺郝晓燕梁凤梅续欣莹靳红伟
申请(专利权)人:太原理工大学
类型:发明
国别省市:山西,14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1