一种基于LDA的大数据新闻分类方法、系统及装置制造方法及图纸

技术编号:17779743 阅读:103 留言:0更新日期:2018-04-22 08:16
本发明专利技术公开了一种基于LDA的大数据新闻分类方法、系统及装置,方法包括:对获得的新闻文档进行预处理,得到语料库;对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵;根据主题分布概率矩阵和词分布概率矩阵,结合分类算法进行分类,得到新闻文档所属的类别。本发明专利技术通过隐含狄利克雷法并在该算法上基于参数优化的改进,再结合分类算法,高效的实现了新闻文档的分类,克服了采用特征提取方法带来的分类性能受损问题,避免了使用特征滤取方法存在的未考虑词与词之间语义联系的问题,减少了人工对新闻分类的时间消耗,使信息更快速高效地传播。本发明专利技术可广泛应用于新闻分类中。

【技术实现步骤摘要】
一种基于LDA的大数据新闻分类方法、系统及装置
本专利技术涉及文本分类
,尤其涉及一种基于LDA的大数据新闻分类方法、系统及装置。
技术介绍
当今已处在一个信息爆炸的时代,据统计,全球每天互联网产生的流量累计高达1EB(即10亿GB)。其中用以文本表示的信息量急速增长,包括媒体新闻、科技报告、书籍、邮件、微博、评论等文本信息与日俱增。而新闻以互联网、电视、广播、报纸等形式展现,每日需更新报道,具有极大的时效性。若通过人工手动进行分类,将耗费巨大人力物力,因此,实现新闻自动准确的分类,方便读者快速找到感兴趣的新闻乃是大势所趋。在新闻文本分类领域,已有的技术包括基于TFIDF的特征提取,基于聚类的web方法,以及基潜在语义分析等文本分类方法,这些方法虽各有所长,但普遍存在以下缺点:在处理高维和大规模新闻文本方面存在一定的局限性;基于特征提取的方法TFIDF等,存在没有考虑词和词之间的语义联系问题;采用特征提取方法可能带来新闻分类性能受损的情况。
技术实现思路
为了解决上述技术问题,本专利技术的目的是提供一种能提高分类效果准确性的基于LDA的大数据新闻分类方法、系统及装置。本专利技术所采本文档来自技高网...
一种基于LDA的大数据新闻分类方法、系统及装置

【技术保护点】
一种基于LDA的大数据新闻分类方法,其特征在于,包括以下步骤:对获得的新闻文档进行预处理,得到语料库;对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵;根据主题分布概率矩阵和词分布概率矩阵,结合分类算法进行分类,得到新闻文档所属的类别。

【技术特征摘要】
1.一种基于LDA的大数据新闻分类方法,其特征在于,包括以下步骤:对获得的新闻文档进行预处理,得到语料库;对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵;根据主题分布概率矩阵和词分布概率矩阵,结合分类算法进行分类,得到新闻文档所属的类别。2.根据权利要求1所述的一种基于LDA的大数据新闻分类方法,其特征在于:所述的对获得的新闻文档进行预处理,得到语料库,这一步骤具体包括:对获得的新闻文档进行分词处理,并对未登录词进行识别,得到新闻文档中的词;将得到的词根据预设的停留词表进行去停留词处理,得到语料库。3.根据权利要求1所述的一种基于LDA的大数据新闻分类方法,其特征在于:所述的对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵,这一步骤具体包括:根据语料库,进行LDA建模得到LDA模型;对LDA模型中的参数进行优化计算;根据建立的LDA模型进行参数估计;根据优化后的参数,得到主题分布概率矩阵和词分布概率矩阵。4.根据权利要求3所述的一种基于LDA的大数据新闻分类方法,其特征在于:所述的根据语料库,进行LDA建模得到LDA模型,这一步骤具体表现为:其中,主题分布θ服从超参数为α的狄利克雷,词分布服从超参数为β的狄利克雷分布,词w服从参数为θ的主题分布,主题编号z服从参数为的多项式分布。5.根据权利要求3所述的一种基于LDA的大数据新闻分类方法,其特征在于:所述的对LDA模型中的参数进行优化计算,这一步骤的具体计算公式为:其中,表示优化后的参数α,表示优化后的参数β,αk表示优化前的参数α,βt表示优化前的参数β,为Digamma函数,表示求变量x的对数的导数,nik表示第i篇文章,主题为k的文档计数,nkt表示主题编号为k的词t的计数,且ni=∑knik,nk=∑tnkt。6.根据权利要求4所述的一种基于LDA的大数据新闻分类方法,其特征在于:所述...

【专利技术属性】
技术研发人员:贾义动孔祥明吴元琪
申请(专利权)人:广东广业开元科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1