【技术实现步骤摘要】
一种基于LDA的大数据新闻分类方法、系统及装置
本专利技术涉及文本分类
,尤其涉及一种基于LDA的大数据新闻分类方法、系统及装置。
技术介绍
当今已处在一个信息爆炸的时代,据统计,全球每天互联网产生的流量累计高达1EB(即10亿GB)。其中用以文本表示的信息量急速增长,包括媒体新闻、科技报告、书籍、邮件、微博、评论等文本信息与日俱增。而新闻以互联网、电视、广播、报纸等形式展现,每日需更新报道,具有极大的时效性。若通过人工手动进行分类,将耗费巨大人力物力,因此,实现新闻自动准确的分类,方便读者快速找到感兴趣的新闻乃是大势所趋。在新闻文本分类领域,已有的技术包括基于TFIDF的特征提取,基于聚类的web方法,以及基潜在语义分析等文本分类方法,这些方法虽各有所长,但普遍存在以下缺点:在处理高维和大规模新闻文本方面存在一定的局限性;基于特征提取的方法TFIDF等,存在没有考虑词和词之间的语义联系问题;采用特征提取方法可能带来新闻分类性能受损的情况。
技术实现思路
为了解决上述技术问题,本专利技术的目的是提供一种能提高分类效果准确性的基于LDA的大数据新闻分类方法、系统及 ...
【技术保护点】
一种基于LDA的大数据新闻分类方法,其特征在于,包括以下步骤:对获得的新闻文档进行预处理,得到语料库;对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵;根据主题分布概率矩阵和词分布概率矩阵,结合分类算法进行分类,得到新闻文档所属的类别。
【技术特征摘要】
1.一种基于LDA的大数据新闻分类方法,其特征在于,包括以下步骤:对获得的新闻文档进行预处理,得到语料库;对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵;根据主题分布概率矩阵和词分布概率矩阵,结合分类算法进行分类,得到新闻文档所属的类别。2.根据权利要求1所述的一种基于LDA的大数据新闻分类方法,其特征在于:所述的对获得的新闻文档进行预处理,得到语料库,这一步骤具体包括:对获得的新闻文档进行分词处理,并对未登录词进行识别,得到新闻文档中的词;将得到的词根据预设的停留词表进行去停留词处理,得到语料库。3.根据权利要求1所述的一种基于LDA的大数据新闻分类方法,其特征在于:所述的对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵,这一步骤具体包括:根据语料库,进行LDA建模得到LDA模型;对LDA模型中的参数进行优化计算;根据建立的LDA模型进行参数估计;根据优化后的参数,得到主题分布概率矩阵和词分布概率矩阵。4.根据权利要求3所述的一种基于LDA的大数据新闻分类方法,其特征在于:所述的根据语料库,进行LDA建模得到LDA模型,这一步骤具体表现为:其中,主题分布θ服从超参数为α的狄利克雷,词分布服从超参数为β的狄利克雷分布,词w服从参数为θ的主题分布,主题编号z服从参数为的多项式分布。5.根据权利要求3所述的一种基于LDA的大数据新闻分类方法,其特征在于:所述的对LDA模型中的参数进行优化计算,这一步骤的具体计算公式为:其中,表示优化后的参数α,表示优化后的参数β,αk表示优化前的参数α,βt表示优化前的参数β,为Digamma函数,表示求变量x的对数的导数,nik表示第i篇文章,主题为k的文档计数,nkt表示主题编号为k的词t的计数,且ni=∑knik,nk=∑tnkt。6.根据权利要求4所述的一种基于LDA的大数据新闻分类方法,其特征在于:所述...
【专利技术属性】
技术研发人员:贾义动,孔祥明,吴元琪,
申请(专利权)人:广东广业开元科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。