一种智能文本挖掘分析系统技术方案

技术编号:36788300 阅读:39 留言:0更新日期:2023-03-08 22:34
本发明专利技术公开了一种智能文本挖掘分析系统,包括自然语言处理模块、新闻稿件原创识别模块、传播分析模块和主题检测模块,自然语言处理模块,用于供词性标注、命名实体识别、文本分类、情感分析、实体识别、摘要提取及其他文本分析组件。本发明专利技术的有益之处在于:通过计算机手段进行信息提取、信息要素计算等,以便辅助人们进行信息分析,实现自动化文本分类,能根据已知文本类别,生成分类器,并确定未知类别的文本的具体类别,能够对新闻、微博、微信等文本内容的分类。内容的分类。

【技术实现步骤摘要】
一种智能文本挖掘分析系统


[0001]本专利技术涉及智能媒体应用
,具体是一种智能文本挖掘分析系统。

技术介绍

[0002]智能媒体时代,面对互联网每日爆发的大量信息,新闻工作者在日常工作中如何准确定位到有价值信息,进行快速高效挖掘分析文本及选题策划来深入报道,成为一个非常棘手的问题。因此,针对上述问题提出一种智能文本挖掘分析系统。

技术实现思路

[0003]本专利技术的目的就在于为了解决上述问题而提供一种智能文本挖掘分析系统。
[0004]本专利技术通过以下技术方案来实现上述目的,一种智能文本挖掘分析系统,包括自然语言处理模块、新闻稿件原创识别模块、传播分析模块和主题检测模块,自然语言处理模块,用于供词性标注、命名实体识别、文本分类、情感分析、实体识别、摘要提取及其他文本分析组件;
[0005]新闻稿件原创识别模块,基于标注语料的特征提取,将特征词进行向量化,利用余弦相似度识别文章是否原创;
[0006]传播分析模型,基于原创识别基础,对原创稿建进行传播分析,结合新闻领域的行业现状,分为新闻类传播本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种智能文本挖掘分析系统,其特征在于:包括自然语言处理模块、新闻稿件原创识别模块、传播分析模块和主题检测模块,自然语言处理模块,用于供词性标注、命名实体识别、文本分类、情感分析、实体识别、摘要提取及其他文本分析组件;新闻稿件原创识别模块,基于标注语料的特征提取,将特征词进行向量化,利用余弦相似度识别文章是否原创;传播分析模型,基于原创识别基础,对原创稿建进行传播分析,结合新闻领域的行业现状,分为新闻类传播分析模型和新浪微博传播分析模型;主题检测模块,用于在海量文本中挖掘存在的主题并输出主题的权重。2.根据权利要求1所述的一种智能文本挖掘分析系统,其特征在于:所述文本分类包含依存句法和文本聚类,且文本分类基于CNN模型实现,利用随机梯度下降(SGD)进行参数训练,将句子级别的篇章理解上升到从段落级别的理解,共16个分类。3.根据权利要求2所述的一种智能文本挖掘分析系统,其特征在于:所述依存句法基于CRF的句法依存分析模型,确定句子的句法结构或者句子中间词汇之间的依存关系。4.根据权利要求3所述的一种智能文本挖掘分析系统,其特征在于:所述CRF的句法依存分析模型分为训练集和测试集数据预处理、语料特征生成、模型训练集预测三大部分,最终通过模型预测得到正确的预测结果。5.根据权利要求2所述的一种智能文本挖掘分析系统,其特征在于:所述文本聚...

【专利技术属性】
技术研发人员:刘帆王凤美杜宏任鼎徐群浩
申请(专利权)人:太极计算机股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1