【技术实现步骤摘要】
一种基于数据挖掘与深度学习的新闻信息聚合方法
本专利技术涉及自然语言处理
,特别涉及一种新闻信息聚合及摘要生成、评论概括方法。
技术介绍
在互联网时代下,每日的信息数据量呈现爆炸增长,新闻是生活中人们获取信息的主要途径之一。不同于传统的纸质新闻,网络新闻传播广、受众大、更新快,且运营成本远低于传统模式,已经受到了社会的普遍认可。对于读者来说,阅读网上新闻的成本低、内容丰富,节约时间,并且读者可以选择自己感兴趣的内容进行阅读,而不会局限于传统报纸给我们提供的固定内容。此外,几乎所有的新闻网站都为读者提供了发言、讨论的平台,在这里,读者可以自由地表达自己的观点。同时,对于一些热门事件,读者的主要评论内容可以反映舆论的方向,也涌现出了一批分析网络舆论信息的公司。热门新闻、热门评论也是大多数读者最喜欢阅读的内容。与此同时,新闻平台众多,内容质量参差不齐,又会给读者带来一些问题,描述相同内容的新闻会分散在不同平台上,表现形式也各不相同,并且各个平台的操作不一致性也对读者阅读效果产生不好的影响。因此,如何从多个形式内容不一致的新闻平台中找到有用的信息,并生成其摘要,概括 ...
【技术保护点】
1.一种基于数据挖掘与深度学习的新闻信息聚合方法,其特征在于,包括以下步骤:S1、采用爬虫框架对指定网站平台的新闻与评论进行数据爬取;S2、将所有新闻进行分类,结合向量空间模型、cos相似值,对各个新闻的内容进行分类;S3、生成文章摘要,采用深度神经网络结构生成文本摘要;S4、对新闻对应的评论进行概括,通过对评论文本进行预处理,直接采用TF‑IDF算法抽取出关键的评论,作为文本的概括。
【技术特征摘要】
1.一种基于数据挖掘与深度学习的新闻信息聚合方法,其特征在于,包括以下步骤:S1、采用爬虫框架对指定网站平台的新闻与评论进行数据爬取;S2、将所有新闻进行分类,结合向量空间模型、cos相似值,对各个新闻的内容进行分类;S3、生成文章摘要,采用深度神经网络结构生成文本摘要;S4、对新闻对应的评论进行概括,通过对评论文本进行预处理,直接采用TF-IDF算法抽取出关键的评论,作为文本的概括。2.根据权利要求1所述的基于数据挖掘与深度学习的新闻信息聚合方法,其特征在于,用scrapy爬虫框架进行数据爬取。3.根据权利要求1所述的基于数据挖掘与深度学习的新闻信息聚合方法,其特征在于,步骤S2中,对新闻进行分类等同于:给定两个文本,判断这两个文本的内容是否相同;将一个文本看成一个空间向量文本中的每个单词在向量空间中表示一个维度,这个单词在文本中出现的次数表示向量在这个维度上的长度,这样一个文本就完全转换成空间中的一个向量;假设现在有n个文本,那么就有n个这样的向量,这n个向量所处的空间是由n个文本中所有不重复词语代表的维度构成的;为了判断两个文本相似,计算它们对应向量的夹角cosin值,值越接近1,表示两个文本越是相似,值越接近0,表示两个文本越不相似;假设两个向量和都是n维向量,计算两个向量的夹角余弦值方法如下:计算出来的相似度超过设置阈值就认为文本内容是相同的。4.根据权利要求3所述的基于数据挖掘与深度学习的新闻信息聚合方法,其特征在于,判断两个文本是否相似时,选定其中一个文本作为基准文本,从基准文本中依据单词的TF-IDF权重选出k个基准文本的关键词,并取这些关键词作为向量空间的维度建立向量空间Rk,分别在两个文本中统计各个关键词出现的次数,构成对应的k维向量计算两个向量夹角的cosin值,当值大于一个设定的阈值时,认为这两个向量对应的文本相似;使用TF-IDF模型进行计算时,假设一个词表示为a,a在文本i中出现的次数为na,i,文本i的单词总数为Ni,所有文本的数量为D,a在其中的da个文本中出现,那么这个词在文本i中的权重公式为:wa,i值越大,代表a在文本i中越重要;将文本进行分词,对所有不重复的单词计算其TF-IDF值,然后由大到小进行排序,取前X个词语当作关键字词。5.根据权利要求4所述的基于数据挖掘与深度学习的新闻信息聚合方法,其特征在于,考虑词语的同义...
【专利技术属性】
技术研发人员:翁健,黄芝琪,李文灏,陈杰彬,罗伟其,张悦,
申请(专利权)人:暨南大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。