一种新闻资讯话题检测及实时聚合方法技术

技术编号:27879254 阅读:17 留言:0更新日期:2021-03-31 01:09
本发明专利技术属于自然语言处理技术领域,具体涉及一种新闻资讯话题检测及实时聚合方法。该方法通过数据采集、数据处理、文本融合模型构建、实时聚合从容完成新闻资讯的实时推送。在利用一种多特征融合的方法来进行文本特征模型的构建的基础上,采用一种分布式实时流数据计算的方法,将话题聚类任务分发至不同的计算节点上,提升了新闻资讯实时聚合的准确率和实时性,解决了单节点下的性能问题,最后可以将新闻资讯聚合结果通过一种终端装置推送给最终用户,方便实用。

【技术实现步骤摘要】
一种新闻资讯话题检测及实时聚合方法
本专利技术属于自然语言处理领域
,具体涉及一种面向多数据新闻资讯话题检测及实时聚合方法。
技术介绍
信息技术的不断革新和飞速发展,给新闻传播也带来了深刻的影响,基于互联网的媒体平台也在不断增加,随之而来的是新闻的传播速度和数量也在与日俱增,网络新闻资讯信息也愈发变得杂乱,不同媒体平台转发、复制相同新闻信息,同质化问题比较严重。因此,如何利用计算机技术在浩渺的信息海洋中自动挖掘和分析当下值得关注的热门话题,并将聚合后的热点新闻实时全面的展示给用户,是当前网络新闻的研究热点和重点。另外,随着网络新闻的数据规模急速增加,原有的串行化的话题发现与追踪方法在处理海量新闻数据集时,由于内存容量等条件的限制,往往不能有效地执行,难以满足时效性等方面的需求。
技术实现思路
针对目前新闻数据急剧增加、原有的串行化的话题发现与追踪方法在处理海量新闻数据集时,由于内存容量等条件的限制,往往不能有效地执行,难以满足时效性等方面的需求的缺陷和问题,本专利技术在利用一种多特征融合的方法来进行文本特征模型的构建的基础上,提供一种面向多数据新闻资讯的话题检测和聚合的方法,将话题聚类任务分发至不同的计算节点上,提升了新闻资讯实时聚合的准确率和实时性,解决了单节点下的性能问题。本专利技术解决其技术问题所采用的方案是:一种新闻资讯话题检测及实时聚合方法,包括以下步骤:步骤一、分布式数据采集:通过分布式的采集程序实时采集来自互联网新闻媒体网站的新闻资讯信息作为原始数据;步骤二、数据预处理:将原始数据进行文本去噪、中文分词、过滤停用词、词性标注、关键词提取和命名实体识别后得到待处理的数据文档集D;步骤三、文本特征模型构建:利用多特征融合方法构建文本特征模型,模型构建方法为:(1)利用融入命名实体识别技术和LDA模型获取文本的主题特征,接收文档集D作为输入,计算文本p和q的相似度sim(p,q)lda,式中:p,q为量文本的概率向量,DKL为采用相对熵计算的向量距离;(2)利用Word2Vect模型获取文本的语义特征,并利用余弦相似度计算文本p与文本q的语义相似度sim(p,q)v2q,(3)采用加权因子融合主题特征和语义特征得到文本融合模型,sim(p,q)=α*sim(p,q)lda+β*sim(p,q)v2q式中:α,β为加权因子,α+β=1;(4)对文本融合模型添加时间衰减因子对模型进行更新,更新后文本相似度的计算为,式中:k为衰减因子,t2和t1是两篇文章的更新时间;步骤四、分布式实时聚类:采用分布式实时聚类算法对新闻资讯进行实时聚类,包括以下步骤:(1)将采集后经过预处理后的文本向量化后,按照输入顺序将向量数据转交给分布式实时聚合算法的任务调度节点,任务调度节点对任务进行统一编号后下发到任务执行节点中;(2)任务执行节点遍历文本的特征向量,根据更新后的文本融合模型计算每个向量与计算节点其他向量的相似度得到相似度候选集;(3)从相似度候选集中选择最大的相似度并记录最大相似度对应的特征向量,组成特征向量相似度集合;(4)从特征向量相似度集合中过滤掉相似度小于指定阈值的组合得到过滤集合,并将结果输出到消息中间件;(5)从消息中间件中取出过滤集合,将具有相同文本的集合合并输出,直至所有的簇不再更新,得到实时聚类的新闻资讯。步骤五、实时推送:将实时聚类的新闻资讯通过可视化工具实时推送给用户。上述的新闻资讯话题检测及实时聚合方法,所述互新闻媒体数据为来自各媒体平台的各种新闻资讯信息。上述的新闻资讯话题检测及实时聚合方法,步骤一中数据采集采用分布式架构设计,生成通过任务生成模块执行生成采集任务,通过任务执行模块执行采集任务。上述的新闻资讯话题检测及实时聚合方法,还可以在任务生成模块和任务执行模块之间设置消息中间件,并使两模块分别与消息中间件通信连接完成数据的传输。上述的新闻资讯话题检测及实时聚合方法,所述分布式的采集程序包括任务调度中心和任务采集节点,其中任务调度中心从任务列表中采集任务,并将采集任务通过消息中间件下发给具体的任务采集节点生成形影的待执行的采集任务;所述任务采集节点用于执行采集任务,下载采集页面新闻数据。本专利技术的有益效果:本专利技术利用多特征融合方法构建文本特征模型,利用融入命名实体识别技术和LDA模型获取文本的主题特征,充分考虑了命名实体因素、时间因素来构建文本相似度计算的框架。本专利技术采用分布式实时聚类的算法,将话题聚类任务分发至不同的计算节点上,提升了新闻资讯实时聚合的准确率和实时性,解决了单节点下的性能问题。本专利技术的面向多数据新闻资讯的话题检测及实时聚合方法,通过数据采集、数据处理、文本融合模型构建、实时聚合从容完成新闻资讯的实时推送,在进行数据采集时,通过任务生成模块执行生成采集任务,通过任务执行模块执行采集任务,两个模块都可以根据任务量的大小调度程序动态进行扩容或缩减资源而不影响系统的正常运行,保证采集效率。附图说明图1为本专利技术整体流程示意图。图2为本专利技术的一种数据采集处理示意图。具体实施方式本专利技术在利用一种多特征融合的方法来进行文本特征模型的构建的基础上,提供一种面向多数据新闻资讯的话题检测和聚合的方法,将话题聚类任务分发至不同的计算节点上,提升了新闻资讯实时聚合的准确率和实时性,解决了单节点下的性能问题。下面结合附图和实施例对本专利技术进一步说明。如图1所示,本专利技术的新闻资讯话题检测及实时聚合方法包括以下步骤。步骤一、分布式数据采集:通过分布式的采集程序实时采集来自互联网新闻媒体网站的新闻资讯信息作为原始数据。包括以下步骤:(1)生成采集任务,根据数据源的数据量生成相应的采集任务,将采集的任务传输至消息中间件;(2)接收采集任务,执行采集任务,根据采集任务和接收消息中间的采集任务,采集数据获得第一数据。其中互新闻媒体数据为来自各媒体平台的各种新闻资讯信息(包括但不限于各地市传统新闻媒体的网站、互联网新闻站点)。在具体实施过程中可以采用scrapy作为采集程序的框架,任务获取模块根据初始化的数据源及任务提取规则提取任务,并将解析到的任务写入kafka采集任务;获取模块从kafka中读取任务并进行数据采集和完成预处理和入库工作。在实施过程中可根据kafka中任务量情况,由调度程序动态启动和暂停部分任务获取或者执行节点。或者采用分布式的架构设计,通过任务生成模块执行生成采集任务,通过任务执行模块执行采集任务;同时还可以在任务生成模块和任务执行模块之间设置消息中间件,并使两模块分别与消息中间件通信连接完成数据的传输;其中任务生成模块和任务执行模块都可以根据任务量的大小调度程序动态进行扩容或缩减资源而不影响系统的正常运行,保证采集效率。步骤二、数据预处理:将原始数据进行文本去噪、本文档来自技高网...

【技术保护点】
1.一种新闻资讯话题检测及实时聚合方法,其特征在于:包括以下步骤:/n步骤一、分布式数据采集:通过分布式的采集程序实时采集来自互联网新闻媒体网站的新闻资讯信息作为原始数据;/n步骤二、数据预处理:将原始数据进行文本去噪、中文分词、过滤停用词、词性标注、关键词提取和命名实体识别后得到待处理的数据文档集D;/n步骤三、文本特征模型构建:利用多特征融合方法构建文本特征模型,模型构建方法为:/n(1)利用融入命名实体识别技术和LDA模型获取文本的主题特征,接收文档集D作为输入,计算文本p和q的文本相似度sim(p,q)

【技术特征摘要】
1.一种新闻资讯话题检测及实时聚合方法,其特征在于:包括以下步骤:
步骤一、分布式数据采集:通过分布式的采集程序实时采集来自互联网新闻媒体网站的新闻资讯信息作为原始数据;
步骤二、数据预处理:将原始数据进行文本去噪、中文分词、过滤停用词、词性标注、关键词提取和命名实体识别后得到待处理的数据文档集D;
步骤三、文本特征模型构建:利用多特征融合方法构建文本特征模型,模型构建方法为:
(1)利用融入命名实体识别技术和LDA模型获取文本的主题特征,接收文档集D作为输入,计算文本p和q的文本相似度sim(p,q)lda,



式中:p,q为文本的概率向量,DKL为采用相对熵计算的向量距离;
(2)利用Word2Vect模型获取文本的语义特征,并利用余弦相似度计算文本p与文本q的语义相似度sim(p,q)v2q,



(3)采用加权因子融合主题特征和语义特征得到文本融合模型,
sim(p,q)=α*sim(p,q)lda+β*sim(p,q)v2q
式中:α,β为加权因子,α+β=1;
(4)对文本融合模型添加时间衰减因子对模型进行更新,更新后文本相似度的计算为,



式中:k为衰减因子,t2和t1是两篇文章的更新时间;
步骤四、分布式实时聚类:采用分布式实时聚类算法对新闻资讯进行实时聚类,包括以下步骤:
(1)将采集后经过预处理后的文本向量化后,按照输入顺序将向量数据转交给分布式实时聚合算法的任务调度节点,任务调度节点对任务进行统一编号后下...

【专利技术属性】
技术研发人员:吴琼刘武雷王元卓郭建永
申请(专利权)人:中科院计算技术研究所大数据研究院
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1