一种基于词向量的新闻传播路径生成方法以及相关装置制造方法及图纸

技术编号:36745805 阅读:8 留言:0更新日期:2023-03-04 10:27
本申请公开了一种基于词向量的新闻传播路径生成方法以及相关装置,能够提高搜索相似新闻标题的效率,从而提高新闻传播路径的生成效率。本申请方法包括:获取多个新闻标题;通过Bert模型将任一新闻标题向量化映射为新闻标题向量;采用K

【技术实现步骤摘要】
一种基于词向量的新闻传播路径生成方法以及相关装置


[0001]本申请涉及新闻传播途经
,特别涉及一种基于词向量的新闻传播路径生成方法以及相关装置。

技术介绍

[0002]网络新闻借助互联网平台传播,是传统新闻业务的一种延伸。网络新闻被传播的同时也可以被反复引用,同时还可以在最后配以相关背景介绍,从而增加了新闻的深度和广度。这里提到的新闻传播路径指的是从一篇原创新闻在发布开始,以时间先后顺序跟踪这篇新闻在其他省、市、县级新闻宣传媒体的转载路径即为新闻传播路径。构造新闻传播路径的难点在于,一是每日有海量的新闻媒体,数据处理量极大;二是新闻媒体转载时可能对标题或正文进行内容调整,判断新闻是否为同一篇来源有技术门槛;三是前端应用需要准实时反馈,性能要求高。
[0003]现有技术中,构造新闻传播路径一般直接进行新闻标题匹配或词向量匹配,搜索与当前新闻标题完全一致但发布时间较晚的新闻,按时间顺序排序得到新闻传播路径。
[0004]但在对标题或内容进行词向量匹配时,可能由于新闻标题或内容较多,导致搜索相似新闻标题的效率低下,从而影响新闻传播路径的生成效率。

技术实现思路

[0005]为了解决上述技术问题,本申请提供了一种基于词向量的新闻传播路径生成方法以及相关装置,能够提高搜索相似新闻标题的效率,从而提高新闻传播路径的生成效率,具体参考下述例子。
[0006]本申请第一方面提供了一种基于词向量的新闻传播路径生成方法,包括:
[0007]获取多个新闻标题;
[0008]通过Bert模型将任一所述新闻标题向量化映射为新闻标题向量;
[0009]采用K

means聚类算法将所述新闻标题向量进行聚类处理,以得到预设数量K的分类标签,任一所述新闻标题向量对应有一个所述分类标签,任一所述分类标签包含有多个新闻标题向量;
[0010]采用向量相似度函数对任一所述分类标签内的多个新闻标题向量两两进行相似度计算,并确定任一所述分类标签内的相似新闻标题向量,所述相似新闻标题向量为所述新闻标题向量中大于或者等于预设相似度阈值的新闻标题向量;
[0011]根据任一所述分类标签内的相似新闻标题向量以及生成时间的升序排列生成传播路径,任一所述相似新闻标题向量对应的新闻标题预先存储有不同的生成时间。
[0012]可选地,在所述获取多个新闻标题之后,所述的基于词向量的新闻传播路径生成方法还包括:
[0013]获取新增新闻标题;
[0014]所述通过Bert模型将任一所述新闻标题向量化映射为新闻标题向量包括:
[0015]通过Bert模型将任一所述新增新闻标题向量化映射为新闻标题向量。
[0016]可选地,所述新闻标题向量为固定长度768维的向量。
[0017]可选地,在所述获取多个新闻标题之后,所述的基于词向量的新闻传播路径生成方法还包括:
[0018]对所述新闻标题进行过滤处理。
[0019]可选地,所述预设相似度阈值为0.96。
[0020]可选地,所述分类标签的预设数量K为32。
[0021]本申请第二方面提供了一种基于词向量的新闻传播路径生成装置,包括:
[0022]第一获取单元,用于获取多个新闻标题;
[0023]向量化单元,用于通过Bert模型将任一所述新闻标题向量化映射为新闻标题向量;
[0024]聚类单元,用于采用K

means聚类算法将所述新闻标题向量进行聚类处理,以得到预设数量K的分类标签,任一所述新闻标题向量对应有一个所述分类标签,任一所述分类标签包含有多个新闻标题向量;
[0025]确定单元,用于采用向量相似度函数对任一所述分类标签内的多个新闻标题向量两两进行相似度计算,以并确定任一所述分类标签内的相似新闻标题向量,所述相似新闻标题向量为所述新闻标题向量中大于或者等于预设相似度阈值的新闻标题向量;
[0026]生成单元,用于根据任一所述分类标签内的相似新闻标题向量以及生成时间的升序排列生成传播路径,任一所述相似新闻标题向量对应的新闻标题预先存储有不同的生成时间。
[0027]可选地,所述的基于词向量的新闻传播路径生成装置还包括:
[0028]第二获取单元,用于获取新增新闻标题;
[0029]所述向量化单元,具体用于通过Bert模型将任一所述新增新闻标题向量化映射为新闻标题向量。
[0030]可选地,所述的基于词向量的新闻传播路径生成装置还包括:
[0031]过滤单元,用于对所述新闻标题进行过滤处理。
[0032]本申请第三方面提供了一种基于词向量的新闻传播路径生成装置,包括:
[0033]中央处理器,存储器,输入输出接口,有线或无线网络接口以及电源;
[0034]所述存储器为短暂存储存储器或持久存储存储器;
[0035]所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行第一方面以及第一方面的可选方式中的任意一种所述的方式。
[0036]本申请第四方面提供了一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机以执行第一方面以及第一方面的可选方式中的任意一种所述的方式。
[0037]从以上技术方案可以看出,本申请具有以下优点:
[0038]获取多个新闻标题,通过Bert模型将任一新闻标题向量化映射为新闻标题向量,采用K

means聚类算法将新闻标题向量进行聚类处理,采用向量相似度函数对任一分类标签内的多个新闻标题向量两两进行相似度计算,并确定任一分类标签内的相似新闻标题向量,根据任一分类标签内的相似新闻标题向量以及生成时间的升序排列生成传播路径,通
过上述方式可以搜索相似新闻标题的效率,从而提高新闻传播路径的生成效率。
附图说明
[0039]为了更清楚地说明本申请中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]图1为本申请中的一种基于词向量的新闻传播路径生成方法的一个实施例的流程示意图;
[0041]图2为本申请中的一种基于词向量的新闻传播路径生成方法的另一实施例的流程示意图;
[0042]图3为本申请中的一种基于词向量的新闻传播路径生成装置的一个结构示意图;
[0043]图4为本申请中的一种基于词向量的新闻传播路径生成装置的另一结构示意图;
[0044]图5为本申请中的一种基于词向量的新闻传播路径生成装置的一个结构示意图。
具体实施方式
[0045]本申请提供了一种基于词向量的新闻传播路径生成方法以及相关装置,能够提高搜索相似新闻标题的效率,从而提高新闻传播路径的生成效率。
[0046]本申请中的基于词向量的新闻传播路本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于词向量的新闻传播路径生成方法,其特征在于,包括:获取多个新闻标题;通过Bert模型将任一所述新闻标题向量化映射为新闻标题向量;采用K

means聚类算法将所述新闻标题向量进行聚类处理,以得到预设数量K的分类标签,任一所述新闻标题向量对应有一个所述分类标签,任一所述分类标签包含有多个新闻标题向量;采用向量相似度函数对任一所述分类标签内的多个新闻标题向量两两进行相似度计算,并确定任一所述分类标签内的相似新闻标题向量,所述相似新闻标题向量为所述新闻标题向量中大于或者等于预设相似度阈值的新闻标题向量;根据任一所述分类标签内的相似新闻标题向量以及生成时间的升序排列生成传播路径,任一所述相似新闻标题向量对应的新闻标题预先存储有不同的生成时间。2.根据权利要求1中所述的基于词向量的新闻传播路径生成方法,其特征在于,在所述获取多个新闻标题之后,所述的基于词向量的新闻传播路径生成方法还包括:获取新增新闻标题;所述通过Bert模型将任一所述新闻标题向量化映射为新闻标题向量包括:通过Bert模型将任一所述新增新闻标题向量化映射为新闻标题向量。3.根据权利要求1中所述的基于词向量的新闻传播路径生成方法,其特征在于,所述新闻标题向量为固定长度768维的向量。4.根据权利要求1中所述的基于词向量的新闻传播路径生成方法,其特征在于,在所述获取多个新闻标题之后,所述的基于词向量的新闻传播路径生成方法还包括:对所述新闻标题进行过滤处理。5.根据权利要求1至5中任一项所述的基于词向量的新闻传播路径生成方法,...

【专利技术属性】
技术研发人员:丁洪鑫胥月粟郡曹扬
申请(专利权)人:中电科大数据研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1