一种新闻处理方法、装置、设备及介质制造方法及图纸

技术编号:23764952 阅读:13 留言:0更新日期:2020-04-11 19:20
本申请公开了一种新闻处理方法、装置、设备及介质,应用于互联网技术领域,用以解决现有技术中存在的新闻的失效时间的精准度较低的问题。具体为:确定待处理的新闻和该新闻的内容类别,基于该新闻分别与各个事件的相关值,从各个事件中,筛选该新闻的各个关联事件,并基于该新闻分别与各个关联事件的相似度,从各个关联事件中,筛选该新闻的目标关联事件,基于该目标关联事件的时间节点以及该新闻的内容类别,确定该新闻的失效时间。这样,利用相关值和相似度,对各个事件进行两层筛选,使得获得的目标关联事件更接近新闻报道的事件内容,从而使得根据目标关联事件的时间节点确定出的失效时间更为精准,进而提高了新闻失效时间的精准度。

A news processing method, device, equipment and medium

【技术实现步骤摘要】
一种新闻处理方法、装置、设备及介质
本申请涉及互联网
,尤其涉及一种新闻处理方法、装置、设备及介质。
技术介绍
随着互联网技术的不断发展,新闻网站、新闻应用等用于浏览新闻的客户端应运而生,实际应用中,客户端可以向用户推荐近期的热点新闻,也可以向用户推荐用户感兴趣的新闻。目前,为了确保客户端不会将失效的新闻推荐给用户,通常会为新闻配置失效时间,并根据新闻的失效时间,对失效的新闻进行下架处理,从而满足用户对新闻时效性的要求。然而,现有技术中,为新闻配置的失效时间的精准度较低,可能会影响新闻下架的及时性。
技术实现思路
本申请实施例提供了一种新闻处理方法、装置、设备及介质,用以解决现有技术在为新闻配置失效时间时存在新闻的失效时间的精准度较低的问题。本申请实施例提供的技术方案如下:一方面,本申请实施例提供了一种新闻处理方法,包括:确定待处理的新闻和新闻的内容类别;针对待匹配的各个事件,基于新闻的新闻内容信息中的各个词语分别与事件的事件内容信息的相关值,获得新闻与事件的相关值;基于新闻分别与各个事件的相关值,从各个事件中,筛选新闻的各个关联事件;针对各个关联事件,基于新闻的新闻内容信息与关联事件的事件内容信息的词语共现统计结果,获得新闻与关联事件的相似度;基于新闻分别与各个关联事件的相似度,从各个关联事件中,筛选新闻的目标关联事件;基于目标关联事件的时间节点以及新闻的内容类别,确定新闻的失效时间。在一种可能的实施方式中,确定待处理的新闻和新闻的内容类别,包括:获取对应的新闻类别为目标新闻类别的各个新闻;针对各个新闻,获取新闻的特征向量,并基于新闻的特征向量,使用内容分类模型,获得新闻的内容类别;从各个新闻中,获取对应的内容类别为任一目标内容类别的新闻为待处理的新闻,并记录待处理的新闻的内容类别。在一种可能的实施方式中,获取新闻的特征向量,包括:对新闻的标题进行分词处理,得到新闻的各个标题分词,并基于各个标题分词的词向量,获得新闻的标题词向量;对新闻的正文进行分词处理,得到新闻的各个正文分词,并基于各个正文分词的词向量,获得新闻的正文词向量;从新闻的正文中,提取包含时间信息的各个短句作为新闻的时间正文,并对时间正文进行分词处理,得到新闻的各个时间分词,基于各个时间分词的词向量,获得新闻的时间词向量;基于新闻的标题词向量、正文词向量和时间词向量,获得新闻的特征向量。在一种可能的实施方式中,基于新闻的新闻内容信息中的各个词语分别与事件的事件内容信息的相关值,获得新闻与事件的相关值之前,还包括:确定新闻的新闻内容信息中的名词与事件的事件内容信息中的名词存在别名关系时,对存在别名关系的名词进行统一化处理。在一种可能的实施方式中,基于新闻的新闻内容信息中的各个词语分别与事件的事件内容信息的相关值,获得新闻与事件的相关值,包括:对新闻的新闻内容信息中的各个词语分别与事件的事件内容信息的相关值进行加权求和处理,得到新闻与事件的相关值。在一种可能的实施方式中,基于新闻的新闻内容信息与关联事件的事件内容信息的词语共现统计结果,获得新闻与关联事件的相似度,包括:获取新闻的新闻内容信息中的各个词语分别在关联事件的事件内容信息中出现的次数;对新闻的新闻内容信息中的各个词语分别在关联事件的事件内容信息中出现的次数进行加权求和处理,得到新闻与事件的相似度。在一种可能的实施方式中,基于目标关联事件的时间节点以及新闻的内容类别,确定新闻的失效时间,包括:基于新闻的内容类别,从目标关联事件的各个发展阶段中,确定新闻对应的发展阶段;从目标关联事件的各个时间节点中,确定与新闻对应的发展阶段关联的时间节点为新闻的失效时间。在一种可能的实施方式中,从目标关联事件的各个时间节点中,筛选与新闻对应的发展阶段关联的时间节点为新闻的失效时间,包括:若新闻对应的发展阶段为事件发生前,则从目标关联事件的各个时间节点中,确定目标关联事件的开始时间为新闻的失效时间;若新闻对应的发展阶段为事件发生中,则从目标关联事件的各个时间节点中,确定目标关联事件的结束时间为新闻的失效时间;若新闻对应的发展阶段为事件发生后,则从目标关联事件的各个时间节点中,确定目标关联事件的下一次开始时间为新闻的失效时间。另一方面,本申请实施例提供了一种新闻处理装置,包括:新闻确定单元,用于确定待处理的新闻和新闻的内容类别;相关值获取单元,用于针对待匹配的各个事件,基于新闻的新闻内容信息中的各个词语分别与事件的事件内容信息的相关值,获得新闻与事件的相关值;第一筛选单元,用于基于新闻分别与各个事件的相关值,从各个事件中,筛选新闻的各个关联事件;相似度获取单元,用于针对各个关联事件,基于新闻的新闻内容信息与关联事件的事件内容信息的词语共现统计结果,获得新闻与关联事件的相似度;第二筛选单元,用于基于新闻分别与各个关联事件的相似度,从各个关联事件中,筛选新闻的目标关联事件;失效确定单元,用于基于目标关联事件的时间节点以及新闻的内容类别,确定新闻的失效时间。在一种可能的实施方式中,在确定待处理的新闻和新闻的内容类别时,新闻确定单元具体用于:获取对应的新闻类别为目标新闻类别的各个新闻;针对各个新闻,获取新闻的特征向量,并基于新闻的特征向量,使用内容分类模型,获得新闻的内容类别;从各个新闻中,获取对应的内容类别为任一目标内容类别的新闻为待处理的新闻,并记录待处理的新闻的内容类别。在一种可能的实施方式中,在获取新闻的特征向量时,新闻确定单元具体用于:对新闻的标题进行分词处理,得到新闻的各个标题分词,并基于各个标题分词的词向量,获得新闻的标题词向量;对新闻的正文进行分词处理,得到新闻的各个正文分词,并基于各个正文分词的词向量,获得新闻的正文词向量;从新闻的正文中,提取包含时间信息的各个短句作为新闻的时间正文,并对时间正文进行分词处理,得到新闻的各个时间分词,基于各个时间分词的词向量,获得新闻的时间词向量;基于新闻的标题词向量、正文词向量和时间词向量,获得新闻的特征向量。在一种可能的实施方式中,本申请实施例提供的新闻处理装置还包括:统一化处理单元,用于在相关值获取单元基于新闻的新闻内容信息中的各个词语分别与事件的事件内容信息的相关值,获得新闻与事件的相关值之前,确定新闻的新闻内容信息中的名词与事件的事件内容信息中的名词存在别名关系时,对存在别名关系的名词进行统一化处理。在一种可能的实施方式中,在基于新闻的新闻内容信息中的各个词语分别与事件的事件内容信息的相关值,获得新闻与事件的相关值时,相关值获取单元具体用于:对新闻的新闻内容信息中的各个词语分别与事件的事件内容信息的相关值进行加权求和处理,得到新闻与事件的相关值。在一本文档来自技高网...

【技术保护点】
1.一种新闻处理方法,其特征在于,包括:/n确定待处理的新闻和所述新闻的内容类别;/n针对待匹配的各个事件,基于所述新闻的新闻内容信息中的各个词语分别与所述事件的事件内容信息的相关值,获得所述新闻与所述事件的相关值;/n基于所述新闻分别与所述各个事件的相关值,从所述各个事件中,筛选所述新闻的各个关联事件;/n针对所述各个关联事件,基于所述新闻的新闻内容信息与所述关联事件的事件内容信息的词语共现统计结果,获得所述新闻与所述关联事件的相似度;/n基于所述新闻分别与所述各个关联事件的相似度,从所述各个关联事件中,筛选所述新闻的目标关联事件;/n基于所述目标关联事件的时间节点以及所述新闻的内容类别,确定所述新闻的失效时间。/n

【技术特征摘要】
1.一种新闻处理方法,其特征在于,包括:
确定待处理的新闻和所述新闻的内容类别;
针对待匹配的各个事件,基于所述新闻的新闻内容信息中的各个词语分别与所述事件的事件内容信息的相关值,获得所述新闻与所述事件的相关值;
基于所述新闻分别与所述各个事件的相关值,从所述各个事件中,筛选所述新闻的各个关联事件;
针对所述各个关联事件,基于所述新闻的新闻内容信息与所述关联事件的事件内容信息的词语共现统计结果,获得所述新闻与所述关联事件的相似度;
基于所述新闻分别与所述各个关联事件的相似度,从所述各个关联事件中,筛选所述新闻的目标关联事件;
基于所述目标关联事件的时间节点以及所述新闻的内容类别,确定所述新闻的失效时间。


2.如权利要求1所述的新闻处理方法,其特征在于,确定待处理的新闻和所述新闻的内容类别,包括:
获取对应的新闻类别为目标新闻类别的各个新闻;
针对所述各个新闻,获取所述新闻的特征向量,并基于所述新闻的特征向量,使用内容分类模型,获得所述新闻的内容类别;
从所述各个新闻中,获取对应的内容类别为任一目标内容类别的新闻为所述待处理的新闻,并记录所述待处理的新闻的内容类别。


3.如权利要求2所述的新闻处理方法,其特征在于,获取所述新闻的特征向量,包括:
对所述新闻的标题进行分词处理,得到所述新闻的各个标题分词,并基于所述各个标题分词的词向量,获得所述新闻的标题词向量;
对所述新闻的正文进行分词处理,得到所述新闻的各个正文分词,并基于所述各个正文分词的词向量,获得所述新闻的正文词向量;
从所述新闻的正文中,提取包含时间信息的各个短句作为所述新闻的时间正文,并对所述时间正文进行分词处理,得到所述新闻的各个时间分词,基于所述各个时间分词的词向量,获得所述新闻的时间词向量;
基于所述新闻的标题词向量、正文词向量和时间词向量,获得所述新闻的特征向量。


4.如权利要求1、2或3所述的新闻处理方法,其特征在于,基于所述新闻的新闻内容信息中的各个词语分别与所述事件的事件内容信息的相关值,获得所述新闻与所述事件的相关值,包括:
对所述新闻的新闻内容信息中的各个词语分别与所述事件的事件内容信息的相关值进行加权求和处理,得到所述新闻与所述事件的相关值。


5.如权利要求1、2或3所述的新闻处理方法,其特征在于,基于所述新闻的新闻内容信息与所述关联事件的事件内容信息的词语共现统计结果,获得所述新闻与所述关联事件的相似度,包括:
获取所述新闻的新闻内容信息中的各个词语分别在所述关联事件的事件内容信息中出...

【专利技术属性】
技术研发人员:石磊严海涛马连洋衡阵
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1