新闻稿件首发认定方法、装置和设备制造方法及图纸

技术编号:33857874 阅读:16 留言:0更新日期:2022-06-18 10:46
本公开提出了一种新闻稿件首发认定方法、装置和设备,该方法包括:获取待分析新闻稿件,提取出待分析新闻稿件的标题;根据标题,由新闻稿件集中进行相似稿件的筛选;在由新闻稿件集中筛选出相似稿件时,分别提取待分析新闻稿件中的实体词以及相似稿件中的实体词;对待分析新闻稿件中的实体词与相似稿件中的实体词进行匹配,并根据匹配结果确认相似稿件与待分析新闻稿件是否为同一事件的稿件;在相似稿件与待分析新闻稿件为同一事件的稿件时,由与待分析新闻稿件为同一事件的稿件中确定出首发稿件,这样,便可以提高新闻稿件首发认定结果的准确性。的准确性。的准确性。

【技术实现步骤摘要】
新闻稿件首发认定方法、装置和设备


[0001]本公开涉及计算机
,尤其涉及一种新闻稿件首发认定方法、装置和设备。

技术介绍

[0002]新闻媒体机构中,新闻报道的时效性非常重要,对于首发新闻通常会产生较大的影响力,因此,在新闻稿件发布后会进行首发稿件的认定,以预测新闻稿件的影响程度。
[0003]目前,首发新闻认定的方法包括:常规搜索加人工整理的方法以及聚类方法。在通过常规搜索加人工整理的方法进行首发新闻认定时,先按照新闻稿件的关键词在指定范围内通过搜索引擎进行搜索,然后通过人工对搜索结果进行判定筛选,对被认定为同一事件的新闻稿件的发稿时间进行比对和整理,从而得出待分析时间的首发新闻和具体时效。在采用聚类方法进行首发新闻认定时,先对待分析的稿件进行聚类,再按照聚类的结果将同一新闻事件聚在一个类中,从而在每个类中进行首发新闻的认定和时效分析。但是,采用上述方法得到的首发认定结果准确性较差。

技术实现思路

[0004]有鉴于此,本公开提出了一种新闻稿件首发认定方法、装置和设备可以提到新闻稿件首发认定的准确性。
[0005]根据本公开的第一方面,提供了一种新闻稿件首发认定方法,用于对新闻稿件中事件的首发稿件进行认定,所述方法包括:
[0006]获取待分析新闻稿件,提取出所述待分析新闻稿件的标题;
[0007]根据所述标题,由新闻稿件集中进行相似稿件的筛选;
[0008]在由所述新闻稿件集中筛选出所述相似稿件时,分别提取所述待分析新闻稿件中的实体词以及所述相似稿件中的实体词;
[0009]对所述待分析新闻稿件中的实体词与所述相似稿件中的实体词进行匹配,并根据匹配结果确认所述相似稿件与所述待分析新闻稿件是否为同一事件的稿件;
[0010]在所述相似稿件与所述待分析新闻稿件为同一事件的稿件时,由与所述待分析新闻稿件为同一事件的稿件中确定出首发稿件。
[0011]在一种可能的实现方式中,在由所述新闻稿件集中未筛选出所述相似稿件时,直接认定所述待分析新闻稿件为首发稿件。
[0012]在一种可能的实现方式中,在由所述新闻稿件集中筛选出所述相似稿件时,还包括:
[0013]计算并判断所述待分析新闻稿件与所述相似稿件的相似度;
[0014]在判断出所述待分析新闻稿件与所述相似稿件的相似度超过预设阈值时,再执行分别提取所述待分析新闻稿件中的实体词以及所述相似稿件中的实体词的操作。
[0015]在一种可能的实现方式中,在判断出所述待分析新闻稿件与所述相似稿件的相似度未超过所述预设阈值时,认定所述待分析新闻稿件为首发稿件。
[0016]在一种可能的实现方式中,在计算所述待分析新闻稿件与所述相似稿件的相似度时,基于词向量模型进行。
[0017]在一种可能的实现方式中,在提取所述待分析新闻稿件中的实体词以及所述相似稿件中的实体词时,基于序列标注模型实现。
[0018]在一种可能的实现方式中,在对所述待分析新闻稿件中的实体词与所述相似稿件中的实体词进行匹配,并根据匹配结果确认所述相似稿件与所述待分析新闻稿件是否为同一事件的稿件时,包括:
[0019]在所述待分析新闻稿件的实体词和所述相似稿件的实体词中提取出同类型的实体词,并进行一致性匹配;
[0020]在存在同类型实体词且同类型实体词中存在一致的实体词时,则确认所述相似稿件与所述待分析新闻稿件为同一事件的稿件。
[0021]在一种可能的实现方式中,在各所述相似稿件均与所述待分析新闻稿件不属于同一事件的稿件时,认定所述待分析新闻稿件为首发稿件。
[0022]根据本公开的第二方面,提供了一种新闻稿件首发认定装置,用于对新闻稿件中事件的首发稿件进行认定,所述装置包括:
[0023]待分析新闻稿件获取模块,用于获取待分析新闻稿件,提取出所述待分析新闻稿件的标题;
[0024]相似稿件筛选模块,用于根据所述标题,由新闻稿件集中进行相似稿件的筛选;
[0025]实体词提取模块,用于在由所述新闻稿件集中筛选出所述相似稿件时,分别提取所述待分析新闻稿件中的实体词以及所述相似稿件中的实体词;
[0026]同一事件稿件认定模块,用于对所述待分析新闻稿件中的实体词与所述相似稿件中的实体词进行匹配,并根据匹配结果确认所述相似稿件与所述待分析新闻稿件是否为同一事件的稿件;
[0027]首发稿件认定模块,用于在所述相似稿件与所述待分析新闻稿件为同一事件的稿件时,由与所述待分析新闻稿件为同一事件的稿件中确定出首发稿件。
[0028]根据本公开的第三方面,提供了一种新闻稿件首发认定设备,用于对新闻稿件中事件的首发稿件进行认定,所述设备包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行本公开第一方面所述的方法。
[0029]本公开中,获取待分析新闻稿件,提取出所述待分析新闻稿件的标题;根据所述标题,由新闻稿件集中进行相似稿件的筛选;在由所述新闻稿件集中筛选出所述相似稿件时,分别提取所述待分析新闻稿件中的实体词以及所述相似稿件中的实体词;对所述待分析新闻稿件中的实体词与所述相似稿件中的实体词进行匹配,并根据匹配结果确认所述相似稿件与所述待分析新闻稿件是否为同一事件的稿件;在所述相似稿件与所述待分析新闻稿件为同一事件的稿件时,由与所述待分析新闻稿件为同一事件的稿件中确定出首发稿件,这样,可以提高新闻稿件首发认定结果的准确性。
[0030]根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
[0031]包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
[0032]图1示出根据本公开一实施例的新闻稿件首发认定方法的示意性流程图;
[0033]图2示出根据本公开一实施例的新闻稿件首发认定装置的示意性框图;
[0034]图3示出根据本公开一实施例的新闻稿件首发认定设备的示意性框图。
具体实施方式
[0035]以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
[0036]在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
[0037]另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
[0038]<方法实施例>
[0039]图1示出根据本公开一实施例的新闻稿件首发认定方法的示意性流程图。如图1所示,该方法包括步骤S1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种新闻稿件首发认定方法,其特征在于,用于对新闻稿件中事件的首发稿件进行认定,所述方法包括:获取待分析新闻稿件,提取出所述待分析新闻稿件的标题;根据所述标题,由新闻稿件集中进行相似稿件的筛选;在由所述新闻稿件集中筛选出所述相似稿件时,分别提取所述待分析新闻稿件中的实体词以及所述相似稿件中的实体词;对所述待分析新闻稿件中的实体词与所述相似稿件中的实体词进行匹配,并根据匹配结果确认所述相似稿件与所述待分析新闻稿件是否为同一事件的稿件;在相似稿件与待分析新闻稿件为同一事件的稿件时,由与待分析新闻稿件为同一事件的稿件中确定出首发稿件。2.根据权利要求1所述的方法,其特征在于,在由所述新闻稿件集中未筛选出所述相似稿件时,直接认定所述待分析新闻稿件为首发稿件。3.根据权利要求1所述的方法,其特征在于,在由所述新闻稿件集中筛选出所述相似稿件时,还包括:计算并判断所述待分析新闻稿件与所述相似稿件的相似度;在判断出所述待分析新闻稿件与所述相似稿件的相似度超过预设阈值时,再执行分别提取所述待分析新闻稿件中的实体词以及所述相似稿件中的实体词的操作。4.根据权利要求3所述的方法,其特征在于,在判断出所述待分析新闻稿件与所述相似稿件的相似度未超过所述预设阈值时,认定所述待分析新闻稿件为首发稿件。5.根据权利要求3所述的方法,其特征在于,在计算所述待分析新闻稿件与所述相似稿件的相似度时,基于词向量模型进行。6.根据权利要求1

5中任一项所述的方法,其特征在于,在提取所述待分析新闻稿件中的实体词以及所述相似稿件中的实体词时,基于序列标注模型实现。7.根据权利要求1

5中任一项...

【专利技术属性】
技术研发人员:苏宇秦玉芳成鹏靳博王越吕微史峰霖
申请(专利权)人:中国经济信息社有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1