System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 新闻文本处理方法、装置、设备及存储介质制造方法及图纸_技高网

新闻文本处理方法、装置、设备及存储介质制造方法及图纸

技术编号:41069924 阅读:2 留言:0更新日期:2024-04-24 11:25
本发明专利技术提供的一种新闻文本处理方法、装置、设备及存储介质,通过获取当前新闻文本中包含的第一事件要素,根据提取的第一事件要素确定当前新闻文本对应的目标事故类型;将当前新闻文本作为聚类中心,对数据库中所述目标事故类型下各个历史新闻文本进行聚类,以得到包含多个历史新闻文本的聚类结果;聚类结果中包括多个第一历史新闻文本;根据第一事件要素以及多个第一历史新闻文本分别对应的第二事件要素,从多个第一历史新闻文本中筛选目标历史新闻文本,将当前新闻文本与目标历史新闻文本标记为同一事件,通过确定事件要素以及对数据库中历史新闻文本的聚类结果来筛选目标历史新闻文本,从而实现对表示同一事件的新闻文本的准确追踪。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其涉及一种新闻文本处理方法、装置、设备及存储介质


技术介绍

1、事件是指在特定时间和地点发生的特殊事情,由时间、地点以及事件的独特特征等多个要素组成,如事故原因、事故地点、事故结果等。这些要素不仅帮助读者快速理解事件的核心,还为大量事件数据的自动化分析和处理提供关键信息。

2、随着互联网的广泛使用和信息透明度的增加,网络已经变成了事件报道和传播的主要渠道。互联网上的事件报道数量激增,大量的信息和重复内容为信息分析带来了挑战,若能够迅速、精确地从新闻文本中自动提取关键信息,可以无需依靠人工的方式进行分析,可以解决人工分析带来的耗时且昂贵的问题。由于新闻文本具有一致的词汇、句子结构和风格,因此,自动提取新闻文本的关键信息成为可能。

3、但是,目前对新闻文本的分析主要是从网页中提取事件内容或简单分类,由于新闻事件通常还存在后续报道,如何对同一新闻事件进行追踪则为需要解决的一个技术问题。


技术实现思路

1、本专利技术提供一种新闻文本处理方法、装置、设备及存储介质,用以实现对同一新闻事件的追踪。

2、第一方面,本专利技术提供一种新闻文本处理方法,包括:

3、获取当前新闻文本中包含的第一事件要素,根据提取的所述第一事件要素确定所述当前新闻文本对应的目标事故类型;所述当前新闻文本为事故类文本;

4、将所述当前新闻文本作为聚类中心,对数据库中所述目标事故类型下各个历史新闻文本进行聚类,以得到包含多个历史新闻文本的聚类结果;所述数据库存储有对应于不同事故类型的多个历史新闻文本;所述聚类结果中包括多个第一历史新闻文本;

5、根据所述第一事件要素以及所述多个第一历史新闻文本分别对应的第二事件要素,从所述多个第一历史新闻文本中筛选目标历史新闻文本,将所述当前新闻文本与所述目标历史新闻文本标记为同一事件。

6、可选的,所述第一事件要素包括时间信息;获取当前新闻文本中包含的第一事件要素,包括:

7、确定所述当前新闻文本是否为可追踪的新闻文本;

8、当为可追踪的新闻文本时,基于bert模型确定所述第一事件要素;

9、当所述第一事件要素中包括相对时间信息时,则获取所述当前新闻文本的发布日期,根据所述发布日期和所述相对时间信息确定所述时间信息。

10、可选的,对数据库中所述目标事故类型下各个历史新闻文本进行聚类,以得到包含多个历史新闻文本的聚类结果,包括:

11、计算所述当前新闻文本对应的第一句子向量,计算所述各个历史新闻文本分别对应的第二句子向量;

12、针对任一第二句子向量,根据所述第一句子向量和所述第二句子向量计算所述当前新闻文本与对应的所述历史新闻文本的相似度;

13、将所述相似度大于第一预设相似度的各个历史新闻文本确定为所述第一历史新闻文本。

14、可选的,所述第一事件要素还包括地点信息、人物信息、事故原因信息、损失情况信息和伤亡信息;根据所述第一事件要素以及所述多个第一历史新闻文本分别对应的第二事件要素,从所述多个第一历史新闻文本中筛选目标历史新闻文本,包括:

15、从各个第一历史新闻文本中筛选第二历史新闻文本;所述第二历史新闻文本为所述第一历史新闻文本对应的所述时间信息、地点信息、人物信息、事故原因信息分别与所述当前新闻文本对应的时间信息、地点信息、人物信息、事故原因信息相匹配,且所述第一历史新闻文本中所述损失情况信息和伤亡信息分别小于或等于所述当前新闻文本中所述损失情况信息和伤亡信息的新闻文本;

16、根据所述第二历史新闻文本确定所述目标历史新闻文本。

17、可选的,根据所述第二历史新闻文本确定所述目标历史新闻文本,包括:

18、当所述第二历史新闻文本的数量小于预设值时,将每一所述第二历史新闻文本输出,获取审核人员输入的审核信息,根据所述审核信息确定所述目标历史新闻文本;

19、当所述第二历史新闻文本的数量大于预设值时,从所述第二历史新闻文本中筛选第三历史新闻文本;将每一所述第三历史新闻文本输出,获取审核人员输入的审核信息,根据所述审核信息确定所述目标历史新闻文本;所述第三历史新闻文本对应的相似度大于第二预设相似度;所述第二预设相似度大于所述第一预设相似度。

20、可选的,所述方法还包括:

21、分别确定标记为同一事件的各个新闻文本的摘要信息;

22、根据各个新闻文本对应的时间信息,以时间线的形式向用户显示所述摘要信息。

23、可选的,所述方法还包括:

24、将所述当前新闻文本与所述目标历史新闻文本发送到目标系统,以使所述目标系统输出相应的响应信息;所述目标系统为新闻推荐系统、紧急响应系统和政府服务系统。

25、第二方面,本专利技术提供一种新闻文本处理装置,包括:

26、获取模块,用于获取当前新闻文本中包含的第一事件要素,根据提取的所述第一事件要素确定所述当前新闻文本对应的目标事故类型;所述当前新闻文本为事故类文本;

27、聚类模块,用于将所述当前新闻文本作为聚类中心,对数据库中所述目标事故类型下各个历史新闻文本进行聚类,以得到包含多个历史新闻文本的聚类结果;所述数据库存储有对应于不同事故类型的多个历史新闻文本;所述聚类结果中包括多个第一历史新闻文本;

28、处理模块,用于根据所述第一事件要素以及所述多个第一历史新闻文本分别对应的第二事件要素,从所述多个第一历史新闻文本中筛选目标历史新闻文本,将所述当前新闻文本与所述目标历史新闻文本标记为同一事件。

29、第三方面,本专利技术提供一种电子设备,包括:至少一个处理器和存储器;

30、所述存储器存储计算机执行指令;

31、所述至少一个处理器执行存储器存储的计算机执行指令,使得至少一个处理器执行如第一方面任一项的方法。

32、第四方面,本专利技术提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如第一方面任一项的方法。

33、本专利技术提供的一种新闻文本处理方法、装置、设备及存储介质,通过获取当前新闻文本中包含的第一事件要素,根据提取的所述第一事件要素确定所述当前新闻文本对应的目标事故类型;所述当前新闻文本为事故类文本;将所述当前新闻文本作为聚类中心,对数据库中所述目标事故类型下各个历史新闻文本进行聚类,以得到包含多个历史新闻文本的聚类结果;所述数据库存储有对应于不同事故类型的多个历史新闻文本;所述聚类结果中包括多个第一历史新闻文本;根据所述第一事件要素以及所述多个第一历史新闻文本分别对应的第二事件要素,从所述多个第一历史新闻文本中筛选目标历史新闻文本,将所述当前新闻文本与所述目标历史新闻文本标记为同一事件,通过确定事件要素以及对数据库中历史新闻文本的聚类结果来筛选目标历史新闻文本,从而实现对表示同一事件的新闻文本的准确追踪。本文档来自技高网...

【技术保护点】

1.一种新闻文本处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述第一事件要素包括时间信息;获取当前新闻文本中包含的第一事件要素,包括:

3.根据权利要求1所述的方法,其特征在于,对数据库中所述目标事故类型下各个历史新闻文本进行聚类,以得到包含多个历史新闻文本的聚类结果,包括:

4.根据权利要求2所述的方法,其特征在于,所述第一事件要素还包括地点信息、人物信息、事故原因信息、损失情况信息和伤亡信息;根据所述第一事件要素以及所述多个第一历史新闻文本分别对应的第二事件要素,从所述多个第一历史新闻文本中筛选目标历史新闻文本,包括:

5.根据权利要求4所述的方法,其特征在于,根据所述第二历史新闻文本确定所述目标历史新闻文本,包括:

6.根据权利要求2-5任一项所述的方法,其特征在于,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:

8.一种新闻文本处理装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:至少一个处理器和存储器;p>

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至7任一项所述的方法。

...

【技术特征摘要】

1.一种新闻文本处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述第一事件要素包括时间信息;获取当前新闻文本中包含的第一事件要素,包括:

3.根据权利要求1所述的方法,其特征在于,对数据库中所述目标事故类型下各个历史新闻文本进行聚类,以得到包含多个历史新闻文本的聚类结果,包括:

4.根据权利要求2所述的方法,其特征在于,所述第一事件要素还包括地点信息、人物信息、事故原因信息、损失情况信息和伤亡信息;根据所述第一事件要素以及所述多个第一历史新闻文本分别对应的第二事件要素,从所述多个第一历史新闻文本中筛选目标历史新闻文...

【专利技术属性】
技术研发人员:刘继超韩信王玮金岩甘琳冯谨强胡国锋陈康宋峰詹慧媚
申请(专利权)人:海纳云物联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1