用于生成解说词的方法和装置制造方法及图纸

技术编号:26172224 阅读:40 留言:0更新日期:2020-10-31 13:48
本申请实施例公开了用于生成解说词的方法和装置。该方法的一具体实施方式包括:获取最近第一预设时长内所生成的新闻组成的至少一个新闻簇,新闻簇中的各个新闻针对同一个新闻事件;基于至少一个新闻簇确定目标新闻簇;对于目标新闻簇中的每个新闻,确定该新闻的适合生成解说词的得分;基于目标新闻,生成目标新闻簇的解说词,其中,目标新闻为目标新闻簇中适合生成解说词的得分最高的新闻。该实施方式减少了所需占用的CPU资源、存储资源和I/O资源。

【技术实现步骤摘要】
用于生成解说词的方法和装置
本申请实施例涉及计算机
,具体涉及用于生成解说词的方法和装置。
技术介绍
随着网络技术的发展,世界各地的各类新闻可以通过各种媒体发布给用户。对于同一个新闻事件,各种媒体(例如新闻类网站或者新闻类应用)会编辑出不同的新闻,不同媒体发出的新闻的侧重点会存在一定的差异,但是报道同一新闻事件的各个新闻中也会存在或多或少的重合信息。对于用户来说,可能需要阅读多篇新闻报道才能从中提取出自己想要的信息,这就会导致用户的获取新闻的效率较低。为了帮助用户提高新闻获取的效率,可以对同一新闻事件的多篇新闻进行聚合,去除多篇新闻中的冗余信息,提取针对新闻事件的解说词。
技术实现思路
本申请实施例提出了用于生成解说词的方法和装置。第一方面,本申请实施例提供了一种用于生成解说词的方法,该方法包括:获取最近第一预设时长内所生成的新闻组成的至少一个新闻簇,新闻簇中的各个新闻针对同一个新闻事件;基于至少一个新闻簇确定目标新闻簇;对于目标新闻簇中的每个新闻,确定该新闻的适合生成解说词的得分;基于目标新闻,生成目本文档来自技高网...

【技术保护点】
1.一种用于生成解说词的方法,包括:/n获取最近第一预设时长内所生成的新闻组成的至少一个新闻簇,新闻簇中的各个新闻针对同一个新闻事件;/n基于所述至少一个新闻簇确定目标新闻簇;/n对于所述目标新闻簇中的每个新闻,确定该新闻的适合生成解说词的得分;/n基于目标新闻,生成所述目标新闻簇的解说词,其中,所述目标新闻为所述目标新闻簇中适合生成解说词的得分最高的新闻。/n

【技术特征摘要】
1.一种用于生成解说词的方法,包括:
获取最近第一预设时长内所生成的新闻组成的至少一个新闻簇,新闻簇中的各个新闻针对同一个新闻事件;
基于所述至少一个新闻簇确定目标新闻簇;
对于所述目标新闻簇中的每个新闻,确定该新闻的适合生成解说词的得分;
基于目标新闻,生成所述目标新闻簇的解说词,其中,所述目标新闻为所述目标新闻簇中适合生成解说词的得分最高的新闻。


2.根据权利要求1所述的方法,其中,所述方法还包括:
生成与所述解说词对应的语音和/或视频。


3.根据权利要求2所述的方法,其中,所述方法还包括:
将与所述解说词对应的语音和/或视频发送给终端设备,以供所述终端设备呈现所收到的语音和/或视频。


4.根据权利要求3所述的方法,其中,所述基于所述至少一个新闻簇确定目标新闻簇,包括:
将所述至少一个新闻簇中的每个新闻簇确定为所述目标新闻簇。


5.根据权利要求3所述的方法,其中,所述基于所述至少一个新闻簇确定目标新闻簇,包括:
将所述至少一个新闻簇中的每个新闻簇按照该新闻簇内最近第二预设时长内所生成的新闻数目从多到少的顺序进行排序;
将所述至少一个新闻簇中排序在预设排序范围内的每个新闻簇确定为所述目标新闻簇。


6.根据权利要求3所述的方法,其中,所述基于所述至少一个新闻簇确定目标新闻簇,包括:
将所述至少一个新闻簇中的每个优质新闻簇确定为所述目标新闻簇,其中,优质新闻簇所包括的新闻中所包括的图像数目大于预设最少图像数目以及所包括的视频数目大于预设最少视频数目。


7.根据权利要求3所述的方法,其中,所述基于所述至少一个新闻簇确定目标新闻簇,包括:
对于所述至少一个新闻簇中的每个新闻簇,基于该新闻簇中的各个新闻确定该新闻簇对应的新闻事件主题以及所确定的新闻事件主题的当前出现频度;
确定所述至少一个新闻簇中每个新闻簇对应的新闻事件主题的当前出现频度减去该新闻事件主题的历史出现频度的频度差值;
将所述至少一个新闻簇中对应的新闻事件主题的频度差值大于预设频度差值阈值的新闻簇确定为所述目标新闻簇。


8.根据权利要求3所述的方法,其中,所述基于目标新闻,生成所述目标新闻簇的解说词,包括:
将所述目标新闻中所包括的文本确定为目标文本;
删除所述目标文本中所包括的不适合解说文本,其中,不适合解说文本为预先确定的不适合解说文本集合中的文本;
将所述目标文本中所包括的书面语替换为相同语义的口语;
将对所述目标文本进行提取摘要所得到的摘要文本确定为所述目标新闻簇的解说词。


9.根据权利要求8所述的方法,其中,所述将对所述目标文本进行提取摘要所得到的摘要文本确定为所述目标新闻簇的解说词,包括:
按照预设最快语速和预设最长音频时长确定解说词最多字数;
对所述目标文本进行摘要提取,且所提取的摘要文本的字数少于所述解说词最多字数;
将所提取的摘要文本确定为所述目标新闻簇的解说词。


10.根据权利要求3所述的方法,其中,所述对于所述目标新闻簇中的每个新闻,确定该新闻的适合生成解说词的得分,包括:
提取该新闻在至少一种特征下的特征值;
基于所提取的至少一种特征值,确定该新闻的适合生成解说词的得分。


11.根据权利要求3所述的方法,其中,所述对于所述目标新闻簇中的每个新闻,确定该新闻的适合生成解说词的得分,包括:
将该新闻所包括的文本输入预先训练的得分计算模型,得到该新闻的适合生成解说词的得分,其中,所述得分计算模型用于表征文本和文本适合生成解说词的得分之间的对应关系。


12.一种用于生成解说词的装置,包括:
获取单元,被配置成获取最近第一预设时长内所生成的新闻组成的至少一个新闻簇,新闻簇中的各个新闻针对同一个新闻事件;
目标新闻簇确定单元,被配置成基于所述至少一个新闻簇确...

【专利技术属性】
技术研发人员:田浩陈曦王健宇卢大明
申请(专利权)人:百度时代网络技术北京有限公司百度美国有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1