标题生成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:23162012 阅读:34 留言:0更新日期:2020-01-21 22:02
本申请公开了标题生成方法、装置、电子设备和存储介质,涉及自然语言处理领域。具体实现方案为:标题生成方法包括:将待处理文本输入语言生成模型,得到待处理文本对应的多个候选标题及其的概率;计算多个候选标题的困惑度;根据多个候选标题的概率及困惑度,生成待处理文本的标题。能够生成困惑度更低、可靠性更高的标题,避免生成的标题语句不通顺或语义不准确。

【技术实现步骤摘要】
标题生成方法、装置、电子设备和存储介质
本申请涉及一种数据处理领域,尤其涉及一种自然语言处理领域。
技术介绍
随着网络平台的兴起,越来越多的人会撰写文章在网络上发表。当作者在网络平台发文时,往往存在写标题困难的问题。质量不佳的标题不但影响文章的分发及用户收益,还影响整个内容生态的质量。当前,实现自动生成标题的方法,存在语句欠通顺、语义欠准确的缺陷。
技术实现思路
本申请实施例提供一种标题生成方法、装置、电子设备和存储介质,以解决相关技术存在的问题,技术方案如下:第一方面,本申请实施例提供了一种标题生成方法,包括:将待处理文本输入语言生成模型,得到待处理文本对应的多个候选标题及其的概率;计算多个候选标题的困惑度;根据多个候选标题的概率及困惑度,生成待处理文本的标题。通过上述技术方案,在标题生成过程中,结合候选标题的概率及困惑度确定待处理文本的标题。相比仅依据概率生成待处理文本的标题,上述技术方案能够生成困惑度更低、可靠性更高的标题,避免生成的标题语句不通顺或语义不准确。在一种实施本文档来自技高网...

【技术保护点】
1.一种标题生成方法,其特征在于,包括:/n将待处理文本输入语言生成模型,得到所述待处理文本对应的多个候选标题及其的概率;/n计算所述多个候选标题的困惑度;/n根据所述多个候选标题的概率及困惑度,生成所述待处理文本的标题。/n

【技术特征摘要】
1.一种标题生成方法,其特征在于,包括:
将待处理文本输入语言生成模型,得到所述待处理文本对应的多个候选标题及其的概率;
计算所述多个候选标题的困惑度;
根据所述多个候选标题的概率及困惑度,生成所述待处理文本的标题。


2.根据权利要求1所述的标题生成方法,其特征在于,根据所述多个候选标题的概率及困惑度,生成所述待处理文本的标题,包括:
根据预设的概率权重和困惑度权重,对所述多个候选标题的概率和困惑度进行加权求和,得到多个候选标题的分值;
将分值最高的候选标题确定为所述待处理文本的标题。


3.根据权利要求1所述的标题生成方法,其特征在于,所述方法还包括:
将所述待处理文本的标题输入标题可用性判别模型;
使用所述标题可用性判别模型识别所述待处理文本的标题是否可用。


4.根据权利要求1所述的标题生成方法,其特征在于,在将待处理文本输入语言生成模型之前,还包括:
根据用于预训练的模型获得语言生成模型的初始化网络结构;
采用训练数据训练具有所述初始化网络结构的语言生成模型。


5.根据权利要求1所述的标题生成方法,其特征在于,所述方法还包括:
显示所述待处理文本的标题和提示用户输入标题的信息;
在接收到用户输入的标题的情况下,在预定的标题显示区域显示所述用户输入的标题。


6.根据权利要求1所述的标题生成方法,其特征在于,所述语言生成模型为序列到序列模型;将待处理文本输入语言生成模型,得到所述待处理文本对应的多个候选标题及其的概率,包括:
将待处理文本输入序列到序列模型的编码器,得到中间语义向量;
将所述中间语义向量输入序列到序列模型的解码器,得到初始时间步的多个词序列及其的概率;
根据当前时间步的词序列和所述解码器,确定当前时间步的词序列后是否衔接结束符;
在当前时间步的词序列没有衔接结束符的情况下,将当前时间步的多个词序列进行分组;
采用集束搜索算法根据词库中词语的分值确定词序列的衔接词;其中,如果所述词语在其他组中出现过,则减少所述词语的分值;
根据所述衔接词,更新当前时间步的多个词序列及其概率;返回确定当前时间步的词序列后是否衔接结束符的步骤,直至各词序列后衔接结束符时,输出各词序列作为所述待处理文本对应的多个候选标题。


7.根据权利要求3所述的标题生成方法,其特征在于,所述标题可用性判别模型包括二分类模型;在将所述待处理文本的标题输入标题可用性判别模型之前,还包括:
识别所述待处理文本的标题的语法成分;
根据所述语法成分将所述待处理文本的标题划分为多个词语;
剔除所述待处理文本的标题中的部分词语,获得不完整标题;
以所述待处理文本的标题作为正例,以所述不完整标题作为负例,训练所述二分类模型。


8.一种标题生成装置,其特征在于,包括:
获取模块,将待处理文本输入语言生成模型,得到所述待处理文本对应的多个候选标题及其的概率;
计算...

【专利技术属性】
技术研发人员:朱昆磊刘佳卉陈杰霍小庆谷伟波贠挺
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1