一种评论信息生成的方法、装置及存储介质制造方法及图纸

技术编号:34362857 阅读:18 留言:0更新日期:2022-07-31 07:51
本申请提供一种评论信息生成的方法、装置及存储介质,属于计算机技术领域,涉及人工智能和自然语言处理技术,用以提高评论信息的多样性。基于待处理文本的各个分词与相应标题之间的第一相似度,确定待处理文本对应的关键分词集合,标题表征待处理文本的核心内容;基于待处理文本的各个分词与各个预设话题之间的第二相似度,确定待处理文本对应的目标话题及相应的目标话题分词集合,每个目标话题表征针对待处理文本的一个推荐评论角度,每个目标话题对应至少一个话题分词;基于关键分词集合和目标话题分词集合,生成待处理文本的目标评论信息。生成评论信息时,考虑待处理文本中的重要信息以及评论角度,可生成多样化和信息丰富的评论信息。的评论信息。的评论信息。

【技术实现步骤摘要】
一种评论信息生成的方法、装置及存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种评论信息生成的方法、装置及存储介质。

技术介绍

[0002]随着各类阅读网站的流行,用户在浏览某阅读网站的过程中,会对阅读网站中的各类文本进行评论,以表达用户对文本的观点,突出文本的主要信息。因此为了方便用户对文本进行评论,提出了自动评论信息生成技术。
[0003]自动评论信息生成技术是基于给定的文本,自动生成评论信息。目前,主要采用基于长短时记忆网络(Long Short Term Memory networks,LSTM)的序列到序列(seq2seq,S2S)结构的评论信息生成框架,生成评论信息。该框架主要包含一个编码器和一个解码器。
[0004]通过该框架生成评论信息的过程为:将文本包含的文本分词输入到编码器中,编码器将该文本分词编码得到文本分词的语义向量;接着编码器通过对文本分词的语义向量施加注意力机制来逐个生成评论信息中的分词语义向量,并将分词语义向量转换为分词,以生成评论信息。显然,仅根据文本中的分词生成的评论信息不够丰富。

技术实现思路

[0005]本申请提供一种评论信息生成的方法、装置及存储介质,用以提高评论信息丰富多样性。
[0006]第一方面,本申请实施例提供一种评论信息生成的方法,该方法包括:
[0007]基于待处理文本包含的各个分词与相应标题之间的第一相似度,确定待处理文本对应的关键分词集合,标题表征待处理文本的核心内容;
[0008]基于待处理文本包含的各个分词与各个预设话题之间的第二相似度,确定待处理文本对应的目标话题及相应的目标话题分词集合,其中,每个目标话题表征针对待处理文本的一个推荐评论角度,以及每个目标话题对应至少一个话题分词;
[0009]基于关键分词集合和目标话题分词集合,生成待处理文本的目标评论信息。
[0010]第二方面,本申请实施了提供一种评论信息生成的装置,该装置包括:
[0011]第一确定单元,用于基于待处理文本包含的各个分词与相应标题之间的第一相似度,确定待处理文本对应的关键分词集合,标题表征待处理文本的核心内容;
[0012]第二确定单元,用于基于待处理文本包含的各个分词与各个预设话题之间的第二相似度,确定待处理文本对应的目标话题及相应的目标话题分词集合,其中,每个目标话题表征针对待处理文本的一个推荐评论角度,以及每个目标话题对应至少一个话题分词;
[0013]生成单元,用于基于关键分词集合和目标话题分词集合,生成待处理文本的目标评论信息。
[0014]在一种可能的实现方式中,第一确定单元具体用于:
[0015]将待处理文本包含的各个分词和标题输入到已训练的评论信息生成模型的第一
预测子模型中,确定各个分词与标题的第一相似度;
[0016]基于第一相似度,确定各个分词对应的第一被选概率,第一被选概率用于表征各个分词被选做关键分词的概率;
[0017]基于各个分词对应的第一被选概率,从待处理文本包含的各个分词中选择至少一个分词组成关键分词集合。
[0018]在一种可能的实现方式中,第一确定单元具体用于:
[0019]基于各个分词的第一被选概率,分别确定相应分词的第二被选概率,其中,各个第二被选概率的取值与0或1之间的差值小于预设值,各个第二被选概率用于表征相应分词被选做关键分词的概率;
[0020]基于各个分词的第二被选概率,从待处理文本包含的各个分词中筛选出第二被选概率的取值与1之间的差值小于预设值的分词作为关键分词,并组成关键分词集合。
[0021]在一种可能的实现方式中,第一确定单元基于各个分词的第一被选概率,分别确定相应分词的第二被选概率,具体用于:
[0022]基于各个分词的第一被选概率,通过Gumbel

Softmax分布的方式确定相应分词的第二被选概率;或者,
[0023]基于各个分词的第一被选概率,通过伯努利分布的方式确定相应分词的第二被选概率。
[0024]在一种可能的实现方式中,第二确定单元具体用于:
[0025]将待处理文本包含的各个分词输入已训练的评论信息生成模型的第二预测子模型;
[0026]基于第二预测子模型中的各个预设话题,分别确定各个分词与各个预设话题之间的第二相似度,以及基于获得的各个第二相似度,分别确定各个分词关联的话题;
[0027]基于获得的各个话题关联的分词数目,分别确定各个话题的话题被选概率;
[0028]基于各个话题的话题被选概率,确定待处理文本对应的目标话题。
[0029]在一种可能的实现方式中,第二预测子模型为包含Softmax函数的MLP,第二预测子模型是通过如下方式训练得到的:
[0030]根据第一预测训练样本数据集中的第一预测训练样本,对第二预测子模型执行循环迭代训练,并在满足预设收敛条件时,输出训练完毕的第二预测子模型,其中,在一次循环迭代训练过程中执行以下操作:
[0031]从第一预测训练样本数据集中选取第一预测训练样本,其中,第一预测训练样本包含历史文本和相应的至少一个第一历史评论信息,历史文本包含至少一个历史分词;
[0032]将第一预测训练样本中的历史文本包含的至少一个历史分词输入预先构建的第二预测子模型;
[0033]基于预先构建的第二预测子模型中的各个预设话题,通过Softmax函数,分别获得各个历史分词关联的话题;
[0034]基于获得的各个话题关联的历史分词数目,分别确定各个话题的预测话题被选概率;
[0035]基于各个话题对应的真实话题被选概率和预测话题被选概率构建第一损失函数,并基于第一损失函数对第二预测子模型进行参数调整,其中真实话题被选概率是根据历史
文本对应的至少一个第一历史评论信息确定的。
[0036]在一种可能的实现方式中,真实话题被选概率是通过如下方式确定的:
[0037]将第一预测训练样本中的至少一个第一历史评论信息输入已训练的评论信息生成模型的话题感知子模型;
[0038]基于话题感知子模型获得各个第一历史评论信息的第一语义向量,以及分别基于获得的各个第一语义向量确定相应的第一历史评论信息对应的第一历史话题;
[0039]基于获得的各个第一历史话题关联的第一历史评论信息数目,分别确定各个第一历史话题的历史话题被选概率,并将历史话题被选概率作为真实话题被选概率。
[0040]在一种可能的实现方式中,话题感知话题子模型是通过如下方式训练得到的:
[0041]根据第二预测训练样本数据集中的第二预测训练样本,对话题感知子模型执行循环迭代训练,并在满足预设收敛条件时,输出训练完毕的话题感知子模型;其中,在一次循环迭代训练过程中执行以下操作:
[0042]从第二预测训练样本数据集中选取第二预测训练样本,其中,第二预测训练样本包含至少一个第二历史评论信息;
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种评论信息生成的方法,其特征在于,该方法包括:基于所述待处理文本包含的各个分词与相应标题之间的第一相似度,确定所述待处理文本对应的关键分词集合,所述标题表征所述待处理文本的核心内容;基于所述待处理文本包含的各个分词与各个预设话题之间的第二相似度,确定所述待处理文本对应的目标话题及相应的目标话题分词集合,其中,每个目标话题表征针对所述待处理文本的一个推荐评论角度,以及每个目标话题对应至少一个话题分词;基于所述关键分词集合和所述目标话题分词集合,生成所述待处理文本的目标评论信息。2.如权利要求1所述的方法,其特征在于,所述基于所述待处理文本包含的各个分词与所述标题之间的第一相似度,确定所述待处理文本对应的关键分词集合,包括:将所述待处理文本包含的各个分词和所述标题输入到已训练的评论信息生成模型的第一预测子模型中,确定所述各个分词与所述标题的第一相似度;基于所述第一相似度,确定所述各个分词对应的第一被选概率,所述第一被选概率用于表征各个分词被选做关键分词的概率;基于所述各个分词对应的第一被选概率,从所述待处理文本包含的各个分词中选择至少一个分词组成所述关键分词集合。3.如权利要求2所述的方法,其特征在于,所述基于所述各个分词对应的第一被选概率,从所述待处理文本包含的各个分词中选择至少一个分词组成所述关键词集合,具体包括:基于所述各个分词的第一被选概率,分别确定相应分词的第二被选概率,其中,各个第二被选概率的取值与0或1之间的差值小于预设值,所述各个第二被选概率用于表征相应分词被选做关键分词的概率;基于所述各个分词的第二被选概率,从所述待处理文本包含的各个分词中筛选出所述第二被选概率的取值与1之间的差值小于预设值的分词作为关键分词,并组成所述关键分词集合。4.如权利要求3所述的方法,其特征在于,基于所述各个分词的第一被选概率,分别确定相应分词的第二被选概率,包括:基于所述各个分词的第一被选概率,通过Gumbel

Softmax分布的方式确定相应分词的第二被选概率;或者,基于所述各个分词的第一被选概率,通过伯努利分布的方式确定相应分词的第二被选概率。5.如权利要求1所述的方法,其特征在于,所述基于所述待处理文本包含的各个分词与各个预设话题之间的第二相似度,确定所述待处理文本对应的目标话题,包括:将所述待处理文本包含的各个分词输入所述已训练的评论信息生成模型的第二预测子模型;基于所述第二预测子模型中的各个预设话题,分别确定所述各个分词与所述各个预设话题之间的第二相似度,以及基于获得的各个第二相似度,分别确定所述各个分词关联的话题;基于获得的各个话题关联的分词数目,分别确定所述各个话题的话题被选概率;
基于所述各个话题的话题被选概率,确定所述待处理文本对应的目标话题。6.如权利要求5所述的方法,其特征在于,所述第二预测子模型为包含Softmax函数的多层感知机MLP,所述第二预测子模型是通过如下方式训练得到的:根据第一预测训练样本数据集中的第一预测训练样本,对所述第二预测子模型执行循环迭代训练,并在满足预设收敛条件时,输出训练完毕的第二预测子模型,其中,在一次循环迭代训练过程中执行以下操作:从所述第一预测训练样本数据集中选取第一预测训练样本,其中,所述第一预测训练样本包含历史文本和相应的至少一个第一历史评论信息,所述历史文本包含至少一个历史分词;将所述第一预测训练样本中的历史文本包含的至少一个历史分词输入预先构建的第二预测子模型;基于所述预先构建的第二预测子模型中的各个预设话题,通过Softmax函数,分别获得各个历史分词关联的话题;基于获得的各个话题关联的历史分词数目,分别确定所述各个话题的预测话题被选概率;基于各个话题对应的真实话题被选概率和所述预测话题被选概率构建第一损失函数,并基于所述第一损失函数对所述第二预测子模型进行参数调整,其中所述真实话题被选概率是根据所述历史文本对应的至少一个第一历史评论信息确定的。7.如权利要求6所述的方法,其特征在于,所述真实话题被选概率是通过如下方式确定的:将所述第一预测训练样本中的至少一个第一历史评论信息输入已训练的评论信息生成模型的话题感知子模型;基于所述话题感知子模型获得各个第一历史评论信息的第一语义向量,以及分别基于获得的各个第一语义向量确定相应的第一历史评论信息对应的第一历史话题;基于获得的各个第一历史话题关联的第一历史评论信息数目,分别确定所述各个第一历史话题的历史话题被选概率,并将所述历史话题被选概率作为所述真实话题被选概率。8.如权利要求7...

【专利技术属性】
技术研发人员:王伟李丕绩
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1