语句生成方法、装置、设备及存储介质制造方法及图纸

技术编号：21952416 阅读：40 留言：0更新日期：2019-08-24 17:42

本申请公开了一种语句生成方法、装置、设备及存储介质，属于人工智能领域。所述方法包括：获取输入序列；对输入序列进行编码处理得到语句特征向量；对语句特征向量进行解码得到第一预定数量的候选语句序列；对第一预定数量的候选语句序列进行聚类得到至少两类语句序列集合；从至少两类语句序列集合中筛选出第二预定数量的候选语句序列，第二预定数量的候选语句序列包括至少两种语句特征类型；根据第二预定数量的候选语句序列，确定输入序列对应的输出序列。本申请通过对解码得到的多个候选语句序列进行聚类和筛选，使得产生的多个候选语句序列包括至少两种语句特征类型，进而使得输出的输出序列存在较大的多样性，提高了语句生成效果。

Statement Generation Method, Device, Equipment and Storage Media

全部详细技术资料下载

【技术实现步骤摘要】
语句生成方法、装置、设备及存储介质
本申请实施例涉及人工智能领域，特别涉及一种语句生成方法、装置、设备及存储介质。
技术介绍
语句生成方法可以用于任何功能的对话系统、机器翻译系统、问答系统、自动写作系统、阅读理解系统中，尤其适用于需要大信息量以及多样性的对话系统中。基于深度学习的语句生成方法是当前发展的方向，在获取到用户输入的语句序列后，其生成输出序列的方法包括：将输入的语句序列编码成向量；对向量进行解码得到输出序列。上述方法在生成输出序列的过程中，还不能有效的处理输入的语句序列，造成输出序列可能无法满足用户需求，语句生成效果较差。
技术实现思路
本申请实施例提供了一种语句生成方法、装置、设备及存储介质，可以用于解决输出序列可能无法满足用户需求导致语句生成效果较差的问题。所述技术方案如下：一方面，本申请实施例提供了一种语句生成方法，所述方法包括：获取输入序列；对所述输入序列进行编码处理得到语句特征向量，所述语句特征向量为所述输入序列的表示；对所述语句特征向量进行解码得到第一预定数量的候选语句序列；对所述第一预定数量的候选语句序列进行聚类得到至少两类语句序列集合；从所述至少两类语句序列集合中筛选出第二预定数量的候选语句序列，所述第二预定数量的候选语句序列包括至少两种语句特征类型，所述第二预定数量小于所述第一预定数量；根据所述第二预定数量的候选语句序列，确定所述输入序列对应的输出序列。另一方面，本申请实施例提供了一种语句生成装置，所述装置包括：获取模块，用于获取输入序列；编码模块，用于对所述输入序列进行编码处理得到语句特征向量，所述语句特征向量为所述输入序列的表示...

【技术保护点】
1.一种语句生成方法，其特征在于，所述方法包括：获取输入序列；对所述输入序列进行编码处理得到语句特征向量，所述语句特征向量为所述输入序列的表示；对所述语句特征向量进行解码得到第一预定数量的候选语句序列；对所述第一预定数量的候选语句序列进行聚类得到至少两类语句序列集合；从所述至少两类语句序列集合中筛选出第二预定数量的候选语句序列，所述第二预定数量的候选语句序列包括至少两种语句特征类型，所述第二预定数量小于所述第一预定数量；根据所述第二预定数量的候选语句序列，确定所述输入序列对应的输出序列。

【技术特征摘要】
1.一种语句生成方法，其特征在于，所述方法包括：获取输入序列；对所述输入序列进行编码处理得到语句特征向量，所述语句特征向量为所述输入序列的表示；对所述语句特征向量进行解码得到第一预定数量的候选语句序列；对所述第一预定数量的候选语句序列进行聚类得到至少两类语句序列集合；从所述至少两类语句序列集合中筛选出第二预定数量的候选语句序列，所述第二预定数量的候选语句序列包括至少两种语句特征类型，所述第二预定数量小于所述第一预定数量；根据所述第二预定数量的候选语句序列，确定所述输入序列对应的输出序列。2.根据权利要求1所述的方法，其特征在于，所述对所述语句特征向量进行解码得到第一预定数量的候选语句序列，包括：对所述语句特征向量进行第i次解码得到所述第一预定数量的候选语句序列，所述候选语句序列包括i个解码词，所述i的初始值为1；所述根据所述第二预定数量的候选语句序列，确定所述输入序列对应的输出序列，包括：当所述第i次解码得到的解码词未包括预测的终止词时将所述i加1，继续执行对所述语句特征向量进行第i次解码得到所述第一预定数量的候选语句序列的步骤；当所述第i次解码得到的解码词包括所述预测的终止词时，获取所述第i次解码、聚类和筛选后的所述第二预定数量的候选语句序列；根据获取到的所述第二预定数量的候选语句序列，确定所述输出序列。3.根据权利要求1所述的方法，其特征在于，所述对所述第一预定数量的候选语句序列进行聚类得到至少两类语句序列集合，包括：对于所述第一预定数量的候选语句序列，采用指定聚类算法进行聚类得到所述至少两类语句序列集合，所述至少两类语句序列集合各自对应的语句特征类型是不同的；其中，所述指定聚类算法包括K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、用高斯混合模型的最大期望聚类算法、凝聚层次聚类算法中的至少一种。4.根据权利要求1或3所述的方法，其特征在于，所述语句特征类型包括第一语句特征类型、第二语句特征类型和第三语句特征类型中的至少一种；所述第一语句特征类型用于指示所述候选语句序列为安全的语句序列；所述第二语句特征类型用于指示所述候选语句序列为不通顺的语句序列；所述第三语句特征类型用于指示所述候选语句序列为通顺且具有针对性的语句序列。5.根据权利要求2所述的方法，其特征在于，所述根据获取到的所述第二预定数量的候选语句序列，确定所述输出序列，包括：获取语句评分模型，所述语句评分模型用于表示基于样本语句序列进行训练得到的语句评价规律；对于所述第二预定数量的候选语句序列中的每个所述候选语句序列，输入所述语句评分模型得到语句评分，所述语句评分用于指示所述候选语句序列的语句质量；根据所述第二预定数量的候选语句序列各自对应的语句评分，确定所述输出序列。6.根据权利要求5所述的方法，其特征在于，所述语句评分与所述候选语句序列的语句质量呈负相关关系，所述根据所述第二预定数量的候选语句序列各自对应的语句评分，确定所述输出序列，包括：确定所述第二预定数量的候选语句序列各自对应的语句评分中的最低语句评分；将所述最低语句评分对应的候选语句序列确定为所述输出序列。7.根据权利要求5所述的方法，其特征在于，所述获取语句评分模型，...

【专利技术属性】
技术研发人员：谭翊章，丁佳晨，缪畅宇，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人