自然语言生成方法、装置、设备及存储介质制造方法及图纸

技术编号：22565160 阅读：16 留言：0更新日期：2019-11-16 12:02

本申请公开了一种自然语言生成方法、装置、设备及存储介质，属于自然语言处理领域。所述方法包括：将待生成语句的对象作为语言生成模型的输入，通过编码器对待生成语句的对象进行编码，得到上下文向量；基于上下文向量，通过选择器从多个备选集线器中进行选择，得到n个集线器，多个备选集线器与多个辅助参数一一对应，多个辅助参数是基于不同的特征词集合确定得到；基于上下文向量和n个集线器分别对应的n个辅助参数，通过语言生成模型的解码器对上下文向量进行解码，得到n个语言风格不同语句。本申请基于同一对象可以生成多种不同语言风格的语句，且所生成语句的语言风格可控，兼顾了生成多种语言风格的语句且保证语言风格可控的重要特性。

Natural language generation method, device, equipment and storage medium

The application discloses a natural language generation method, device, device and storage medium, belonging to the field of natural language processing. The method includes: Taking the object to be generated as the input of the language generation model, encoding the object to be generated by the encoder, and obtaining the context vector; based on the context vector, selecting from multiple alternative hubs by the selector, and obtaining n hubs, multiple alternative hubs correspond to multiple auxiliary parameters one by one, and multiple auxiliary parameters are the basis Based on the N auxiliary parameters of the context vector and N hubs, the context vector is decoded by the decoder of the language generation model, and N sentences with different language styles are obtained. Based on the same object, the application can generate multiple statements with different language styles, and the language style of the generated statements is controllable, taking into account the important characteristics of generating statements with multiple language styles and ensuring that the language style is controllable.

全部详细技术资料下载

【技术实现步骤摘要】
自然语言生成方法、装置、设备及存储介质
本申请涉及自然语言处理领域，特别涉及一种自然语言生成方法、装置、设备及存储介质。
技术介绍
随着科技的发展，以及人们对便捷的人机交互方式的需求，机器学习在自然语言处理领域得到了广泛应用。例如，可以利用训练好的语言生成模型，将一些对象转换为准确的自然语言，即用较为准确的语句来描述这些对象，这些对象一般为语音或图片等。相关技术中，语言生成模型一般包括编码器和解码器，在利用该模型进行自然语言转换时，可以将待生成语句的对象作为语言生成模型的输入，通过语言生成模型的编码器对待生成语句的对象进行编码，得到该对象的上下文向量，然后通过解码器对该上下文向量进行解码，得到该对象对应的一个语句。由上可知，相关技术中在对对象进行自然语言转换时，只能生成一种语言风格的语言，且语言风格不可控，自然语言生成方式较为单一，灵活性较低。
技术实现思路
本申请提供了一种自然语言生成方法、装置、设备及存储介质，可以解决相关技术中存在的自然语言生成方式较为单一，灵活性较低的问题。所述技术方案如下：一方面，提供了一种自然语言生成方法，所述方法包括：将待生成语句的对象作为语言生成模型的输入，通过所述语言生成模型的编码器对所述对象进行编码，得到所述对象的上下文向量；基于所述上下文向量，通过所述语言生成模型的选择器从多个备选集线器中进行选择，得到n个集线器，所述多个备选集线器与多个辅助参数一一对应，所述多个辅助参数是基于不同的特征词集合确定得到；基...

【技术保护点】
1.一种自然语言生成方法，其特征在于，所述方法包括：/n将待生成语句的对象作为语言生成模型的输入，通过所述语言生成模型的编码器对所述对象进行编码，得到所述对象的上下文向量；/n基于所述上下文向量，通过所述语言生成模型的选择器从多个备选集线器中进行选择，得到n个集线器，所述n为大于1的整数，所述多个备选集线器与多个辅助参数一一对应，所述多个辅助参数是基于不同的特征词集合确定得到；/n基于所述上下文向量和所述n个集线器分别对应的n个辅助参数，通过所述语言生成模型的解码器对所述上下文向量进行解码，得到n个语句，所述n个语句的语言风格不同。/n

【技术特征摘要】
1.一种自然语言生成方法，其特征在于，所述方法包括：
将待生成语句的对象作为语言生成模型的输入，通过所述语言生成模型的编码器对所述对象进行编码，得到所述对象的上下文向量；
基于所述上下文向量，通过所述语言生成模型的选择器从多个备选集线器中进行选择，得到n个集线器，所述n为大于1的整数，所述多个备选集线器与多个辅助参数一一对应，所述多个辅助参数是基于不同的特征词集合确定得到；
基于所述上下文向量和所述n个集线器分别对应的n个辅助参数，通过所述语言生成模型的解码器对所述上下文向量进行解码，得到n个语句，所述n个语句的语言风格不同。

2.如权利要求1所述的方法，其特征在于，所述辅助参数至少包括辅助向量，所述辅助向量是对特征词集合中各个词语的词向量进行加权平均得到，所述选择器为第一循环神经网络RNN模型；
所述基于所述上下文向量，通过所述语言生成模型的选择器从多个备选集线器中进行选择，得到n个集线器，包括：
基于所述上下文向量、所述多个备选集线器对应的辅助向量、以及终止集线器，通过所述第一RNN模型，从所述多个备选集线器中进行选择，得到n个集线器，所述终止集线器为除所述多个备选集线器之外的用于终止所述选择器的选择流程的集线器。

3.如权利要求2所述的方法，其特征在于，所述基于所述上下文向量、所述多个备选集线器对应的辅助向量、以及终止集线器，通过所述第一RNN模型，从所述多个备选集线器中进行选择，得到n个集线器，包括：
令t＝1，基于所述第一RNN模型在第t-1个时序步骤的隐状态信息、所述上下文向量和在第t个时序步骤选择的集线器对应的辅助向量，确定所述第一RNN模型在第t个时序步骤的隐状态信息；其中，当t＝1时，所述第一RNN模型在第t-1个时序步骤的隐状态信息为第一预设参数，在第t个时序步骤选取的集线器对应的辅助向量为所述终止集线器对应的辅助向量；
基于所述第一RNN模型在第t个时序步骤的隐状态信息，确定在第t+1个时序步骤选择的集线器；
若在第t+1个时序步骤选择的集线器不是所述终止集线器，则令t＝t+1，返回基于所述第一RNN模型在第t-1个时序步骤的隐状态信息、所述上下文向量和在第t个时序步骤选取的集线器对应的辅助参数，确定所述第一RNN模型在第t个时序步骤的隐状态信息，基于所述第一RNN模型在第t个时序步骤的隐状态信息，确定在第t+1个时序步骤选择的集线器的步骤；
若在第t+1个时序步骤选择的集线器是所述终止集线器，则停止选择集线器，将已选择的除所述终止集线器之外的集线器，确定为所述n个集线器。

4.如权利要求1所述的方法，其特征在于，所述解码器为第二RNN模型；
所述基于所述上下文向量和所述n个集线器分别对应的n个辅助参数，通过所述语言生成模型的解码器对所述上下文向量进行解码，包括：
对于所述n个集线器中的参考集线器，基于所述上下文向量、所述参考集线器对应的辅助参数、所述不同的特征词集合中的词语、以及终止词语，通过所述第二RNN模型对所述上下文向量进行解码，得到所述参考集线器对应的语句，所述终止词语为除所述不同的特征词集合包括的词语之外的用于停止所述编码器的编码流程的词语，所述参考集线器为所述n个集线器中的任一个。

5.如权利要求4所述的方法，其特征在于，所述基于所述上下文向量、所述参考集线器对应的辅助参数、所述不同的特征词集合中各个词语的词向量、以及终止词语，通过所述第二RNN模型对所述上下文向量进行解码，得到所述参考集线器对应的语句，包括：
令t＝1，基于所述第二RNN模型在第t-1个时序步骤的隐状态信息、所述上下文向量、所述参考集线器对应的辅助参数、以及在第t个时序步骤的输出词语，确定所述第二RNN模型在第t个时序步骤的隐状态信息；其中，当t＝1时，所述第二RNN模型在第t-1个时序步骤的隐状态信息为第二预设参数，在第t个时序步骤的输出词语为所述终止词语；
基于...

【专利技术属性】
技术研发人员：周干斌，林芬，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人