自然语言生成方法、装置、设备及存储介质制造方法及图纸

技术编号:22565160 阅读:16 留言:0更新日期:2019-11-16 12:02
本申请公开了一种自然语言生成方法、装置、设备及存储介质,属于自然语言处理领域。所述方法包括:将待生成语句的对象作为语言生成模型的输入,通过编码器对待生成语句的对象进行编码,得到上下文向量;基于上下文向量,通过选择器从多个备选集线器中进行选择,得到n个集线器,多个备选集线器与多个辅助参数一一对应,多个辅助参数是基于不同的特征词集合确定得到;基于上下文向量和n个集线器分别对应的n个辅助参数,通过语言生成模型的解码器对上下文向量进行解码,得到n个语言风格不同语句。本申请基于同一对象可以生成多种不同语言风格的语句,且所生成语句的语言风格可控,兼顾了生成多种语言风格的语句且保证语言风格可控的重要特性。

Natural language generation method, device, equipment and storage medium

The application discloses a natural language generation method, device, device and storage medium, belonging to the field of natural language processing. The method includes: Taking the object to be generated as the input of the language generation model, encoding the object to be generated by the encoder, and obtaining the context vector; based on the context vector, selecting from multiple alternative hubs by the selector, and obtaining n hubs, multiple alternative hubs correspond to multiple auxiliary parameters one by one, and multiple auxiliary parameters are the basis Based on the N auxiliary parameters of the context vector and N hubs, the context vector is decoded by the decoder of the language generation model, and N sentences with different language styles are obtained. Based on the same object, the application can generate multiple statements with different language styles, and the language style of the generated statements is controllable, taking into account the important characteristics of generating statements with multiple language styles and ensuring that the language style is controllable.

【技术实现步骤摘要】
自然语言生成方法、装置、设备及存储介质
本申请涉及自然语言处理领域,特别涉及一种自然语言生成方法、装置、设备及存储介质。
技术介绍
随着科技的发展,以及人们对便捷的人机交互方式的需求,机器学习在自然语言处理领域得到了广泛应用。例如,可以利用训练好的语言生成模型,将一些对象转换为准确的自然语言,即用较为准确的语句来描述这些对象,这些对象一般为语音或图片等。相关技术中,语言生成模型一般包括编码器和解码器,在利用该模型进行自然语言转换时,可以将待生成语句的对象作为语言生成模型的输入,通过语言生成模型的编码器对待生成语句的对象进行编码,得到该对象的上下文向量,然后通过解码器对该上下文向量进行解码,得到该对象对应的一个语句。由上可知,相关技术中在对对象进行自然语言转换时,只能生成一种语言风格的语言,且语言风格不可控,自然语言生成方式较为单一,灵活性较低。
技术实现思路
本申请提供了一种自然语言生成方法、装置、设备及存储介质,可以解决相关技术中存在的自然语言生成方式较为单一,灵活性较低的问题。所述技术方案如下:一方面,提供了一种自然语言生成方法,所述方法包括:将待生成语句的对象作为语言生成模型的输入,通过所述语言生成模型的编码器对所述对象进行编码,得到所述对象的上下文向量;基于所述上下文向量,通过所述语言生成模型的选择器从多个备选集线器中进行选择,得到n个集线器,所述多个备选集线器与多个辅助参数一一对应,所述多个辅助参数是基于不同的特征词集合确定得到;基于所述上下文向量和所述n个集线器分别对应的n个辅助参数,通过所述语言生成模型的解码器对所述上下文向量进行解码,得到n个语句,所述n个语句的语言风格不同。一方面,提供了一种自然语言生成装置,所述装置包括:编码模块,用于将待生成语句的对象作为语言生成模型的输入,通过所述语言生成模型的编码器对所述对象进行编码,得到所述对象的上下文向量;选择模块,用于基于所述上下文向量,通过所述语言生成模型的选择器从多个备选集线器中进行选择,得到n个集线器,所述n为大于1的整数,所述多个备选集线器与多个辅助参数一一对应,所述多个辅助参数是基于不同的特征词集合确定得到;解码模块,用于基于所述上下文向量和所述n个集线器分别对应的n个辅助参数,通过所述语言生成模型的解码器对所述上下文向量进行解码,得到n个语句,所述n个语句的语言风格不同。一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述所述的自然语言生成方法。一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现上述所述的自然语言生成方法。一方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述所述的自然语言生成方法。本申请提供的技术方案至少可以带来以下有益效果:本申请实施例中的自然语言生成模型包括编码器、多个备选集线器、选择器和解码器,在再通过编码器对待生成语句的对象进行编码,得到上下文向量之后,可以先基于上下文向量,通过语言生成模型的选择器从多个备选集线器中选择n个集线器,再基于该上下文向量和n个集线器分别对应的n个辅助参数,通过语言生成模型的解码器对上下文向量进行解码,得到语言风格不同的n个语句。在模型处理过程中,所选择的n个集线器对应的辅助参数会在很大程度上影响模型的生成结果,使得基于不同集线器对应的辅助参数,生成不同语言风格的语句,由于可以基于同一对象生成多种语言风格的语句,因此扩展了自然语言生成方式,提高了灵活性。而且,由于不同集线器对应的辅助参数是基于不同的特征词集合确定得到的,能够表征不同特征词集合的语言风格特征,因此,通过设置特定的特征词集合,即可使得该模型能够输出特定语言风格的语句,使得该模型所生成语句的语言风格可控,兼顾了生成多种语言风格的语句且保证语言风格可控这个重要特性。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种语言生成模型的示意图;图2是本申请实施例提供的一种语言生成模型的训练方法的流程图;图3是本申请实施例提供的另一种语言生成模型的示意图;图4是本申请实施例提供的一种自然语言生成方法的流程图;图5是本申请实施例提供的一种自然语言生成装置的框图;图6是本申请实施例提供的一种计算机设备的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。在对本申请实施例提供的自然语言生成方法进行详细的解释说明之前,先对本申请实施例涉及的应用场景进行介绍。本申请实施例提供的方法涉及人工智能(ArtificialIntelligence,AI)的自然语言处理(NatureLanguageprocessing,NLP)技术,具体涉及一种基于机器学习(MachineLearning,ML)或深度学习的自然语言生成方法。其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重本文档来自技高网...

【技术保护点】
1.一种自然语言生成方法,其特征在于,所述方法包括:/n将待生成语句的对象作为语言生成模型的输入,通过所述语言生成模型的编码器对所述对象进行编码,得到所述对象的上下文向量;/n基于所述上下文向量,通过所述语言生成模型的选择器从多个备选集线器中进行选择,得到n个集线器,所述n为大于1的整数,所述多个备选集线器与多个辅助参数一一对应,所述多个辅助参数是基于不同的特征词集合确定得到;/n基于所述上下文向量和所述n个集线器分别对应的n个辅助参数,通过所述语言生成模型的解码器对所述上下文向量进行解码,得到n个语句,所述n个语句的语言风格不同。/n

【技术特征摘要】
1.一种自然语言生成方法,其特征在于,所述方法包括:
将待生成语句的对象作为语言生成模型的输入,通过所述语言生成模型的编码器对所述对象进行编码,得到所述对象的上下文向量;
基于所述上下文向量,通过所述语言生成模型的选择器从多个备选集线器中进行选择,得到n个集线器,所述n为大于1的整数,所述多个备选集线器与多个辅助参数一一对应,所述多个辅助参数是基于不同的特征词集合确定得到;
基于所述上下文向量和所述n个集线器分别对应的n个辅助参数,通过所述语言生成模型的解码器对所述上下文向量进行解码,得到n个语句,所述n个语句的语言风格不同。


2.如权利要求1所述的方法,其特征在于,所述辅助参数至少包括辅助向量,所述辅助向量是对特征词集合中各个词语的词向量进行加权平均得到,所述选择器为第一循环神经网络RNN模型;
所述基于所述上下文向量,通过所述语言生成模型的选择器从多个备选集线器中进行选择,得到n个集线器,包括:
基于所述上下文向量、所述多个备选集线器对应的辅助向量、以及终止集线器,通过所述第一RNN模型,从所述多个备选集线器中进行选择,得到n个集线器,所述终止集线器为除所述多个备选集线器之外的用于终止所述选择器的选择流程的集线器。


3.如权利要求2所述的方法,其特征在于,所述基于所述上下文向量、所述多个备选集线器对应的辅助向量、以及终止集线器,通过所述第一RNN模型,从所述多个备选集线器中进行选择,得到n个集线器,包括:
令t=1,基于所述第一RNN模型在第t-1个时序步骤的隐状态信息、所述上下文向量和在第t个时序步骤选择的集线器对应的辅助向量,确定所述第一RNN模型在第t个时序步骤的隐状态信息;其中,当t=1时,所述第一RNN模型在第t-1个时序步骤的隐状态信息为第一预设参数,在第t个时序步骤选取的集线器对应的辅助向量为所述终止集线器对应的辅助向量;
基于所述第一RNN模型在第t个时序步骤的隐状态信息,确定在第t+1个时序步骤选择的集线器;
若在第t+1个时序步骤选择的集线器不是所述终止集线器,则令t=t+1,返回基于所述第一RNN模型在第t-1个时序步骤的隐状态信息、所述上下文向量和在第t个时序步骤选取的集线器对应的辅助参数,确定所述第一RNN模型在第t个时序步骤的隐状态信息,基于所述第一RNN模型在第t个时序步骤的隐状态信息,确定在第t+1个时序步骤选择的集线器的步骤;
若在第t+1个时序步骤选择的集线器是所述终止集线器,则停止选择集线器,将已选择的除所述终止集线器之外的集线器,确定为所述n个集线器。


4.如权利要求1所述的方法,其特征在于,所述解码器为第二RNN模型;
所述基于所述上下文向量和所述n个集线器分别对应的n个辅助参数,通过所述语言生成模型的解码器对所述上下文向量进行解码,包括:
对于所述n个集线器中的参考集线器,基于所述上下文向量、所述参考集线器对应的辅助参数、所述不同的特征词集合中的词语、以及终止词语,通过所述第二RNN模型对所述上下文向量进行解码,得到所述参考集线器对应的语句,所述终止词语为除所述不同的特征词集合包括的词语之外的用于停止所述编码器的编码流程的词语,所述参考集线器为所述n个集线器中的任一个。


5.如权利要求4所述的方法,其特征在于,所述基于所述上下文向量、所述参考集线器对应的辅助参数、所述不同的特征词集合中各个词语的词向量、以及终止词语,通过所述第二RNN模型对所述上下文向量进行解码,得到所述参考集线器对应的语句,包括:
令t=1,基于所述第二RNN模型在第t-1个时序步骤的隐状态信息、所述上下文向量、所述参考集线器对应的辅助参数、以及在第t个时序步骤的输出词语,确定所述第二RNN模型在第t个时序步骤的隐状态信息;其中,当t=1时,所述第二RNN模型在第t-1个时序步骤的隐状态信息为第二预设参数,在第t个时序步骤的输出词语为所述终止词语;
基于...

【专利技术属性】
技术研发人员:周干斌林芬
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1