基于人工智能的文本数据增强方法、装置、设备及存储介质制造方法及图纸

技术编号:20842289 阅读:18 留言:0更新日期:2019-04-13 08:43
本申请属于人工智能技术领域,涉及基于人工智能的文本数据增强方法、装置、设备及存储介质。该方法包括:将文本数据库中的第一输入文本提供给文本生成模型,并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本;计算所述第一输出文本的语序流畅度;将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较;当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时,将所述第一输出文本作为第二输入文本提供给所述文本生成模型,以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本,所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。其增加了文本生成模型训练的数据量。

【技术实现步骤摘要】
基于人工智能的文本数据增强方法、装置、设备及存储介质
本申请属于人工智能
,涉及基于人工智能的文本数据增强方法、装置、设备及存储介质。
技术介绍
目前,文本生成模型能够将一条或一条以上的输入文本转化成一条或一条以上的输出文本。为了让所述文本生成模型能够生成语病少、语义更准确的输出文本,需要给所述文本生成模型提供大量的输入文本,使得所述文本生成模型能够收敛。现有的技术条件下,要获得符合要求的大量的输入文本是非常困难的,使得对于所述文本生成模型进行的训练很难达到理想的效果,也即所述文本生成模型不易实现收敛。此外,现有技术中难以对所述文本生成模型转化获得的输出文本进行语病检查,因此制约了所述文本生成模型的实际应用。
技术实现思路
本申请实施例公开了基于人工智能的文本数据增强方法、装置、设备及存储介质,旨在增加输入文本的数据量。本申请的一些实施例公开了一种基于人工智能的文本数据增强方法。所述基于人工智能的文本数据增强方法包括:将文本数据库中的第一输入文本提供给文本生成模型,并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本;计算所述第一输出文本的语序流畅度;将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较;当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时,将所述第一输出文本作为第二输入文本提供给所述文本生成模型,以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本,直至所述文本生成模型满足预设条件,所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。在本申请的一些实施例中,所述计算所述第一输出文本的语序流畅包括:其中,f(x)表示所述语序流畅度;P(xi|x<i)指的是给定所述第一输出文本的上文,所述第一输出文本的下文P(xi)的语言模型概率。在本申请的一些实施例中,所述语言模型概率通过语言模型计算获得,所述语言模型包括n-gram语言模型和神经概率语言模型。在本申请的一些实施例中,所述将所述第一输出文本作为第二输入文本提供给所述文本生成模型的步骤包括:将所述第一输出文本与所述正确文本组成一个文本数据对,将所述文本数据对中的所述第一输出文本为所述第二输入文本提供给所述文本生成模型。在本申请的一些实施例中,所述文本生成模型对所述第二输入文本进行错误训练,使得所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。在本申请的一些实施例中,所述文本生成模型包括RNN(RecurrentNeuralNetwork,神经网络)结构模型和seq2seq模型。在本申请的一些实施例中,当所述第一输出文本的语序流畅度小于所述正确文本的语序流畅度时,将所述第一输出文本提供给所述文本生成模型。在本申请的一些实施例中,所述基于人工智能的文本数据增强方法还包括:当所述文本生成模型收敛时,停止给所述文本生成模型提供所述第一输入文本和所述第二输入文本。本申请的一实施例公开了一种基于人工智能的文本数据增强装置。所述基于人工智能的文本数据增强装置包括:文本训练模块,用于将文本数据库中的第一输入文本提供给文本生成模型,并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本;语序流畅度计算模块,用于计算所述第一输出文本的语序流畅度;语序流畅度比较模块,用于将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较;输入文本增量模块,用于当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时,将所述第一输出文本作为第二输入文本提供给所述文本生成模型,以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本,直至所述文本生成模型满足预设条件,所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。在本申请的一些实施例中,所述语序流畅度计算模块通过以下公式计算所述第一输出文本的语序流畅度,以f(x)表示所述语序流畅度;其中,P(xi|x<i)指的是给定所述第一输出文本的上文,所述第一输出文本的下文P(xi)的语言模型概率。在本申请的一些实施例中,所述语序流畅度计算模块通过语言模型计算获得所述语言模型概率,所述语言模型包括n-gram语言模型和神经概率语言模型。在本申请的一些实施例中,所述文本训练模块将所述第一输出文本与所述正确文本组成一个文本数据对,将所述文本数据对中的所述第一输出文本为所述第二输入文本提供给所述文本生成模型。在本申请的一些实施例中,所述文本训练模块通过所述文本生成模型对所述第二输入文本进行错误训练,使得所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。在本申请的一些实施例中,输入文本增量模块还用于当所述第一输出文本的语序流畅度小于所述正确文本的语序流畅度时,将所述第一输出文本提供给所述文本生成模型。在本申请的一些实施例中,当所述文本生成模型收敛时,所述文本训练模块停止给所述文本生成模型提供所述第一输入文本和所述第二输入文本。本申请的一些实施例公开了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一种基于人工智能的文本数据增强方法的步骤。本申请的一些实施例公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种基于人工智能的文本数据增强方法的步骤。与现有技术相比,本申请公开的技术方案主要有以下有益效果:在本申请的实施例中,通过将语序流畅度大于或者等于所述正确文本的所述第一输出文本作为所述第二输入文本提供给所述文本生成模型,并由所述文本生成模型将所述第二输入文本转化成至少一条所述第二输出文本。所述文本生成模型对所述第二输入文本进行错误训练,使得所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。通过以语序流畅度大于或者等于所述正确文本的所述第二输入文本输入所述文本生成模型,并由所述文本生成模型将所述第二输入文本转化成至少一条所述第二输出文本,因此进一步增加了用于给所述文本生成模型训练的数据量,有利于减少节省所述文本生成模型的训练时间,使得所述文本生成模型能够在更短的时间内实现收敛,有利于克服给所述文本生成模型训练的数据量不足的问题。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。图1为本申请的一实施例中所述基于人工智能的文本数据增强方法的示意图;图2为本申请的一实施例中所述基于人工智能的文本数据增强方法的另一示意图;图3为本申请的一实施例中智能客服机器人的seq2seq模型进行文本生成训练的示意图;图4为本申请的一实施例中智能客服机器人的seq2seq模型进行文本生成训练的另一示意图;图5为本申请的一实施例中所述基于人工智能的文本数据增强装置的示意图;图6为本申请的一实施例中计算机设备100基本结构框图。附图标记说明:具体实施方式为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施例。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施本文档来自技高网...

【技术保护点】
1.一种基于人工智能的文本数据增强方法,其特征在于,包括:将文本数据库中的第一输入文本提供给文本生成模型,并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本;计算所述第一输出文本的语序流畅度;将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较;当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时,将所述第一输出文本作为第二输入文本提供给所述文本生成模型,以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本,直至所述文本生成模型满足预设条件,所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。

【技术特征摘要】
1.一种基于人工智能的文本数据增强方法,其特征在于,包括:将文本数据库中的第一输入文本提供给文本生成模型,并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本;计算所述第一输出文本的语序流畅度;将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较;当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时,将所述第一输出文本作为第二输入文本提供给所述文本生成模型,以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本,直至所述文本生成模型满足预设条件,所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。2.根据权利要求1所述基于人工智能的文本数据增强方法,其特征在于,计算所述第一输出文本的语序流畅度包括:其中,f(x)表示所述语序流畅度;P(xi|x<i)指的是给定所述第一输出文本的上文,所述第一输出文本的下文P(xi)的语言模型概率。3.根据权利要求2所述基于人工智能的文本数据增强方法,其特征在于,所述语言模型概率通过语言模型计算获得,所述语言模型包括n-gram语言模型和神经概率语言模型。4.根据权利要求1所述基于人工智能的文本数据增强方法,其特征在于,所述将所述第一输出文本作为第二输入文本提供给所述文本生成模型的步骤包括:将所述第一输出文本与所述正确文本组成一个文本数据对,将所述文本数据对中的所述第一输出文本为所述第二输入文本提供给所述文本生成模型。5.根据权利要求1所述的基于人工智能的文本数据增强方法,其特征在于,所述文本生成模型对所述第二输入文本进行错误训练,使得所述第二输...

【专利技术属性】
技术研发人员:金戈徐亮肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1