基于人工智能的文本数据增强方法、装置、设备及存储介质制造方法及图纸

技术编号：20842289 阅读：18 留言：0更新日期：2019-04-13 08:43

本申请属于人工智能技术领域，涉及基于人工智能的文本数据增强方法、装置、设备及存储介质。该方法包括：将文本数据库中的第一输入文本提供给文本生成模型，并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本；计算所述第一输出文本的语序流畅度；将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较；当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时，将所述第一输出文本作为第二输入文本提供给所述文本生成模型，以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本，所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。其增加了文本生成模型训练的数据量。

全部详细技术资料下载

【技术实现步骤摘要】
基于人工智能的文本数据增强方法、装置、设备及存储介质
本申请属于人工智能
，涉及基于人工智能的文本数据增强方法、装置、设备及存储介质。
技术介绍
目前，文本生成模型能够将一条或一条以上的输入文本转化成一条或一条以上的输出文本。为了让所述文本生成模型能够生成语病少、语义更准确的输出文本，需要给所述文本生成模型提供大量的输入文本，使得所述文本生成模型能够收敛。现有的技术条件下，要获得符合要求的大量的输入文本是非常困难的，使得对于所述文本生成模型进行的训练很难达到理想的效果，也即所述文本生成模型不易实现收敛。此外，现有技术中难以对所述文本生成模型转化获得的输出文本进行语病检查，因此制约了所述文本生成模型的实际应用。
技术实现思路
本申请实施例公开了基于人工智能的文本数据增强方法、装置、设备及存储介质，旨在增加输入文本的数据量。本申请的一些实施例公开了一种基于人工智能的文本数据增强方法。所述基于人工智能的文本数据增强方法包括：将文本数据库中的第一输入文本提供给文本生成模型，并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本；计算所述第一输出文本的语序流畅度；将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较；当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时，将所述第一输出文本作为第二输入文本提供给所述文本生成模型，以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本，直至所述文本生成模型满足预设条件，所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。在本申请的一些实施例中，所述计算所述第一输出文本的语...

【技术保护点】
1.一种基于人工智能的文本数据增强方法，其特征在于，包括：将文本数据库中的第一输入文本提供给文本生成模型，并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本；计算所述第一输出文本的语序流畅度；将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较；当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时，将所述第一输出文本作为第二输入文本提供给所述文本生成模型，以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本，直至所述文本生成模型满足预设条件，所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。

【技术特征摘要】
1.一种基于人工智能的文本数据增强方法，其特征在于，包括：将文本数据库中的第一输入文本提供给文本生成模型，并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本；计算所述第一输出文本的语序流畅度；将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较；当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时，将所述第一输出文本作为第二输入文本提供给所述文本生成模型，以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本，直至所述文本生成模型满足预设条件，所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。2.根据权利要求1所述基于人工智能的文本数据增强方法，其特征在于，计算所述第一输出文本的语序流畅度包括：其中，f(x)表示所述语序流畅度；P(xi|x＜i)指的是给定所述第一输出文本的上文，所述第一输出文本的下文P(xi)的语言模型概率。3.根据权利要求2所述基于人工智能的文本数据增强方法，其特征在于，所述语言模型概率通过语言模型计算获得，所述语言模型包括n-gram语言模型和神经概率语言模型。4.根据权利要求1所述基于人工智能的文本数据增强方法，其特征在于，所述将所述第一输出文本作为第二输入文本提供给所述文本生成模型的步骤包括：将所述第一输出文本与所述正确文本组成一个文本数据对，将所述文本数据对中的所述第一输出文本为所述第二输入文本提供给所述文本生成模型。5.根据权利要求1所述的基于人工智能的文本数据增强方法，其特征在于，所述文本生成模型对所述第二输入文本进行错误训练，使得所述第二输...

【专利技术属性】
技术研发人员：金戈，徐亮，肖京，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人