相似文本生成方法、装置、设备及存储介质制造方法及图纸

技术编号:21914209 阅读:24 留言:0更新日期:2019-08-21 12:30
本发明专利技术涉及语义解析技术领域,公开一种相似文本生成方法、装置、设备及存储介质,该方法通过将初始文本输入至生成式对抗网络中的文本生成器以获取相似文本,并将生成的相似文本和用户输入的初始文本输入至生成式对抗网络的文本鉴别器中计算文本之间的当前判别概率,然后检测该当前判别概率是否等于预设概率值,若等于则将当前生成的相似文本作为目标文本,若不等于则根据预先设定的优化策略对文本生成器和文本鉴别器进行循环优化,直至获取到的判别概率等于预设概率值,由于是对生成式对抗网络模型进行循环优化并检测模型文本结果是否满足最终的输出条件,从而能够保证获得的相似文本直接为计算机所理解,保证了文本输入的准确性及可靠性。

Similar Text Generation Method, Device, Equipment and Storage Media

【技术实现步骤摘要】
相似文本生成方法、装置、设备及存储介质
本专利技术涉及语义解析
,尤其涉及一种相似文本生成方法、装置、设备及存储介质。
技术介绍
采用自然语言写成的输入文本通常难以直接为计算机所理解,因此,在文本分类、文本翻译等场合,通常需要采用深度学习模型根据输入文本获取到相似文本,以便于计算机对文本进行理解。在现有的深度学习模型中,生成式对抗网络(GenerativeAdversarialNetworks,GAN)因能够输出准确度高的结果,在图像生成等领域受到广泛的重视,生成式对抗网络的架构通常包括生成器(Generator)和鉴别器(Discriminator),二者互相博弈学习产生相当好的输出。目前,虽然GAN模型已经被应用到文本数据的语义解析领域,但由于GAN模型本身的自由性,对于文本这一类离散序列数据而言,该模型的稳定性仍十分不足,经常会导致模型最终输出的文本结果不理想。
技术实现思路
本专利技术的主要目的在于提供了一种相似文本生成方法、装置、设备及存储介质,旨在解决生成式对抗网络在处理文本类数据时,最终输出的文本结果不理想的技术问题。为实现上述目的,本专利技术提供了一种相似文本生成方法,所述方法包括以下步骤:将当前获取到的初始文本输入至当前文本生成器,以使所述当前文本生成器根据所述初始文本生成并输出当前相似文本;将所述初始文本和所述当前相似文本输入至当前文本鉴别器,以使所述当前文本鉴别器根据所述当前相似文本获取对应的当前判别概率;检测所述当前判别概率是否等于预设概率值,若不等于,则根据预设模型优化策略对所述当前文本生成器以及所述当前文本鉴别器进行模型优化,以获得优化后的文本生成器和优化后的文本鉴别器;将优化后的文本生成器作为新的当前文本生成器,将优化后的文本鉴别器作为新的文本鉴别器,并返回至所述将当前获取到的初始文本输入至当前文本生成器的步骤;循环检测获取到的当前判别概率是否等于所述预设概率值,若等于,则将所述当前相似文本作为目标相似文本。优选的,所述当前文本生成器为第一卷积神经网络,所述第一卷积神经网络包括第一输入层和至少一个第一卷积层;所述将当前获取到的初始文本输入至当前文本生成器,以使所述当前文本生成器根据所述初始文本生成并输出当前相似文本的步骤,包括:将当前获取到的初始文本输入至所述第一输入层,以使所述第一输入层对所述初始文本进行向量转化,获得第一文本向量;将所述第一文本向量输入至所述第一卷积层,以使所述第一卷积层对所述第一文本向量进行文本特征提取,以获取词汇隐变量;通过第一映射函数对所述词汇隐变量进行变量筛选,并将筛选结果作为当前相似文本。优选的,所述将当前获取到的初始文本输入至所述第一输入层,以使所述第一输入层对所述初始文本进行向量转化,获得第一文本向量的步骤,包括:将当前获取到的初始文本输入至所述第一输入层,以使所述第一输入层对所述初始文本进行分词处理以获取对应的词汇文本;通过所述第一输入层去除所述词汇文本中包含的停用词以获得目标文本,按所述目标文本的词汇序列将所述目标文本向量化,获得第一文本向量。优选的,所述第一映射函数为gumbel-softmax函数;所述通过第一映射函数对所述词汇隐变量进行变量筛选,并将筛选结果作为当前相似文本的步骤,包括:通过第一映射函数对所述词汇隐变量中包含的所有词汇进行概率计算,获取各词汇对应的分类概率值;将所述分类概率值大于预设阈值的词汇作为目标词汇,并根据所述目标词汇生成当前相似文本;其中,所述第一映射函数为:式中,y为分类概率值,α为词汇隐变量中包含的词汇,g为符合gumble标准分布的随机变量,τ为预设趋近系数。优选的,所述当前文本鉴别器为第二卷积神经网络,所述第二卷积神经网络包括第二输入层、至少一个第二卷积层、池化层以及输出层;所述将所述初始文本和所述当前相似文本输入至当前文本鉴别器,以使所述当前文本鉴别器根据所述当前相似文本获取对应的当前判别概率的步骤,包括:将所述当前相似文本输入至所述第二输入层,以使所述第二输入层将所述当前相似文本向量化,获得第二文本向量;将所述第二文本向量输入至所述第二卷积层,以使所述第二卷积层对所述第二文本向量进行文本特征提取,以获取目标隐变量;通过所述池化层对所述目标隐变量进行词汇抽取以获取特征词汇,并根据所述特征词汇生成待比对文本;将所述初始文本以及所述待比对文本输入至所述输出层并获取所述输出层输出的当前判别概率。优选的,所述通过所述池化层对所述目标隐变量进行词汇抽取以获取特征词汇,并根据所述特征词汇生成待比对文本的步骤,包括:通过所述池化层对所述目标隐变量中包含的词汇进行下采样操作,获取对应的词汇向量;将获取到的所述词汇向量组成一维词汇向量,并将所述一维词汇向量作为待比对文本。优选的,所述输出层为第二映射函数;所述将所述初始文本以及所述待比对文本输入至所述输出层并获取所述输出层输出的当前判别概率的步骤,包括:对所述初始文本进行归一化处理获得对应的第一词汇变量;对所述待比对文本进行归一化处理获得对应的第二词汇变量;将所述第一词汇变量和所述第二词汇变量输入至所述第二映射函数中进行概率计算,并获取所述第二映射函数输出的当前判别概率;其中,所述第二映射函数为:式中,σ为判别概率,K为变量数量,zj为第二词汇变量,zk为第一词汇变量。此外,为实现上述目的,本专利技术还提出一种相似文本生成装置,所述装置包括:文本生成模块,用于将当前获取到的初始文本输入至当前文本生成器,以使所述当前文本生成器根据所述初始文本生成并输出当前相似文本;概率计算模块,用于将所述初始文本和所述当前相似文本输入至当前文本鉴别器,以使所述当前文本鉴别器根据所述当前相似文本获取对应的当前判别概率;文本比较模块,用于检测所述当前判别概率是否等于预设概率值,若不等于,则根据预设模型优化策略对所述当前文本生成器以及所述当前文本鉴别器进行模型优化,以获得优化后的文本生成器和优化后的文本鉴别器;所述文本比较模块,还用于将优化后的文本生成器作为新的当前文本生成器,将优化后的文本鉴别器作为新的文本鉴别器,并执行所述将当前获取到的初始文本输入至当前文本生成器的操作;结果确定模块,用于循环检测获取到的当前判别概率是否等于所述预设概率值,若等于,则将所述当前相似文本作为目标相似文本。此外,为实现上述目的,本专利技术还提出一种相似文本生成设备,所述相似文本生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的相似文本生成程序,所述相似文本生成程序配置为实现如上文所述的相似文本生成方法的步骤。此外,为实现上述目的,本专利技术还提出一种存储介质,所述存储介质上存储有相似文本生成程序,所述相似文本生成程序被处理器执行时实现如上文所述的相似文本生成方法的步骤。本专利技术通过将初始文本输入至文本生成器以获取相似文本,并将生成的相似文本和用户输入的初始文本输入至文本鉴别器中计算文本之间的当前判别概率,然后检测该当前判别概率是否等于预设概率值,若等于则表明将当前生成的相似文本作为目标文本,若不等于则根据预先设定的优化策略对文本生成器和文本鉴别器进行循环优化,直至获取到的判别概率等于预设概率值,从而能够保证最终获得的相似文本能够直接为计算机所理解,保证了文本输入的准确性及可靠性。附图说明图1是本文档来自技高网...

【技术保护点】
1.一种相似文本生成方法,其特征在于,所述相似文本生成方法包括以下步骤:将当前获取到的初始文本输入至当前文本生成器,以使所述当前文本生成器根据所述初始文本生成并输出当前相似文本;将所述初始文本和所述当前相似文本输入至当前文本鉴别器,以使所述当前文本鉴别器根据所述当前相似文本获取对应的当前判别概率;检测所述当前判别概率是否等于预设概率值,若不等于,则根据预设模型优化策略对所述当前文本生成器以及所述当前文本鉴别器进行模型优化,以获得优化后的文本生成器和优化后的文本鉴别器;将优化后的文本生成器作为新的当前文本生成器,将优化后的文本鉴别器作为新的文本鉴别器,并返回至所述将当前获取到的初始文本输入至当前文本生成器的步骤;循环检测获取到的当前判别概率是否等于所述预设概率值,若等于,则将所述当前相似文本作为目标相似文本。

【技术特征摘要】
1.一种相似文本生成方法,其特征在于,所述相似文本生成方法包括以下步骤:将当前获取到的初始文本输入至当前文本生成器,以使所述当前文本生成器根据所述初始文本生成并输出当前相似文本;将所述初始文本和所述当前相似文本输入至当前文本鉴别器,以使所述当前文本鉴别器根据所述当前相似文本获取对应的当前判别概率;检测所述当前判别概率是否等于预设概率值,若不等于,则根据预设模型优化策略对所述当前文本生成器以及所述当前文本鉴别器进行模型优化,以获得优化后的文本生成器和优化后的文本鉴别器;将优化后的文本生成器作为新的当前文本生成器,将优化后的文本鉴别器作为新的文本鉴别器,并返回至所述将当前获取到的初始文本输入至当前文本生成器的步骤;循环检测获取到的当前判别概率是否等于所述预设概率值,若等于,则将所述当前相似文本作为目标相似文本。2.如权利要求1所述的相似文本生成方法,其特征在于,所述当前文本生成器为第一卷积神经网络,所述第一卷积神经网络包括第一输入层和至少一个第一卷积层;所述将当前获取到的初始文本输入至当前文本生成器,以使所述当前文本生成器根据所述初始文本生成并输出当前相似文本的步骤,包括:将当前获取到的初始文本输入至所述第一输入层,以使所述第一输入层对所述初始文本进行向量转化,获得第一文本向量;将所述第一文本向量输入至所述第一卷积层,以使所述第一卷积层对所述第一文本向量进行文本特征提取,以获取词汇隐变量;通过第一映射函数对所述词汇隐变量进行变量筛选,并将筛选结果作为当前相似文本。3.如权利要求2所述的相似文本生成方法,其特征在于,所述将当前获取到的初始文本输入至所述第一输入层,以使所述第一输入层对所述初始文本进行向量转化,获得第一文本向量的步骤,包括:将当前获取到的初始文本输入至所述第一输入层,以使所述第一输入层对所述初始文本进行分词处理以获取对应的词汇文本;通过所述第一输入层去除所述词汇文本中包含的停用词以获得目标文本,按所述目标文本的词汇序列将所述目标文本向量化,获得第一文本向量。4.如权利要求2所述的相似文本生成方法,其特征在于,所述第一映射函数为gumbel-softmax函数;所述通过第一映射函数对所述词汇隐变量进行变量筛选,并将筛选结果作为当前相似文本的步骤,包括:通过第一映射函数对所述词汇隐变量中包含的所有词汇进行概率计算,获取各词汇对应的分类概率值;将所述分类概率值大于预设阈值的词汇作为目标词汇,并根据所述目标词汇生成当前相似文本;其中,所述第一映射函数为:式中,y为分类概率值,α为词汇隐变量中包含的词汇,g为符合gumble标准分布的随机变量,τ为预设趋近系数。5.如权利要求1至4任一项所述的相似文本生成方法,其特征在于,所述当前文本鉴别器为第二卷积神经网络,所述第二卷积神经网络包括第二输入层、至少一个第二卷积层、池化层以及输出层;所述将所述初始文本和所述当前相似文本输入至当前文本鉴别器,以使所述当前...

【专利技术属性】
技术研发人员:金戈徐亮
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1