一种基于变分自编码器和扩散模型的文本生成方法技术

技术编号：43632114 阅读：30 留言：0更新日期：2024-12-11 15:13

本发明专利技术提供一种基于变分自编码器和扩散模型的文本生成方法，包括步骤：S1：使用BERT编码器将离散文字转换为连续的嵌入向量；S2：抽取原文关键词并构建词汇图；S3：利用变分自编码器中的编码器将连续的嵌入向量转化为潜在的空间表示，形成潜在向量；S4：通过在扩散模型的前向进程中逐步迭代添加高斯噪声达到纯噪声状态；S5：通过在扩散模型的反向进程中逐步去噪并重构潜在向量，使其更加有效地模糊敏感信息；S6：利用变分自编码器中的解码器将重构后的潜在向量映射为文本向量；S7：利用文本生成器将文本向量还原成文本数据。其效果是：能够高效地去除敏感信息，同时保留重要的关键信息，适用于生成安全和高质量的文本内容。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于深度学习领域中的文本生成技术，具体涉及一种基于变分自编码器和扩散模型的文本生成方法。

技术介绍

1、随着深度学习技术的快速发展，文本生成方法在自然语言处理领域得到了广泛应用。然而，生成文本过程中敏感信息泄露的风险也随之增加，尤其是在涉及隐私数据和机密信息的场景中。因此，如何在生成高质量文本的同时，有效地消除敏感信息，并保留关键信息，成为信息安全领域的重要研究课题。

2、传统的文本生成方法，如基于规则的生成方法或统计模型，往往难以兼顾信息的保密性和生成文本的连贯性。这些方法在处理复杂上下文和多样化的敏感信息时，存在一定的局限性。近年来，随着变分自编码器(vae)和扩散模型的兴起，结合深度学习技术的文本生成方法为解决这一难题提供了新的思路。

技术实现思路

1、有鉴于此，本专利技术的目的在于提供一种基于变分自编码器和扩散模型的文本生成方法，用于实现在文本生成中有效去除敏感信息并保留关键信息。

2、为实现上述目的，本专利技术所采用的具体技术方案如下：

<...

【技术保护点】

1.一种基于变分自编码器和扩散模型的文本生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于变分自编码器和扩散模型的文本生成方法，其特征在于，在步骤S2中，每个词汇的嵌入向量对应为词汇图中的一个节点，通过迭代算法计算两两节点之间的关系和边的权重，从而形成节点的重要性得分，然后根据节点的重要性得分排序，标记抽取原文关键词。

3.根据权利要求2所述的基于变分自编码器和扩散模型的文本生成方法，其特征在于，所述迭代算法为Text Rank算法。

4.根据权利要求1-3任一所述的基于变分自编码器和扩散模型的文本生成方法，其特征在于，步骤S3中利用变...

【技术特征摘要】

1.一种基于变分自编码器和扩散模型的文本生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于变分自编码器和扩散模型的文本生成方法，其特征在于，在步骤s2中，每个词汇的嵌入向量对应为词汇图中的一个节点，通过迭代算法计算两两节点之间的关系和边的权重，从而形成节点的重要性得分，然后根据节点的重要性得分排序，标记抽取原文关键词。

3.根据权利要求2所述的基于变分自编码器和扩散模型的文本生成方法，其特征在于，所述迭代算法为text rank算法。

4.根据权利要求1-3任一所述的基于变分自编码器和扩散模型的文本生成方法，其特征在于，步骤s3中利用变分自编码器中的编码器将连续的嵌入向量转化为潜在的空间表示时，引入步骤s2所抽取的原文关键词所对应的嵌入向量作为条件输入。

5.根据权利要求4所述的基于变分自编码器和扩散模型的文本生成方法，其特征在于，变分自编码器中的编码器按照以下步骤形成潜在向量：

6.根据权利要求5所述的基于变分自编码器和扩散模型的文本生成方法，其特征在于，...

【专利技术属性】
技术研发人员：陈国荣，邹金成，张清茹，张金梅，段泓俊，杜重灵，张宝，胡鸿，张伟杰，刘绍枫，王检，
申请(专利权)人：重庆科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人