干扰语句生成方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：29615249 阅读：13 留言：0更新日期：2021-08-10 18:30

本申请涉及智能决策和区块链技术领域，提供一种干扰语句生成方法、装置、设备及计算机可读存储介质，包括：获取样本数据，样本数据包括样本语句和真实同义语句；调用预设的干扰语句生成模型，将该样本语句和真实同义语句输入干扰语句生成模型，得到第二稠密向量和第三稠密向量，根据真实同义语句、预测同义语句、第二稠密向量和第三稠密向量，确定干扰语句生成模型是否收敛，若干扰语句生成模型未收敛，则更新干扰语句生成模型的参数，训练更新后的干扰语句生成模型至收敛。获取训练样本集，将训练样本集中的每个训练样本语句输入干扰语句生成模型，得到每个训练样本语句的第一干扰语句。提高了干扰语句集生成的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
干扰语句生成方法、装置、设备及计算机可读存储介质
本申请涉及智能决策
，尤其涉及一种干扰语句生成方法、装置、设备及计算机可读存储介质。
技术介绍
干扰文本生成是自然语言处理领域的重要研究领域，主要用于自动生成新闻、财报、训练数据集加强等方面，现有的干扰文本生成的方式普遍使用的方法是Transformer模型，但是该模型的损失函数在训练时只考虑了“局部”损失，即基于输入输出稀疏向量的损失比较，它仅能确保特定单词级别的适当性嵌入，但无法保证整个句子级别语义的正确表示。这使得在干扰文本生成应用场景中存在着较大的局限性，模型受数据集干扰明显，当训练数据不够充足时，模型只能生成有限的特定单词，但在语义层面容易出现表达混乱等问题。因此，如何更加准确生成样本集对应的干扰文本是目前亟待解决的问题。
技术实现思路
本申请的主要目的在于提供一种干扰语句生成方法、装置、设备及计算机可读存储介质，旨在提高生成干扰文本的准确性。第一方面，本申请提供一种干扰语句生成方法，包括：获取样本数据，所述样本数据包括样本语句和所述样本语句对应的真实同义语句；调用预设的干扰语句生成模型，其中，所述预设的干扰语句生成模型包括编码器、译码器和语义判别器；将所述样本语句输入所述编码器进行编码，得到第一稠密向量；将所述第一稠密向量输入所述译码器进行译码，得到预测同义语句；将所述真实同义语句输入所述语义判别器进行编码，得到第二稠密向量，并将所述预测同义语句输入所述语义判别器进行编码，得到第三稠...

【技术保护点】
1.一种干扰语句生成方法，其特征在于，包括：/n获取样本数据，所述样本数据包括样本语句和所述样本语句对应的真实同义语句；/n调用预设的干扰语句生成模型，其中，所述预设的干扰语句生成模型包括编码器、译码器和语义判别器；/n将所述样本语句输入所述编码器进行编码，得到第一稠密向量；/n将所述第一稠密向量输入所述译码器进行译码，得到预测同义语句；/n将所述真实同义语句输入所述语义判别器进行编码，得到第二稠密向量，并将所述预测同义语句输入所述语义判别器进行编码，得到第三稠密向量；/n根据所述真实同义语句、预测同义语句、第二稠密向量和第三稠密向量，确定所述干扰语句生成模型是否收敛；/n若所述干扰语句生成模型未收敛，则更新所述干扰语句生成模型的参数，并继续训练更新后的干扰语句生成模型至收敛；/n获取训练样本集，并将所述训练样本集中的每个训练样本语句输入收敛后的干扰语句生成模型进行处理，得到每个训练样本语句的第一干扰语句。/n

【技术特征摘要】
1.一种干扰语句生成方法，其特征在于，包括：
获取样本数据，所述样本数据包括样本语句和所述样本语句对应的真实同义语句；
调用预设的干扰语句生成模型，其中，所述预设的干扰语句生成模型包括编码器、译码器和语义判别器；
将所述样本语句输入所述编码器进行编码，得到第一稠密向量；
将所述第一稠密向量输入所述译码器进行译码，得到预测同义语句；
将所述真实同义语句输入所述语义判别器进行编码，得到第二稠密向量，并将所述预测同义语句输入所述语义判别器进行编码，得到第三稠密向量；
根据所述真实同义语句、预测同义语句、第二稠密向量和第三稠密向量，确定所述干扰语句生成模型是否收敛；
若所述干扰语句生成模型未收敛，则更新所述干扰语句生成模型的参数，并继续训练更新后的干扰语句生成模型至收敛；
获取训练样本集，并将所述训练样本集中的每个训练样本语句输入收敛后的干扰语句生成模型进行处理，得到每个训练样本语句的第一干扰语句。

2.如权利要求1所述的干扰语句生成方法，其特征在于，所述根据所述真实同义语句、预测同义语句、第二稠密向量和第三稠密向量，确定所述干扰语句生成模型是否收敛，包括：
根据所述真实同义语句和所述预测同义语句，确定第一损失值；
根据所述第二稠密向量和所述第三稠密向量，确定第二损失值；
根据所述第一损失值和所述第二损失值，确定目标损失值；
根据所述目标损失值，确定所述干扰语句生成模型是否收敛。

3.如权利要求2所述的干扰语句生成方法，其特征在于，所述根据所述真实同义语句和所述预测同义语句，确定第一损失值，包括：
确定所述样本语句中的词语数量；
对所述真实同义语句进行编码，得到第一编码向量，并对所述预测同义语句进行编码，得到第二编码向量；
根据所述第一编码向量、第二编码向量和样本词语数量，确定第一损失值。

4.如权利要求2所述的干扰语句生成方法，其特征在于，所述根据所述第一损失值和所述第二损失值，确定目标损失值，包括：
对所述第一损失值和第二损失值进行求和运算，得到当前损失值；
获取所述干扰语句生成模型的历史损失值和已训练总次数；
根据所述当前损失值、历史损失值和已训练总次数，确定所述目标损失值。

5.如权利要求4所述的干扰语句生成方法，其特征在于，所述根据所述当前损失值、历史损失值和已训练总次数，确定所述目标损失值，包括：
对所述当前损失值和所述历史损失值进行求和运算，得到总损失值；
将所述总损失值作...

【专利技术属性】
技术研发人员：王磊，赵盟盟，肖京，苏亮州，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人