文本生成方法及装置、电子设备、计算机可读存储介质制造方法及图纸

技术编号:37674312 阅读:23 留言:0更新日期:2023-05-26 04:38
本公开提供了一种文本生成方法及装置、电子设备、计算机可读存储介质,所述文本生成方法包括:获取初始文本;确定所述初始文本中每个词的权重,所述每个词的权重用于表征相应词对所述初始文本语义的影响程度;根据各个词的权重从各个词中筛选出预设数量的待变更词;根据所述初始文本的语义特征,获取各个待变更词对应的目标预测词的语义特征数据;使用每个目标预测词的语义特征数据替换所述初始文本的语义特征中相应待变更词的语义特征数据,将替换后的语义特征作为新文本的语义特征。本公开实施例能够提高所生成的新文本的质量及新文本语义的泛化程度,进而,能够提高使用初始文本及新文本训练得到的模型的泛化能力和性能。本及新文本训练得到的模型的泛化能力和性能。本及新文本训练得到的模型的泛化能力和性能。

【技术实现步骤摘要】
文本生成方法及装置、电子设备、计算机可读存储介质


[0001]本公开涉及数据处理
,特别涉及一种文本生成方法及装置、电子设备、计算机可读存储介质。

技术介绍

[0002]在训练文本处理模型的过程中,用作训练样本的文本的量会对模型的训练效果产生很大影响。而某些应用场景下或者某些领域中,例如一些专业知识领域,能够用作训练样本的文本的数量相对较少。为了获得充足的训练样本,常规的操作方法是在已有文本的基础上,通过同义词替换、随机插入、随机删除等操作方式生成新文本,进而将新文本和已有文本共同作为训练样本,以达到增加训练样本数量的目的。
[0003]然而,常规的生成新文本的方式,容易引入噪声,以及使得得到的新文本的语义发生改变,从而对训练样本造成污染,反而会恶化模型的训练效果。

技术实现思路

[0004]本公开提供一种文本生成方法及装置、电子设备、计算机可读存储介质。
[0005]第一方面,本公开提供了一种文本生成方法,该文本生成方法包括:
[0006]获取初始文本;
[0007]确定所述初始文本中每个本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本生成方法,其特征在于,包括:获取初始文本;确定所述初始文本中每个词的权重,所述每个词的权重用于表征相应词对所述初始文本语义的影响程度;根据各个词的权重从各个词中筛选出预设数量的待变更词;根据所述初始文本的语义特征,获取各个待变更词对应的目标预测词的语义特征数据;使用每个目标预测词的语义特征数据替换所述初始文本的语义特征中相应待变更词的语义特征数据,将替换后的语义特征作为新文本的语义特征。2.根据权利要求1所述的文本生成方法,其特征在于,所述根据各个词的权重从各个词中筛选出预设数量的待变更词,包括:将每个词的权重与所述各个词的权重之和的比值确定为相应词的被选概率,每个词的被选概率用于表征相应词被选为待变更词的可能性;确定所述各个词的被选概率的概率分布;按照所述概率分布从所述各个词中抽样,将抽样得到的词作为所述预设数量的待变更词。3.根据权利要求1所述的文本生成方法,其特征在于,所述根据所述初始文本的语义特征,获取各个待变更词对应的目标预测词的语义特征数据,包括:对应每个待变更词,预测得到至少两个预测词数据,每个预测词数据包括预测词向量以及所述预测词向量对应的置信度,所述预测词向量对应的置信度用于表征所述预测词向量与相应待变更词的语义的接近程度;根据相应待变更词的至少两个预测词数据生成所述待变更词对应的目标预测词的语义特征数据。4.根据权利要求3所述的文本生成方法,其特征在于,所述对应每个待变更词,预测得到至少两个预测词数据,包括:对应相应待变更词,将所述初始文本中的相应待变更词进行掩码处理,得到掩码文本;获取所述掩码文本的文本语义特征及所述掩码文本中各个词的语义特征数据;根据所述掩码文本的文本语义特征及所述掩码文本中各个词的语义特征数据预测得到相应待变更词的至少两个预测词数据。5.根据权利要求3所述的文本生成方法,其特征在于,所述对应相应待变更词,将所述初始文本中的相应待变更词进行掩码处理,得到掩码文本,还包括:当所述待变更词的数量与所述初始文本所包含词的总数的比值小于第一阈值时,将所述初始文本中包含所述待变更词均设为掩码;或者,当所述待变更词的数量与所述初始文本所包含词的总数的比值大于第二阈值时,每次将所述初始文本中预设个数的待变更词设为掩码,所述预设个数的待变更词中包含相应待变更词;所述第二阈值大于所述第一阈值,所述预设个数是指与所述初始文本所包含词的总数的比值小于或者等于所述第一阈值的数值。6.根据权利要求4所述的文本生成方法,其特征在于,对应每个待变更词,采用以下算
法...

【专利技术属性】
技术研发人员:李长林夏粉肖冰曹磊罗奇帅
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1