【技术实现步骤摘要】
文本生成方法、装置、设备以及存储介质
本申请涉及数据处理领域,特别涉及一种文本生成方法、装置、设备以及存储介质。
技术介绍
随着计算机技术的发展,一些情况下需要生成与语义相似且表述方式不同的文本来扩充文本数据库,便于后续基于文本数据库中的文本进行相应的查询操作。相关技术中会通过一些基本的规则来生成与某一文本语义相似,但是表述方式不同的文本,从而扩充文本数据库,比如对该文本中的关键字或短语进行替换、语义平移或引入噪声等。由于规则可能无法适用于所有的文本,因此,采用上述扩充方式生成的文本可能会改变原文本的语义,导致生成的文本与原文本之间语义差别较大,文本生成的效果不佳。
技术实现思路
本申请实施例提供了一种文本生成方法、装置、设备以及存储介质,可以提升文本生成的效果。所述技术方案如下:一方面,提供了一种文本生成方法,所述方法包括:获取第一文本;基于所述第一文本中的字符,获取所述第一文本的语义特征;基于随机生成的隐特征以及所述第一文本的语义特征,得到多个备选字符对 ...
【技术保护点】
1.一种文本生成方法,其特征在于,所述方法包括:/n获取第一文本;/n基于所述第一文本中的字符,获取所述第一文本的语义特征;/n基于随机生成的隐特征以及所述第一文本的语义特征,得到多个备选字符对应的概率,所述概率用于表示所述备选字符在生成文本时的出现概率;/n基于所述概率符合目标概率条件的备选字符,生成多个第二文本。/n
【技术特征摘要】
1.一种文本生成方法,其特征在于,所述方法包括:
获取第一文本;
基于所述第一文本中的字符,获取所述第一文本的语义特征;
基于随机生成的隐特征以及所述第一文本的语义特征,得到多个备选字符对应的概率,所述概率用于表示所述备选字符在生成文本时的出现概率;
基于所述概率符合目标概率条件的备选字符,生成多个第二文本。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一文本中的字符,获取所述第一文本的语义特征包括:
对所述第一文本中的字符进行嵌入编码,得到字符特征;
基于注意力权重和所述字符特征,获取所述第一文本的语义特征。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一文本中的字符,获取所述第一文本的语义特征包括:
对所述第一文本中的字符进行嵌入编码,得到字符特征;
为所述字符特征添加位置特征,基于注意力权重和添加位置特征后的字符特征,获取所述第一文本的语义特征,所述位置特征用于表示所述第一文本中的字符在所述第一文本中的位置。
4.根据权利要求1所述的方法,其特征在于,所述基于随机生成的隐特征以及所述第一文本的语义特征,得到多个备选字符对应的概率包括:
将所述隐特征以及所述第一文本的语义特征进行拼接,得到所述第一文本对应的第一融合特征;
基于所述第一融合特征和所述第一文本的语义特征,得到多个备选字符对应的概率。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第一融合特征和所述第一文本的语义特征,得到多个备选字符对应的概率包括:
对所述第一融合特征和所述第一文本的语义特征进行归一化处理,得到所述多个备选字符对应的第一概率和第二概率,所述第一概率用于表示多个备选字符对应的初始概率,所述第二概率用于表示采用备选字符对所述第一文本中的原字符进行替换的概率;
基于所述第一概率和所述第二概率的乘积,得到多个备选字符对应的概率。
6.根据权利要求5所述的方法,其特征在于,所述对所述第一融合特征和所述第一文本的语义特征进行归一化处理,得到所述多个备选字符对应的第一概率和第二概率包括:
将所述第一文本的语义特征中对应于不同字符的语义特征进行加权求和,得到第二融合特征;
对所述第一融合特征和所述第二融合特征进行归一化处理,得到所述多个备选字符对应的第一概率和第二概率。
7.根据权利要求1所述的方法,其特征在于,通过文本生成模型获取所述第一文本的语义特征以及所述多个备选字符对应的概率,所述文本生成模型的训练方法包括:
确定样本文本和至少一个与所述样本文本之间相似度符合目标相似度条件的参考文本;
将所述样本文本中的字符和所述参考文本中的字符输入初始文本生成模型,通过所述初始文本生成模型生成至少一个预测文本;
基于所述至少一个预测文本与所述样本文本之间的差异信息,调整所述初始文本生成...
【专利技术属性】
技术研发人员:黄文璨,邱东洋,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。