【技术实现步骤摘要】
变异文本的生成、翻译模型的训练、文本分类方法和装置
[0001]本申请涉及自然语言处理
,特别是涉及一种变异文本的生成方 法、一种翻译模型的训练方法,一种文本分类方法,一种变异文本的生成装 置、一种翻译模型的训练装置、以及一种文本分类装置。
技术介绍
[0002]一般来说,用户在表达自己的意思时,可以使用规范表达的正常文本, 也可以基于用户的习惯、爱好等原因,使用不属于规范表达的变异文本。例 如,缩略语,错别字,拼音与中文混输,英文与中文混输,以及使用同音字、 音近字、特殊符号来表音的“火星文”等。同时,在用户可以接收其他用户 或运营商发送的文字消息的平台,或者,用户可以公开文字消息的平台中, 例如,电商平台、社交网络平台、短信平台、邮箱平台等,用户通常可以接 收到其他用户或运营商发送的垃圾消息,或者,其他用户可以在平台公开垃 圾消息,导致用户收到垃圾信息的骚扰。垃圾信息可以为了避免平台的垃圾 信息识别与屏蔽,将垃圾消息变换为不属于规范表达的变异文本。例如,将
ꢀ“
贷款”替换为“貸歀”。
[0 ...
【技术保护点】
【技术特征摘要】
1.一种变异文本的生成方法,其特征在于,所述方法包括:采用预设的第一文本分类模型,确定预设的原始文本中的重要词;将所述原始文本中的重要词转换为变异词,得到所述原始文本对应的变异文本。2.根据权利要求1所述的方法,其特征在于,所述将所述原始文本中的重要词转换为变异词,得到所述原始文本对应的变异文本的步骤,包括:采用预设的变异词转换规则,将所述原始文本中的至少一个重要词,转换为变异词,得到所述原始文本对应的变异文本;获取所述变异文本与所述原始文本之间语义相似度;确定所述语义相似度是否大于预设阈值;若所述语义相似度大于预设阈值,将所述变异文本作为目标变异文本。3.根据权利要求2所述的方法,其特征在于,所述变异词转换规则包括音标转换规则、音近转换规则、形近转换规则、同义转换规则中的至少一种。4.根据权利要求2或3所述的方法,其特征在于,所述目标变异文本包括第一目标变异文本以及第二目标变异文本;所述若所述语义相似度大于预设阈值,将所述变异文本作为目标变异文本的步骤,包括:若所述语义相似度大于预设阈值,确定将所述变异文本输入预设的第二文本分类模型,获取所述变异文本对应的变异标签信息;确定所述变异文本对应的变异标签信息是否与预设的所述原始文本对应的原始标签信息相同;若所述变异标签信息与所述原始标签信息相同,将所述变异文本作为第二目标变异文本;若所述变异标签信息与所述原始标签信息不同,将所述变异文本作为第一目标变异文本。5.根据权利要求2或3所述的方法,其特征在于,所述采用预设的变异词转换规则,将所述原始文本中的至少一个重要词,转换为变异词,得到所述原始文本对应的变异文本的步骤,包括:针对所述原始文本中的一重要词,采用预设的变异词转换规则,生成所述重要词的变异词集合,所述变异词集合包括至少一个变异词;采用所述变异词集合中的变异词,替换所述重要词,得到至少一个第一替换文本;采用所述第一文本分类模型,获取所述原始文本、以及所述第一替换文本的文本分类信息;在所述第一替换文本中,查找所述第一替换文本的文本分类信息与所述原始文本的文本分类信息相差最大的目标第一替换文本;将所述目标第一替换文本对应的变异词,作为目标变异词;将所述原始文本中的重要词,转换为所述重要词对应的目标变异词,得到所述原始文本对应的变异文本。6.根据权利要求2所述的方法,其特征在于,所述方法还包括:采用所述目标变异文本以及所述原始标签信息,对所述第一文本分类模型进行训练,
得到新的第一文本分类模型。7.根据权利要求4所述的方法,其特征在于,所述方法还包括:将所述第一目标变异文本中的至少一个变异词替换为所述变异词对应的重要词,得到第二替换文本;将所述第二替换文本输入预设的第二文本分类模型,获取所述第二替换文本对应的替换标签信息;在所述第二替换文本中,查找所述第二替换文本对应的替换标签信息与所述原始文本对应的原始标签信息不同的目标第二替换文本;获取所述目标第二替换文本与所述原始文本之间的语义相似度;查找所述语义相似度最大的目标第二替换文本,作为第三目标变异文本。8.根据权利要求1所述的方法,其特征在于,所述采用预设的第一文本分类模型,确定预设的原始文本中的重要词的步骤,包括:将预设的原始文本输入预设的第一文本分类模型中,获取所述原始文本的文本分类信息;所述原始文本包括至少一个原始词;在所述原始文本中,去除所述原始词,得到重要性识别文本;将所述重要性识别文本输入预设的第一文本分类模型中,获取所述原始词对应的重要性信息;采用所述原始文本的文本分类信息以及所述重要性信息,确定所述原始文本中的重要词。9.根据权利要求1所述的方法,其特征在于,所述方法还包括:将预设的训练文本输入预设的第二文本分类模型中,获取所述训练文本对应的硬标签信息;对所述硬标签信息进行标签平滑处理,获取所述训练文本对应的软标签信息;采用所述训练文本、预设的所述训练文本对应的训练标签信息、以及所述软标签信息,对预设的待训练第一文本分类模型进行训练,得到第一文本分类模型。10.根据权利要求9所述的方法,其特征在于,所述采用所述训练文本、预设的所述训练文本对应的训练标签信息、以及所述软标签信息,对预设的待训练第一文本分类模型进行训练,得到第一文本分类模型的步骤包括:采用预设的词向量转换模型,将所述训练文本转换为训练词向量序列;将所述训练词向量序列输入预设的待训练第一文本分类模型,获取所述待训练第一文本分类模型输出的所述训练词向量序列对应的类别概率;采用所述类别概率、预设的所述训练文本对应的训练标签信息以及所述软标签信息,计算联合交叉熵损失函数;对所述待训练第一文本分类模型进行优化,直至所述联合交叉熵损失函数达到最小,得到第一文本分类模型。11.一种翻译模型的训练方法,其特征在于,所述方法包括:采用预设的第一文本分类模型,确定预设的原始文本中的重要词;将所述原始文本中的重要词转换为变异词,得到所述原始文本对应的变异文本;采用所述原始文本以及所述原始文本对应的变异文本,对预设的待训练翻译模型进行
训练,得到翻译模型。12.根据权利要求11所述的方法,其特征在于,所述将所述原始文本中的重要词转换为变异词,得到所述原始文本对应的变异文本的步骤,包括:采用预设的变异词转换规则,将所述原始文本中的至少一个重要词,转换为变异词,得到所述原始文本对应的变异文本;获取所述变异文本与所述原始文本之间语义相似度;确定所述语义相似度是否大于预设阈值;若所述语义相似度大于预设阈值,将所述变异文本作为目标变异文本。13.根据权利要求11所述的方法,其特征在于,所述变异词转换规则包括音标转换规则、音近转换规则、形近转换规则、同义转换规则中的至少一种。14.根据权利要求12或13所述的方法,其特征在于,所述目标变异文本包括第一目标变异文本以及第二目标变异文本;所述若所述语义相似度大于预设阈值,将所述变异文本作为目标变异文本的步骤,包括:若所述语义相似度大于预设阈值,确定将所述变异文本输入预设的第二文本分类模型,获取所述变异文本对应的变异标签信息;确定所述变异文本对应的变异标签信息是否与预设的所述原始文本对应的原始标签信息相同;若所述变异标签信息与所述原始标签信息相同,将所述变异文本作为第二目标变异文本;若所述变异标签信息与所述原始标签信息不同,将所述变异文本作为第一目标变异文本。15.根据权利要求12或13所述的方法,其特征在于,所述采用预设的变异词转换规则,将所述原始文本中的至少一个重要词,转换为变异词,得到所述原始文本对应的变异文本的步骤,包括:针对所述原始文本中的一重要词,采用预设的变异词转换规则,生成所述重要词的变异词集合,所述变异词集合包括至少一个变异词;采用所述变异词集合中的变异词,替换所述重要词,得到至少一个第一替换文本;采用所述第一文本分类模型,获取所述原始文本、以及所述第一替换文本的文本分类信息;在所述第一替换文本中,查找所述第一替换文本的文本分类信息与所述原始文本的文本分类信息相差最大的目标第一替换文本;将所述目标第一替换文本对应的变异词,作为目标变异词;将所述原始文本中的重要词,转换为所述重要词对应的目标变异词,得到所述原始文本对应的变异文本。16.根据权利要求12所述的方法,其特征在于,所述方法还包括:采用所述目标变异文本以及所述原始标签信息,对所述第一文本分类模型进行训练,得到新的第一文本分类模型。17.根据权利要求14所述的方法,其特征在于,所述方法还包括:
将所述第一目标变异文本中的至少一个变异词替换为所述变异词对应的重要词,得到第二替换文本;将所述第二替换文本输入预设的第二文本分类模型,获取所述第二替换文本对应的替换标签信息;在所述第二替换文本中,查找所述第二替换文本对应的替换标签信息与所述原始文本对应的原始标签信息不同的目标第二替换文本;获取所述目标第二替换文本与所述原始文本之间的语义相似度;查找所述语义相似度最大的目标第二替换文本,作为第三目标变异文本。18.根据权利要求11所述的方法,其特征在于,所述采用预设的第一文本分类模型,确定预设的原始文本中的重要词的步骤,包括:将预设的原始文本输入预设的第一文本分类模型中,获取所述原始文本的文本分类信息;所述原始文本包括至少一个原始词;在所述原始文本中,去除所述原始词,得到重要性识别文本;将所述重要性识别文本输入预设的第一文本分类模型中,获取所述原始词对应的重要性信息;采用所述原始文本的文本分类信息以及所述重要性信息,确定所述原始文本中的重要词。19.根据权利要求11所述的方法,其特征在于,所述方法还包括:将预设的训练文本输入预设的第二文本分类模型中,获取所述训练文本对应的硬标签信息;对所述硬标签信息进行标签平滑处理,获取所述训练文本对应的软标签信息;采用所述训练文本、预设的所述训练文本对应的训练标签信息、以及所述软标签信息,对预设的待训练第一文本分类模型进行训练,得到第一文本分类模型。20.根据权利要求19所述的方法,其特征在于,所述采用所述训练文本、预设的所述训练文本对应的训练标签信息、以及所述软标签信息,对预设的待训练第一文本分类模型进行训练,得到第一文本分类模型的步骤包括:采用预设的词向量转换模型,将所述训练文本转换为训练词向量序列;将所述训练词向量序列输入预设的待训练第一文本分类模型,获取所述待训练第一文本分类模型输出的所述训练词向量序列对应的类别概率;采用所述类别概率、预设的所述训练文本对应的训练标签信息以及所述软标签信息,计算联合交叉熵损失函数;对所述待训练第一文本分类模型进行优化,直至所述联合交叉熵损失函数达到最小,得到第一文本分类模型。21.根据权利要求11所述的方法,其特征在于,所述待训练翻译模型包括编码器以及解码器;所述采用所述原始文本以及所述原始文本对应的变异文本,对预设的待训练翻译模型进行训练,得到翻译模型的步骤,包括:采用预设的词向量转换模型,将所述变异文本转换为第一词向量序列,将原始文本转换为第二词向量序列;
将所述第一词向量序列输入所述编码器中,将第二词向量序列输入解码器中,获取所述解码器输出的输出序列;采用所述输出序列以及所述第二词向量序列,确定解码损失函数;对所述待训练翻译模型进行优化,直至所述解码损失函数达到最小,得到翻译模型。22.根据权利要求21所述的方法,其特征在于,所述将所述第一词向量序列输入所述编码器中,将第二词向量序列输入解码器中,获取所述解码器输出的输出序列的步骤,包括:将所述第一词向量序列输入所述编码器中,获取所述编码器输出的第一向量;将所述第二词向量序列输入解码器中,采用上一时刻输入的文字、解码器的上一时刻的隐状态、以及第二向量,获取所述解码器中当前时刻的隐状态;所述第二向量采用所述第一向量进行加权处理得到;采用上一时刻输入的文字、当前时刻的解码器的隐状态、以及第二向量,确定当前时刻的输出向量;将所有时刻的输出向量,作为输出序列。23.一种文本分类方法,其特征在于,包括:获取待分类文本;将所述待分类文本输入翻译模型中,获取待分类翻译文本;将所述待分类翻译文本输入预设的第三文本分类模型中,获取所述待分类翻译文本对应的翻译标签信息。24.根据权利要求23所述的方法,其特征在于,所述将所述待分类翻译文本输入预设的第三文本分类模型中,获取所述待分类翻译文本对应的翻译标签信息的步骤,包括:采用预设的词向量转换模型,将所述待分类翻译文本转换为至少一种模态对应的模态词向量序列;将所述至少一种模态词向量序列拼接为输入词向量序列;将所述输入词向量序列输入预设的第三文本分类模型中,获取所述待分类翻译文本对应的翻译标签信息。25.根据权利要求24所述的方法,其特征在于,所述模态词向量序列包括语义词向量序列;所述词向量转换模型包括第一词向量转换模型;所述采用预设的词向量转换模型,将所述待分类翻译文本转换为至少一种模态词向量序列的步骤,包括:采用所述第一词向量转换模型,将所述待分类翻译文本转换为语义词向量序列。26.根据权利要求25所述的方法,其特征在于,所述模态词向量序列包括发音词向量序列;所述采用预设的词向量转换模型,将所述待分类翻译文本转换为至少一种模态词向量序列的步骤,包括:将所述待分类翻译文本转换为音标文本;采用所述第一词向量转换模型,将所述音标文本转换为发音词向量序列。27.根据权利要求24所述的方法,其特征在于,所述模态词向量包括视觉词向量序列;所述词向量转换模型包括第二词向量转换模型;所述采用预设的词向量转换模型,将所述待分类翻译文本转换为至少一种模态词向量
序列的步骤,包括:将所述待分类翻译文本转换为文本图片;采用所述第二词向量转换模型,将所述文本图片转换为视觉词向量序列。28.根据权利要求23~27任一项所述的方法,其特征在于,所述将所述待分类文本输入翻译模型中,获取待分类翻译文本的步骤,包括:采用预设的词向量转换模型,将所述待分类文本转换为待分类词向量序列;将所述待分类词向量序列输入翻译模型中,获取所述待分类翻译文本。29.一种变异文本的生成装置,其特征在于,所述装置包括:第一重要词确定模块,用于采用预设的第一文本分类模型,确定预设的原始文本中的重要词;第一变异文本生成模块,用于将所述原始文本中的重要词转换为变异词,得到所述原始文本对应的变异文本。30.根据权利要求29所述的装置,其特征在于,所述第一变异文本生成模块包括:第一变异文本生成子模块,用于采用预设的变异词转换规则,将所述原始文本中的至少一个重要词,转换为变异词,得到所述原始文本对应的变异文本;第一语义相似度获取子模块,用于获取所述变异文本与所述原始文本之间语义相似度;第一阈值确定子模块,用于确定所述语义相似度是否大于预设阈值;第一目标变异文本确定子模块,用于若所述语义相似度大于预设阈值,将所述变异文本作为目标变异文本。31.根据权利要求29所述的装置,其特征在于,所述变异词转换规则包括音标转换规则、音近转换规则、形近转换规则、同义转换规则中的至少一种。32.根据权利要求30或31所...
【专利技术属性】
技术研发人员:李进锋,张荣,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。