【技术实现步骤摘要】
语句增强方法和语句增强装置
[0001]本申请涉及人工智能领域,尤其涉及一种语句增强方法和语句增强装置。
技术介绍
[0002]随着人工智能技术快速发展,自然语言处理技术的应用越来越多。在机器翻译,智能对话系统等场景中自然语言处理技术发挥着重要作用,如常用的数据增强的方法包括同义词替换、随即插入、随即交换、随机删除、回译、生成对抗网络等。
[0003]但是在一些专业性强的文本语料中,随机删除可能会出现句意缺失、句意改变的情况,导致增强得到的数据质量不佳。
技术实现思路
[0004]本申请提供了一种语句增强方法和语句增强装置,提高了增强语句的质量。
[0005]第一方面,提供了一种语句增强方法,包括:将目标语句输入预测模型,输出预测语句,上述预测语句中携带有删除标签;删除上述目标语句中与上述删除标签对应的目标词语,获得增强后的目标语句;其中,上述预测模型是通过携带有删除标签的训练语句训练语言表征模型获得的。
[0006]在本申请中,可以通过预测模型预测目标语句中可以删除的词语,获得增强后 ...
【技术保护点】
【技术特征摘要】
1.一种语句增强方法,其特征在于,包括:将目标语句输入预测模型,输出预测语句,所述预测语句中携带有删除标签;删除所述目标语句中与所述删除标签对应的目标词语,获得增强后的目标语句;其中,所述预测模型是通过携带有删除标签的训练语句训练语言表征模型获得的。2.根据权利要求1所述的方法,其特征在于,所述在所述将目标语句输入预测模型,输出预测语句之前,所述方法还包括:将所述携带有删除标签的训练语句输入所述语言表征模型,获得所述语言标注模型的输出结果;基于所述语言表征模型的输出结果,获得所述语言表征模型的损失;在确定所述损失满足条件的情况下,获得所述预测模型。3.根据权利要求2所述的方法,其特征在于,所述在所述将所述携带有删除标签的训练语句输入所述语言表征模型之前,所述方法还包括:获得第一样本语句;在所述第一样本语句中插入掩码,获得第二样本语句;预测所述第二样本语句中的掩码对应的词语,确定目标样本语句;基于所述目标样本语句,获得所述携带有删除标签的训练语句。4.根据权利要求3所述的方法,其特征在于,所述目标样本语句是通过将所述第二样本语句输入所述语言表征模型获得的。5.根据权利要求3所述的方法,其特征在于,所述语言表征模型的词表中包括所述删除标签对应的目标词语,所述基于所述目标样本语句,获得所述携带有删除标签的训练语句,包括:将所述目标样本语句输入所述语言表征模型,输出所述携带目标词语标签的训练语句;其中,所述目标词语是将所述词表中的未定义词语替换为所述目标词语获得的。6.根据权利要求3所述的方法,其特征在于,所述预测所述第二样...
【专利技术属性】
技术研发人员:张晓雷,薛征山,
申请(专利权)人:OPPO广东移动通信有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。