【技术实现步骤摘要】
文本扰动检测方法、扰动还原方法、扰动处理方法和装置
本申请涉及数据处理技术,尤其涉及自然语言处理
,具体涉及一种文本扰动检测方法、扰动还原方法、扰动处理方法和装置。
技术介绍
自然语言处理(NaturalLanguageProcessing,简称NLP)技术是实现人机间的信息交流的重要一环。依托深度学习训练的自然语言处理模型已广泛应用,如信息检索、机器翻译、舆情监控、手机智能助手、自动问答、信息抽取、文本摘要等。为了构建良好的网络环境,需要通过文本审核模型对文本进行审核。然而,对文本添加扰动,可能导致文本审核模型作出错误回应,从而导致文本审核的效果较差。
技术实现思路
本申请提供了一种文本扰动检测方法、扰动还原方法、扰动处理方法和装置。根据第一方面,本申请提供了一种文本扰动检测方法,所述方法包括:对第一文本进行分词,得到第一词序列;获取所述第一词序列的每个词的上下文向量表示,所述上下文向量表示为融合了当前词的上下文信息的向量表示;根据所述上下文向量表示,检测所述第一词序列中的扰动词。根据第二方面,本申请提供了一种文本扰动还原方法,所述方法包括:将第一词序列中的第一扰动词替换为掩码标志,以得到第二词序列;其中,所述第一词序列为对第一文本进行分词得到的词序列;获取所述掩码标志的预估上下文向量表示,所述预估上下文向量表示为融合了所述掩码标志的上下文信息的向量表示;根据所述预估上下文向量表示,确定所述第一扰动词的替换词;将所述第 ...
【技术保护点】
1.一种文本扰动检测方法,其特征在于,所述方法包括:/n对第一文本进行分词,得到第一词序列;/n获取所述第一词序列的每个词的上下文向量表示,所述上下文向量表示为融合了当前词的上下文信息的向量表示;/n根据所述上下文向量表示,检测所述第一词序列中的扰动词。/n
【技术特征摘要】
1.一种文本扰动检测方法,其特征在于,所述方法包括:
对第一文本进行分词,得到第一词序列;
获取所述第一词序列的每个词的上下文向量表示,所述上下文向量表示为融合了当前词的上下文信息的向量表示;
根据所述上下文向量表示,检测所述第一词序列中的扰动词。
2.根据权利要求1所述的方法,其特征在于,所述获取所述第一词序列的每个词的上下文向量表示,包括:
获取所述第一词序列的每个词的输入向量表示,所述输入向量表示与当前词、当前词所属语句以及当前词在所属语句中所处位置有关;
根据所述第一词序列的每个词的输入向量表示,得到所述第一词序列的每个词的上下文向量表示。
3.根据权利要求2所述的方法,其特征在于,所述获取所述第一词序列的每个词的输入向量表示,包括:
获取所述第一词序列的每个词的词向量表示、语句向量表示和位置向量表示,所述语句向量表示为当前词所属语句的向量表示,所述位置向量表示为当前词在所属语句中所处位置的向量表示;
根据所述词向量表示、所述语句向量表示和所述位置向量表示,得到所述第一词序列的每个词的输入向量表示。
4.根据权利要求3所述的方法,其特征在于,所述词向量表示、所述语句向量表示和所述位置向量表示的维度相等;
所述根据所述词向量表示、所述语句向量表示和所述位置向量表示,得到所述第一词序列的每个词的输入向量表示,包括:
将所述词向量表示、所述语句向量表示和所述位置向量表示的对应位置相加,以得到所述第一词序列的每个词的输入向量表示。
5.一种文本扰动还原方法,其特征在于,所述方法包括:
将第一词序列中的第一扰动词替换为掩码标志,以得到第二词序列;其中,所述第一词序列为对第一文本进行分词得到的词序列;
获取所述掩码标志的预估上下文向量表示,所述预估上下文向量表示为融合了所述掩码标志的上下文信息的向量表示;
根据所述预估上下文向量表示,确定所述第一扰动词的替换词;
将所述第一词序列中的所述第一扰动词替换为所述替换词,以得到第三词序列。
6.根据权利要求5所述的方法,其特征在于,所述根据所述预估上下文向量表示,确定所述第一扰动词的替换词,包括:
在预先创建的向量表示语料库中,查找向量表示与所述预估上下文向量表示之间的距离在预设范围内的K个词,所述K为正整数;
从所述K个词中选择所述第一扰动词的替换词。
7.根据权利要求6所述的方法,其特征在于,所述从所述K个词中选择所述第一扰动词的替换词,包括:
从所述K个词中,选择与所述第一扰动词相似度最近的词作为所述替换词。
8.一种文本扰动处理方法,其特征在于,所述方法包括:
对第一文本进行分词,得到第一词序列;
获取所述第一词序列的每个词的上下文向量表示,所述上下文向量表示为融合了当前词的上下文信息的向量表示;
根据所述第一词序列的每个词的上下文向量表示,检测所述第一词序列中的扰动词,所述扰动词包括第一扰动词;...
【专利技术属性】
技术研发人员:王文华,吕中厚,王洋,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。