文本扰动检测方法、扰动还原方法、扰动处理方法和装置制造方法及图纸

技术编号:25950203 阅读:30 留言:0更新日期:2020-10-17 03:42
本申请公开了一种文本扰动检测方法、扰动还原方法、扰动处理方法和装置,涉及自然语言处理技术领域。其中,文本扰动检测方法包括:对第一文本进行分词,得到第一词序列;获取所述第一词序列的每个词的上下文向量表示;根据所述上下文向量表示,检测所述第一词序列中的扰动词。本申请根据上下文向量表示检测出文本中的扰动词,以实现文本扰动检测。在检测出扰动词之后,通过对扰动词进行掩码处理,并通过获取掩码标志的预估上下文向量表示来确定扰动词的替换词,以实现文本扰动还原。通过上述文本扰动检测和文本扰动还原过程,能够有效地消除文本扰动,从而能够提高文本审核效果。

【技术实现步骤摘要】
文本扰动检测方法、扰动还原方法、扰动处理方法和装置
本申请涉及数据处理技术,尤其涉及自然语言处理
,具体涉及一种文本扰动检测方法、扰动还原方法、扰动处理方法和装置。
技术介绍
自然语言处理(NaturalLanguageProcessing,简称NLP)技术是实现人机间的信息交流的重要一环。依托深度学习训练的自然语言处理模型已广泛应用,如信息检索、机器翻译、舆情监控、手机智能助手、自动问答、信息抽取、文本摘要等。为了构建良好的网络环境,需要通过文本审核模型对文本进行审核。然而,对文本添加扰动,可能导致文本审核模型作出错误回应,从而导致文本审核的效果较差。
技术实现思路
本申请提供了一种文本扰动检测方法、扰动还原方法、扰动处理方法和装置。根据第一方面,本申请提供了一种文本扰动检测方法,所述方法包括:对第一文本进行分词,得到第一词序列;获取所述第一词序列的每个词的上下文向量表示,所述上下文向量表示为融合了当前词的上下文信息的向量表示;根据所述上下文向量表示,检测所述第一词序列中的扰动词。根据第二方面,本申请提供了一种文本扰动还原方法,所述方法包括:将第一词序列中的第一扰动词替换为掩码标志,以得到第二词序列;其中,所述第一词序列为对第一文本进行分词得到的词序列;获取所述掩码标志的预估上下文向量表示,所述预估上下文向量表示为融合了所述掩码标志的上下文信息的向量表示;根据所述预估上下文向量表示,确定所述第一扰动词的替换词;将所述第一词序列中的所述第一扰动词替换为所述替换词,以得到第三词序列。根据第三方面,本申请提供了一种文本扰动处理方法,包括:所述方法包括:对第一文本进行分词,得到第一词序列;获取所述第一词序列的每个词的上下文向量表示,所述上下文向量表示为融合了当前词的上下文信息的向量表示;根据所述第一词序列的每个词的上下文向量表示,检测所述第一词序列中的扰动词,所述扰动词包括第一扰动词;将所述第一词序列中的所述第一扰动词替换为掩码标志,以得到第二词序列;获取所述掩码标志的预估上下文向量表示,所述预估上下文向量表示为融合了所述掩码标志的上下文信息的向量表示;根据所述预估上下文向量表示,确定所述第一扰动词的替换词;将所述第一词序列中的所述第一扰动词替换为所述替换词,以得到第三词序列。根据第四方面,本申请提供了一种文本扰动检测装置,包括:分词模块,用于对第一文本进行分词,得到第一词序列;获取模块,用于获取所述第一词序列的每个词的上下文向量表示,所述上下文向量表示为融合了当前词的上下文信息的向量表示;检测模块,用于根据所述上下文向量表示,检测所述第一词序列中的扰动词。根据第五方面,本申请提供了一种文本扰动还原装置,包括:第一替换模块,用于将第一词序列中的第一扰动词替换为掩码标志,以得到第二词序列;其中,所述第一词序列为对第一文本进行分词得到的词序列;获取模块,用于获取所述掩码标志的预估上下文向量表示,所述预估上下文向量表示为融合了所述掩码标志的上下文信息的向量表示;确定模块,用于根据所述预估上下文向量表示,确定所述第一扰动词的替换词;第二替换模块,用于将所述第一词序列中的所述第一扰动词替换为所述替换词,以得到第三词序列。根据第六方面,本申请提供了一种文本扰动处理装置,包括:分词模块,用于对第一文本进行分词,得到第一词序列;第一获取模块,用于获取所述第一词序列的每个词的上下文向量表示,所述上下文向量表示为融合了当前词的上下文信息的向量表示;检测模块,用于根据所述第一词序列的每个词的上下文向量表示,检测所述第一词序列中的扰动词,所述扰动词包括第一扰动词;第一替换模块,用于将所述第一词序列中的所述第一扰动词替换为掩码标志,以得到第二词序列;第二获取模块,用于获取所述掩码标志的预估上下文向量表示,所述预估上下文向量表示为融合了所述掩码标志的上下文信息的向量表示;确定模块,用于根据所述预估上下文向量表示,确定所述第一扰动词的替换词;第二替换模块,用于将所述第一词序列中的所述第一扰动词替换为所述替换词,以得到第三词序列。根据第七方面,本申请提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面中的任一项方法,或者,以使所述至少一个处理器能够执行第二方面中的任一项方法,或者,以使所述至少一个处理器能够执行第三方面中的任一项方法。根据第八方面,本申请提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面中的任一项方法,或者,所述计算机指令用于使所述计算机执行第二方面中的任一项方法,或者,以使所述至少一个处理器能够执行第三方面中的任一项方法。根据本申请的技术,通过对文本进行分词,获取每个词的上下文向量表示,根据上下文向量表示检测出文本中的扰动词,以实现文本扰动检测。在检测出扰动词之后,通过对扰动词进行掩码处理,获取掩码标志的预估上下文向量表示,根据预估上下文向量表示确定扰动词的替换词,以实现文本扰动还原。通过上述文本扰动检测和文本扰动还原过程,能够有效地消除文本扰动,在文本扰动消除之后再对文本进行审核,能够降低文本审核风险,提高文本审核效果,解决了现有技术中所存在的问题。应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请第一实施例的文本扰动检测方法的流程示意图;图2是根据本申请第一实施例的上下文向量表示处理示意图;图3是根据本申请第一实施例的扰动检测器的工作原理图;图4是根据本申请第一实施例的输入向量表示处理示意图;图5是根据本申请第二实施例的文本扰动还原方法的流程示意图;图6是根据本申请第二实施例的预估还原器的工作原理图;图7是根据本申请第三实施例的文本扰动处理方法的流程示意图;图8是根据本申请第三实施例的文本扰动处理的训练及应用示意图;图9是根据本申请第四实施例的文本扰动检测装置的结构示意图;图10是根据本申请第五实施例的文本扰动还原装置的结构示意图;图11是根据本申请第六实施例的文本扰动处理装置的结构示意图;图12是用来实现本申请实施例的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识本文档来自技高网...

【技术保护点】
1.一种文本扰动检测方法,其特征在于,所述方法包括:/n对第一文本进行分词,得到第一词序列;/n获取所述第一词序列的每个词的上下文向量表示,所述上下文向量表示为融合了当前词的上下文信息的向量表示;/n根据所述上下文向量表示,检测所述第一词序列中的扰动词。/n

【技术特征摘要】
1.一种文本扰动检测方法,其特征在于,所述方法包括:
对第一文本进行分词,得到第一词序列;
获取所述第一词序列的每个词的上下文向量表示,所述上下文向量表示为融合了当前词的上下文信息的向量表示;
根据所述上下文向量表示,检测所述第一词序列中的扰动词。


2.根据权利要求1所述的方法,其特征在于,所述获取所述第一词序列的每个词的上下文向量表示,包括:
获取所述第一词序列的每个词的输入向量表示,所述输入向量表示与当前词、当前词所属语句以及当前词在所属语句中所处位置有关;
根据所述第一词序列的每个词的输入向量表示,得到所述第一词序列的每个词的上下文向量表示。


3.根据权利要求2所述的方法,其特征在于,所述获取所述第一词序列的每个词的输入向量表示,包括:
获取所述第一词序列的每个词的词向量表示、语句向量表示和位置向量表示,所述语句向量表示为当前词所属语句的向量表示,所述位置向量表示为当前词在所属语句中所处位置的向量表示;
根据所述词向量表示、所述语句向量表示和所述位置向量表示,得到所述第一词序列的每个词的输入向量表示。


4.根据权利要求3所述的方法,其特征在于,所述词向量表示、所述语句向量表示和所述位置向量表示的维度相等;
所述根据所述词向量表示、所述语句向量表示和所述位置向量表示,得到所述第一词序列的每个词的输入向量表示,包括:
将所述词向量表示、所述语句向量表示和所述位置向量表示的对应位置相加,以得到所述第一词序列的每个词的输入向量表示。


5.一种文本扰动还原方法,其特征在于,所述方法包括:
将第一词序列中的第一扰动词替换为掩码标志,以得到第二词序列;其中,所述第一词序列为对第一文本进行分词得到的词序列;
获取所述掩码标志的预估上下文向量表示,所述预估上下文向量表示为融合了所述掩码标志的上下文信息的向量表示;
根据所述预估上下文向量表示,确定所述第一扰动词的替换词;
将所述第一词序列中的所述第一扰动词替换为所述替换词,以得到第三词序列。


6.根据权利要求5所述的方法,其特征在于,所述根据所述预估上下文向量表示,确定所述第一扰动词的替换词,包括:
在预先创建的向量表示语料库中,查找向量表示与所述预估上下文向量表示之间的距离在预设范围内的K个词,所述K为正整数;
从所述K个词中选择所述第一扰动词的替换词。


7.根据权利要求6所述的方法,其特征在于,所述从所述K个词中选择所述第一扰动词的替换词,包括:
从所述K个词中,选择与所述第一扰动词相似度最近的词作为所述替换词。


8.一种文本扰动处理方法,其特征在于,所述方法包括:
对第一文本进行分词,得到第一词序列;
获取所述第一词序列的每个词的上下文向量表示,所述上下文向量表示为融合了当前词的上下文信息的向量表示;
根据所述第一词序列的每个词的上下文向量表示,检测所述第一词序列中的扰动词,所述扰动词包括第一扰动词;...

【专利技术属性】
技术研发人员:王文华吕中厚王洋
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1