文本扰动检测方法、扰动还原方法、扰动处理方法和装置制造方法及图纸

技术编号：25950203 阅读：30 留言：0更新日期：2020-10-17 03:42

本申请公开了一种文本扰动检测方法、扰动还原方法、扰动处理方法和装置，涉及自然语言处理技术领域。其中，文本扰动检测方法包括：对第一文本进行分词，得到第一词序列；获取所述第一词序列的每个词的上下文向量表示；根据所述上下文向量表示，检测所述第一词序列中的扰动词。本申请根据上下文向量表示检测出文本中的扰动词，以实现文本扰动检测。在检测出扰动词之后，通过对扰动词进行掩码处理，并通过获取掩码标志的预估上下文向量表示来确定扰动词的替换词，以实现文本扰动还原。通过上述文本扰动检测和文本扰动还原过程，能够有效地消除文本扰动，从而能够提高文本审核效果。

全部详细技术资料下载

【技术实现步骤摘要】
文本扰动检测方法、扰动还原方法、扰动处理方法和装置
本申请涉及数据处理技术，尤其涉及自然语言处理
，具体涉及一种文本扰动检测方法、扰动还原方法、扰动处理方法和装置。
技术介绍
自然语言处理(NaturalLanguageProcessing，简称NLP)技术是实现人机间的信息交流的重要一环。依托深度学习训练的自然语言处理模型已广泛应用，如信息检索、机器翻译、舆情监控、手机智能助手、自动问答、信息抽取、文本摘要等。为了构建良好的网络环境，需要通过文本审核模型对文本进行审核。然而，对文本添加扰动，可能导致文本审核模型作出错误回应，从而导致文本审核的效果较差。
技术实现思路
本申请提供了一种文本扰动检测方法、扰动还原方法、扰动处理方法和装置。根据第一方面，本申请提供了一种文本扰动检测方法，所述方法包括：对第一文本进行分词，得到第一词序列；获取所述第一词序列的每个词的上下文向量表示，所述上下文向量表示为融合了当前词的上下文信息的向量表示；根据所述上下文向量表示，检测所述第一词序列中的扰动词。根据第二方面，本申请提供了一种文本扰动还原方法，所述方法包括：将第一词序列中的第一扰动词替换为掩码标志，以得到第二词序列；其中，所述第一词序列为对第一文本进行分词得到的词序列；获取所述掩码标志的预估上下文向量表示，所述预估上下文向量表示为融合了所述掩码标志的上下文信息的向量表示；根据所述预估上下文向量表示，确定所述第一扰动词的替换词；将所述第...

【技术保护点】
1.一种文本扰动检测方法，其特征在于，所述方法包括：/n对第一文本进行分词，得到第一词序列；/n获取所述第一词序列的每个词的上下文向量表示，所述上下文向量表示为融合了当前词的上下文信息的向量表示；/n根据所述上下文向量表示，检测所述第一词序列中的扰动词。/n

【技术特征摘要】
1.一种文本扰动检测方法，其特征在于，所述方法包括：
对第一文本进行分词，得到第一词序列；
获取所述第一词序列的每个词的上下文向量表示，所述上下文向量表示为融合了当前词的上下文信息的向量表示；
根据所述上下文向量表示，检测所述第一词序列中的扰动词。

2.根据权利要求1所述的方法，其特征在于，所述获取所述第一词序列的每个词的上下文向量表示，包括：
获取所述第一词序列的每个词的输入向量表示，所述输入向量表示与当前词、当前词所属语句以及当前词在所属语句中所处位置有关；
根据所述第一词序列的每个词的输入向量表示，得到所述第一词序列的每个词的上下文向量表示。

3.根据权利要求2所述的方法，其特征在于，所述获取所述第一词序列的每个词的输入向量表示，包括：
获取所述第一词序列的每个词的词向量表示、语句向量表示和位置向量表示，所述语句向量表示为当前词所属语句的向量表示，所述位置向量表示为当前词在所属语句中所处位置的向量表示；
根据所述词向量表示、所述语句向量表示和所述位置向量表示，得到所述第一词序列的每个词的输入向量表示。

4.根据权利要求3所述的方法，其特征在于，所述词向量表示、所述语句向量表示和所述位置向量表示的维度相等；
所述根据所述词向量表示、所述语句向量表示和所述位置向量表示，得到所述第一词序列的每个词的输入向量表示，包括：
将所述词向量表示、所述语句向量表示和所述位置向量表示的对应位置相加，以得到所述第一词序列的每个词的输入向量表示。

5.一种文本扰动还原方法，其特征在于，所述方法包括：
将第一词序列中的第一扰动词替换为掩码标志，以得到第二词序列；其中，所述第一词序列为对第一文本进行分词得到的词序列；
获取所述掩码标志的预估上下文向量表示，所述预估上下文向量表示为融合了所述掩码标志的上下文信息的向量表示；
根据所述预估上下文向量表示，确定所述第一扰动词的替换词；
将所述第一词序列中的所述第一扰动词替换为所述替换词，以得到第三词序列。

6.根据权利要求5所述的方法，其特征在于，所述根据所述预估上下文向量表示，确定所述第一扰动词的替换词，包括：
在预先创建的向量表示语料库中，查找向量表示与所述预估上下文向量表示之间的距离在预设范围内的K个词，所述K为正整数；
从所述K个词中选择所述第一扰动词的替换词。

7.根据权利要求6所述的方法，其特征在于，所述从所述K个词中选择所述第一扰动词的替换词，包括：
从所述K个词中，选择与所述第一扰动词相似度最近的词作为所述替换词。

8.一种文本扰动处理方法，其特征在于，所述方法包括：
对第一文本进行分词，得到第一词序列；
获取所述第一词序列的每个词的上下文向量表示，所述上下文向量表示为融合了当前词的上下文信息的向量表示；
根据所述第一词序列的每个词的上下文向量表示，检测所述第一词序列中的扰动词，所述扰动词包括第一扰动词；...

【专利技术属性】
技术研发人员：王文华，吕中厚，王洋，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人