文本处理方法,文本分类方法及情感识别方法技术

技术编号:38141024 阅读:7 留言:0更新日期:2023-07-08 09:55
本说明书实施例提供文本处理方法,文本分类方法及情感识别方法,其中所述文本处理方法包括:获取待处理文本,对待处理文本分别进行序列编码和语义编码,得到待处理文本的序列表征和语义表征,根据序列表征,利用预训练的脱敏模型,生成对应的噪声扰动,其中,脱敏模型是根据样本文本的样本语义表征和样本文本的样本脱敏语义表征进行敏感信息识别的对抗训练得到的,利用噪声扰动,对语义表征进行加噪处理,得到脱敏语义表征,根据脱敏语义表征,进行文本处理,得到目标处理结果。利用经过敏感信息识别的对抗训练的脱敏模型,生成高针对性的噪声扰动,得到高公平性的脱敏语义表征,提升了文本处理公平性和效率,降低了处理成本,具有良好通用性。有良好通用性。有良好通用性。

【技术实现步骤摘要】
文本处理方法,文本分类方法及情感识别方法


[0001]本说明书实施例涉及文本处理
,特别涉及文本处理方法。

技术介绍

[0002]随着计算机技术的发展,利用预训练(Pre

train)和微调(Fine

tune)得到神经网络模型,已经成为了自然语言处理的新范式,在机器翻译、智能客服、情感识别、内容安全识别等诸多方面得到广泛应用。
[0003]目前,以BERT模型(Bidirectional Encoder Representation from Transformers,双向编码表征翻译模型)、RoBERTa(ARobustly Optimized BERTPretrainingApproach,强力优化BERT方法模型)等为代表的大规模自然语言处理的神经网络模型,对文本进行语义编码后,基于编码得到的语义表征进行文本处理,得到对应的处理结果,然而,在神经网络模型的预训练和微调过程中,由于样本文本存在偏差和偏见,导致利用预训练和微调得到的神经网络模型对待处理文本的语义编码带入了偏差与偏见,进一步使得基于有偏差与偏见的语义表征影响文本处理的公平性,得到不公平的文本处理结果。因此,亟需一种高公平性的文本处理方法。

技术实现思路

[0004]有鉴于此,本说明书实施例提供了一种文本处理方法。本说明书一个或者多个实施例同时涉及一种文本分类方法,一种情感识别方法,一种文本处理的数据处理方法,一种文本处理装置,一种文本分类装置,一种情感识别装置,一种文本处理的数据处理装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
[0005]根据本说明书实施例的第一方面,提供了一种文本处理方法,包括:
[0006]获取待处理文本;
[0007]对待处理文本分别进行序列编码和语义编码,得到待处理文本的序列表征和语义表征;
[0008]根据序列表征,利用预训练的脱敏模型,生成对应的噪声扰动,其中,脱敏模型是根据样本文本的样本语义表征和样本文本的样本脱敏语义表征进行敏感信息识别的对抗训练得到的;
[0009]利用噪声扰动,对语义表征进行加噪处理,得到脱敏语义表征;
[0010]根据脱敏语义表征,进行文本处理,得到目标处理结果。
[0011]根据本说明书实施例的第二方面,提供了一种文本分类方法,包括:
[0012]获取待分类文本;
[0013]对待分类文本分别进行序列编码和语义编码,得到待分类文本的序列表征和语义表征;
[0014]根据序列表征,利用预训练的脱敏模型,生成对应的噪声扰动,其中,脱敏模型是
根据样本文本的样本语义表征和样本文本的样本脱敏语义表征进行敏感信息识别的对抗训练得到的;
[0015]利用噪声扰动,对语义表征进行加噪处理,得到脱敏语义表征;
[0016]根据脱敏语义表征,进行文本分类,得到文本分类结果。
[0017]根据本说明书实施例的第三方面,提供了一种情感识别方法,包括:
[0018]获取待识别文本;
[0019]对待识别文本分别进行序列编码和语义编码,得到待识别文本的序列表征和语义表征;
[0020]根据序列表征,利用预训练的脱敏模型,生成对应的噪声扰动,其中,脱敏模型是根据样本文本的样本语义表征和样本文本的样本脱敏语义表征进行敏感信息识别的对抗训练得到的;
[0021]利用噪声扰动,对语义表征进行加噪处理,得到脱敏语义表征;
[0022]根据脱敏语义表征,进行情感识别,得到情感识别结果。
[0023]根据本说明书实施例的第四方面,提供了一种文本处理的数据处理方法,应用于云侧设备,包括:
[0024]获取样本文本集,其中,样本文本集包括多个样本文本;
[0025]从样本文本集中提取第一样本文本,其中,第一样本文本为多个样本文本中任一个;
[0026]对第一样本文本分别进行序列编码和语义编码,得到样本序列表征和样本语义表征;
[0027]根据样本序列表征,利用生成对抗模型的生成器,生成对应的样本噪声扰动;
[0028]利用样本噪声扰动,对样本语义表征进行加噪处理,得到样本脱敏语义表征;
[0029]根据样本语义表征和样本脱敏语义表征,利用生成对抗模型的判别器,计算得到敏感信息的判别损失值;
[0030]根据判别损失值,调整生成器和判别器的模型参数,返回执行从样本文本集中提取第一样本文本的步骤,在满足预设训练结束条件的情况下,得到训练完成的生成器;
[0031]将生成器的模型参数发送至端侧设备。
[0032]根据本说明书实施例的第五方面,提供了一种文本处理装置,包括:
[0033]第一获取模块,被配置为获取待处理文本;
[0034]第一编码模块,被配置为对待处理文本分别进行序列编码和语义编码,得到待处理文本的序列表征和语义表征;
[0035]第一生成模块,被配置为根据序列表征,利用预训练的脱敏模型,生成对应的噪声扰动,其中,脱敏模型是根据样本文本的样本语义表征和样本文本的样本脱敏语义表征进行敏感信息识别的对抗训练得到的;
[0036]第一加噪模块,被配置为利用噪声扰动,对语义表征进行加噪处理,得到脱敏语义表征;
[0037]处理模块,被配置为根据脱敏语义表征,进行文本处理,得到目标处理结果。
[0038]根据本说明书实施例的第六方面,提供了一种文本分类装置,包括:
[0039]第二获取模块,被配置为获取待分类文本;
[0040]第二编码模块,被配置为对待分类文本分别进行序列编码和语义编码,得到待分类文本的序列表征和语义表征;
[0041]第二生成模块,被配置为根据序列表征,利用预训练的脱敏模型,生成对应的噪声扰动,其中,脱敏模型是根据样本文本的样本语义表征和样本文本的样本脱敏语义表征进行敏感信息识别的对抗训练得到的;
[0042]第二加噪模块,被配置为利用噪声扰动,对语义表征进行加噪处理,得到脱敏语义表征;
[0043]分类模块,被配置为根据脱敏语义表征,进行文本分类,得到文本分类结果。
[0044]根据本说明书实施例的第七方面,提供了一种情感识别装置,包括:
[0045]第三获取模块,被配置为获取待识别文本;
[0046]第三编码模块,被配置为对待识别文本分别进行序列编码和语义编码,得到待识别文本的序列表征和语义表征;
[0047]第三生成模块,被配置为根据序列表征,利用预训练的脱敏模型,生成对应的噪声扰动,其中,脱敏模型是根据样本文本的样本语义表征和样本文本的样本脱敏语义表征进行敏感信息识别的对抗训练得到的;
[0048]第三加噪模块,被配置为利用噪声扰动,对语义表征进行加噪处理,得到脱敏语义表征;
[0049]识别模块,被配置为根据脱敏语义表征,进行情感识别,得到情感识别结果。...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,包括:获取待处理文本;对所述待处理文本分别进行序列编码和语义编码,得到所述待处理文本的序列表征和语义表征;根据所述序列表征,利用预训练的脱敏模型,生成对应的噪声扰动,其中,所述脱敏模型是根据样本文本的样本语义表征和所述样本文本的样本脱敏语义表征进行敏感信息识别的对抗训练得到的;利用所述噪声扰动,对所述语义表征进行加噪处理,得到脱敏语义表征;根据所述脱敏语义表征,进行文本处理,得到目标处理结果。2.根据权利要求1所述的方法,所述脱敏模型为生成对抗模型的生成器。3.根据权利要求1或2所述的方法,所述根据所述脱敏语义表征,进行文本处理,得到目标处理结果,包括:根据所述脱敏语义表征,利用预训练的文本决策模型进行文本处理,得到目标处理结果。4.根据权利要求2所述的方法,在所述根据所述序列表征,利用预训练的脱敏模型,生成对应的噪声扰动之前,还包括:获取样本文本集,其中,所述样本文本集包括多个样本文本;从所述样本文本集中提取第一样本文本,其中,所述第一样本文本为所述多个样本文本中任一个;对所述第一样本文本分别进行序列编码和语义编码,得到样本序列表征和样本语义表征;根据所述样本序列表征,利用生成对抗模型的生成器,生成对应的样本噪声扰动;利用所述样本噪声扰动,对所述样本语义表征进行加噪处理,得到样本脱敏语义表征;根据所述样本语义表征和所述样本脱敏语义表征,利用所述生成对抗模型的判别器,计算得到敏感信息的判别损失值;根据所述判别损失值,调整所述生成器和所述判别器的模型参数,返回执行所述从所述样本文本集中提取第一样本文本的步骤,在满足预设训练结束条件的情况下,得到训练完成的所述生成器。5.根据权利要求4所述的方法,所述根据所述样本语义表征和所述样本脱敏语义表征,利用生成对抗模型的判别器,计算得到敏感信息的判别损失值,包括:根据所述样本语义表征,利用所述生成对抗模型的判别器,预测得到对应的第一敏感信息;根据所述样本脱敏语义表征,利用所述判别器,预测得到对应的第二敏感信息;根据所述第一敏感信息和所述第二敏感信息,计算得到敏感信息的判别损失值。6.根据权利要求4所述的方法,所述根据所述判别损失值,调整所述生成器和所述判别器的模型参数,包括:根据所述判别损失值,按照预设的对抗训练策略,交替调整所述生成器和所述判别器的模型参数。7.根据权利要求4所述的方法,在所述返回执行所述从所述样本文本集中提取第一样
本文本的步骤之前,还包括:根据所述样本语义表征和所述样本脱敏语义表征,利用预训练的文本决策模型,计算得到语义损失值;根据所述语义损失值,调整所述生成器和所述文本决策模型的模型参数。8.根据权利要求7所述的方法,所述根据所述样本语义表征和所述样本脱敏语义表征,利用预训练的文本决策模型,计算得到语义损失值,包括:根据所述样本语义表征,利用预训练的文本决策模型进行语义分类,得到对应的第一语义类别;根据所述样本脱敏语义表征,利...

【专利技术属性】
技术研发人员:李进锋刘翔宇张荣薛晖
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1