一种文本预测方法和装置制造方法及图纸

技术编号:39430991 阅读:12 留言:0更新日期:2023-11-19 16:15
本申请实施例提供了一种文本预测方法,该方法包括:基于初始预测模型确定输入样本对应的对抗样本和难负例表征;根据对抗样本和难负例表征对初始预测模型进行训练,获得目标预测模型;基于目标预测模型对待预测文本进行预测,确定待预测文本对应的预测结果

【技术实现步骤摘要】
一种文本预测方法和装置、及存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种文本预测方法和装置

及存储介质


技术介绍

[0002]随着信息化时代的来临,文本数据的规模在呈指数级的暴涨,在实际使用场景中,由于数据的来源和产生环境各异,其质量也难以得到有效保证,比如,现实中的文本可能包含口语化表述

方言词汇

自动语音识别
(Automatic Speech Recognition

ASR)
转录错误等多种错误

这样的文本质量经常会导致线上的人工智能
(Artificial Intelligence

AI)
服务难以准确理解其真实语义,从而导致错误的推理

[0003]而目前常见的解决方案都需要先进行人工设计以获取对抗样本来增强模型的鲁棒性,这不仅极大地耗费了从业人员的精力,且受限于当前数据集的规模和质量,难以从模型层面真正提升鲁棒性,进而降低了模型的文本预测效果和准确性


技术实现思路

[0004]本申请实施例提供了一种文本预测方法和装置

及存储介质,可以从模型层面真正提升鲁棒性,从而提升了模型的文本预测效果和准确性

[0005]本申请实施例的技术方案是这样实现的:
[0006]第一方面,本申请实施例提供了一种文本预测方法,所述文本预测方法包括:
[0007]基于初始预测模型确定输入样本对应的对抗样本和难负例表征;
[0008]根据所述对抗样本和所述难负例表征对所述初始预测模型进行训练,获得目标预测模型;
[0009]基于所述目标预测模型对待预测文本进行预测,确定所述待预测文本对应的预测结果

[0010]第二方面,本申请实施例提供了一种文本预测装置,所述文本预测装置包括:确定单元,训练单元,预测单元;
[0011]所述确定单元,用于基于初始预测模型确定输入样本对应的对抗样本和难负例表征;
[0012]所述训练单元,用于根据所述对抗样本和所述难负例表征对所述初始预测模型进行训练,获得目标预测模型;
[0013]所述预测单元,用于基于所述目标预测模型对待预测文本进行预测,确定所述待预测文本对应的预测结果

[0014]第三方面,本申请实施例提供了一种文本预测装置,所述文本预测装置包括:处理器和存储器;其中,
[0015]所述存储器,用于存储能够在所述处理器上运行的计算机程序;
[0016]所述处理器,用于在运行所述计算机程序时,执行如上所述的文本预测方法

[0017]第四方面,本申请实施例提供了一种计算机可读存储介质,其特征在于,所述存储
介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时,实现如上所述的文本预测方法

[0018]本申请实施例提供了一种文本预测方法和装置

及存储介质,文本预测装置基于初始预测模型确定输入样本对应的对抗样本和难负例表征;根据对抗样本和难负例表征对初始预测模型进行训练,获得目标预测模型;基于目标预测模型对待预测文本进行预测,确定待预测文本对应的预测结果

由此可见,文本预测装置可以基于初始预测模型确定输入样本对应的对抗样本和难负例表征,即本申请可以不借助于外部数据库或者人工设计来获得对抗样本和难负例表征,然后可以根据对抗样本和难负例表征对初始预测模型进行训练,获得目标预测模型,进而可以基于目标预测模型对待预测文本进行预测,确定待预测文本对应的预测结果

也就是说,本申请可以完全基于自监督学习的方式,直接通过初始预测模型来获取对抗样本和难负例表征,进而可以基于对抗样本和难负例表征对初始预测模型进行训练,以此来增强模型的鲁棒性,从而提升了模型的文本预测效果和准确性

附图说明
[0019]图1为本申请实施例提出的文本预测方法示意图;
[0020]图2为本申请实施例提出的初始预测模型示意图;
[0021]图3为本申请实施例提出的确定第一文本表征和第二文本表征流程示意图;
[0022]图4为本申请实施例提出的确定对抗样本流程示意图;
[0023]图5为本申请实施例提出的确定难负例表征流程示意图;
[0024]图6为本申请实施例提出的文本预测流程示意图;
[0025]图7为本申请实施例提出的文本预测装置的组成结构示意图一;
[0026]图8为本申请实施例提出的文本预测装置的组成结构示意图二

具体实施方式
[0027]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚

完整地描述

可以理解的是,此处所描述的具体实施例仅用于解释相关申请,而非对该申请的限定

另外还需要说明的是,为了便于描述,附图中仅示出了与有关申请相关的部分

[0028]随着信息化时代的来临,文本数据的规模在呈指数级的暴涨

而其中,作为个体用户,每天接触到的信息也越来越多

那么,如何有效地利用数据中有用的信息,以进一步提升人们的生活质量,增加社会的智能化程度,就成为了一个科研难题

中国移动通信公司作为全球领先的运营商,有效掌握如何利用文本数据,提升其亿万用户的使用体验,便成为了智能化服务的重点

近年来,大量研究表明,基于深度学习模型的人工智能系统,可能对有意或无意的输入扰动非常敏感,对安全至关重要的应用构成巨大风险

在实际使用场景中,由于数据的来源和产生环境各异,其质量也难以得到有效保证,比如现实中的文本可能包含口语化表述

方言词汇

倒装

自动语音识别
(Automatic Speech Recognition

ASR)
转录错误

拼写错误

黑客攻击等多种错误

这样的文本质量经常会导致线上的人工智能
(Artificial Intelligence

AI)
服务难以准确理解其真实语义,从而导致错误的推理,甚至可能被对抗文本和数据投毒等输入进行诱导,严重危害用户的使用体验和切身利益

因此,如何设计一个具备高度鲁棒性的自然语言理解策略,便成为了解决上述问题的一个重


[0029]在对文本语义的处理技术中,自然语言理解
(Natural Language Understanding

NLU)
是其中的一个关键环节,主要包含了意图识别<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本预测方法,所述方法包括:基于初始预测模型确定输入样本对应的对抗样本和难负例表征;根据所述对抗样本和所述难负例表征对所述初始预测模型进行训练,获得目标预测模型;基于所述目标预测模型对待预测文本进行预测,确定所述待预测文本对应的预测结果
。2.
根据权利要求1所述的方法,其特征在于,所述初始预测模型包括第一编码器

第二编码器以及第三编码器
。3.
根据权利要求2所述的方法,其特征在于,所述基于初始预测模型确定输入样本对应的对抗样本,包括:将所述输入样本输入至所述第一编码器,确定第一文本表征;将所述输入样本输入至所述第二编码器,确定第二文本表征;根据所述第一文本表征和所述第二文本表征确定所述对抗样本
。4.
根据权利要求2所述的方法,其特征在于,所述根据所述第一文本表征和所述第二文本表征确定所述对抗样本,包括:基于所述第一文本表征

所述第二文本表征和双边判定器确定所述对抗样本
。5.
根据权利要求2所述的方法,其特征在于,所述方法还包括:将所述输入样本输入至所述第三编码器,确定第一输入样本表征;基于所述第一输入样本表征确定第二输入样本表征
。6.
根据权利要求5所述的方法,其特征在于,所述基于初始预测模型确定输入样本对应的难负例表征,包括:基于所述第一输入样本表征和所述第二输入样本表征确定所述难负例表征
。7.
根据权利要求6所述的方法,其特征在于,所述根据所述对抗样本和所述难负例表征对所述初始预测模型进行训练,获得目标预测模型,包括:基于所述对抗样本确定第一损失函数;基于所述难负例表征...

【专利技术属性】
技术研发人员:刘杰高珊
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1