一种降低语义识别计算量的方法、系统及存储介质技术方案

技术编号：33650441 阅读：14 留言：0更新日期：2022-06-02 20:28

本发明专利技术涉及自然语言处理领域，特别涉及一种降低语义识别计算量的方法、系统及存储介质。本发明专利技术的降低语义识别计算量的方法包括如下步骤：获取预训练模型；对预训练模型增加训练优化训练目标成为最终训练模型；将待识别文本输入最终训练模型；输出待识别文本语义。通过增加训练优化训练目标的设计，使得无需改变模型的结构就能提升训练的精确性和模型的鲁棒性，同时还降低了模型的复杂程度，降低了模型的计算量，解决了现有技术模型的计算量过大的问题。的问题。的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种降低语义识别计算量的方法、系统及存储介质

[0001]本专利技术涉及自然语言处理领域，特别涉及一种降低语义识别计算量的方法、系统及存储介质。

技术介绍

[0002]近年来，预训练模型成为了自然语言处理 (NLP)领域的新范式。预训练模型是一种迁移学习的应用，通过自监督学习从大规模数据中训练得到与具体任务无关的预训练模型，利用几乎无限的文本，学习输入句子的每一个词语单元的上下文相关的表示，从而隐式地学习通用的语法语义知识，并可通过微调的方式用在任何的下游任务上。
[0003]以BERT为代表的判别式预训练语言模型，采用基于掩码的预训练方法(MLM)，或称为去噪策略，其过程分为两个阶段，首先是通过ennoising 的方法，例如将句子中一定比例的词mask掉，来构建训练样本，然后训练语言模型去还原被破坏的句子。
[0004]由于通常采用随机破坏方法，样本的预测难易度不同，模型在denoising训练时的梯度更新强度与样本难度之间缺乏一致性，导致训练不稳定。此外，以上方法也会带来假负例，即还原出来与原始句子不同，而实际上也合法的句子。模型通常采用交叉熵训练，上述样本则都会被判断为错误预测，导致训练不准确。
[0005]现有的一些方案通过语言学相关的任务来引导模型学习人类语言结构，包括语言表示层面和注意力架构层面。具体而言，前者将标注的词性标签、实体标签或语言角色标签等语言学信息通过词嵌入的方式融合到词语表示中，作为语言学标签的增强；后者通过句法结构解析，得到词和词之间的关系，构建关系矩阵...

【技术保护点】

【技术特征摘要】
1.一种降低语义识别计算量的方法，其特征在于：包括以下步骤：获取预训练模型；对预训练模型增加训练优化训练目标成为最终训练模型；将待识别文本输入最终训练模型；输出待识别文本语义。2.如权利要求1所述的降低语义识别计算量的方法，其特征在于：所述获取预训练模型的具体步骤包括：获取原始句子W，设立第一训练目标；将原始句子W拆分成子词原始序列，对原始句子W的子词原始序列进行随机遮盖以生成遮盖后句子W
’
和遮盖后序列；将所述遮盖后句子W
’
输入语言模型，得到编码后的上下文表示H，并通过第一训练目标训练模型获得预训练模型。3.如权利要求1所述的降低语义识别计算量的方法，其特征在于：所述训练优化训练目标为评估去噪策略对原始句子的破坏度和/或评估预测句子与原始句子之间的语义距离。4.如权利要求3所述的降低语义识别计算量的方法，其特征在于：评估去噪策略对句子的破坏度具体为：计算原始序列和遮盖后序列之间的KL散度并作为第二训练目标。5.如权利要求4所述的降低语义识别计算量的方法，其特征在于：评估预测句子与原始句子之间的语义距离包括以下步骤：通过预训练模型获取原始句子样本W中被遮盖位置的预测字词，并回填至原始句子样本W中被遮盖位置生成预测句子；将预测句子拆分成子词预测序列；计算预测序列和原始序列之间的KL散度并作为第三训练目标。6.如权利要求5所述的降低语义识别计算量的方法，其特征在于：将所述第一训练目标与所述第二训练目标结合对模型进行优化训练，获得所述最终训练模型；或者，将所述第一训练目标与所述第三训练目标结合对模型进行优...

【专利技术属性】
技术研发人员：王宇龙，张倬胜，华菁云，周明，
申请(专利权)人：北京澜舟科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人