文本特征的解码方法和装置、存储介质及电子设备制造方法及图纸

技术编号:39047793 阅读:26 留言:0更新日期:2023-10-10 12:00
本公开提供了一种文本特征的解码方法和装置、存储介质及电子设备。其中,该方法包括:获取文本特征解码模型中第i

【技术实现步骤摘要】
文本特征的解码方法和装置、存储介质及电子设备


[0001]本专利技术涉及计算机领域,具体而言,涉及一种文本特征的解码方法和装置、存储介质及电子设备。

技术介绍

[0002]在NLP (Natural Language Processing,自然语言处理)领域,存在非常多的丰富的任务。常见的NLP任务包括文本分类、实体识别、文本匹配、文本翻译等各类任务。虽然NLP任务很多,而且目标各不相同,但是都可以通过Transformer模型进行文本特征解码。
[0003]现有的Transformer模型通常采用自注意力机制。自注意力机制在每个位置上对所有其他位置都要进行计算,导致其计算复杂度为O(),其中n是输入序列的长度。这在处理较长序列时可能会导致昂贵的计算成本和较高的内存消耗。不仅是在训练过程中的复杂度高,在使用时也存在复杂度高的问题。随着解码的文本越长,速度就会越慢,而且由于显存的限制没法解码很长的文本。也就是说,现有的文本特征的解码方法存在特征解码效率较低的技术问题。
[0004]针对上述的问题,目前尚未提出有效的解决方案。...

【技术保护点】

【技术特征摘要】
1.一种文本特征的解码方法,其特征在于,包括:获取文本特征解码模型中第i

1层特征解码层输出的文本特征,其中,所述文本特征解码模型中包括N层依次连接的特征解码层,所述文本特征为对待处理的文本序列进行特征解码后得到的字符向量序列,所述字符向量序列中包括与所述文本序列中每一个字符分别对应的字符向量,所述N为大于1的整数,所述i为大于1且小于或等于N的整数;获取与第i层特征解码层对应的k个全局特征向量,其中,所述k个全局特征向量用于表征所述文本特征中的所述字符向量之间关联关系,所述k为大于1的整数;依次获取所述文本特征中的每一个所述字符向量与所述k个全局特征向量中的每一个所述全局特征向量的向量相似度,并基于对应于同一个所述字符向量的k个所述向量相似度将每一个所述字符向量依次更新为参考字符向量;将所述参考字符向量拼接得到的参考字符向量序列确定为解码得到的目标文本特征。2.根据权利要求1所述的方法,其特征在于,所述依次获取所述文本特征中的每一个所述字符向量与所述k个全局特征向量中的每一个所述全局特征向量的向量相似度,并基于对应于同一个所述字符向量的k个所述向量相似度将每一个所述字符向量依次更新为参考字符向量包括:重复如下步骤,直至遍历所述文本特征中的每一个所述字符向量:从所述文本特征中获取一个字符向量作为当前字符向量,并获取所述当前字符向量对应的k个第一向量相似度;分别获取与所述当前字符向量相邻的M个相邻字符向量,和所述当前字符向量之间的第二向量相似度,其中,所述相邻字符向量在所述字符向量序列中的第一序号与所述当前字符向量的第二序号之间的序号差值满足相邻条件,所述M为大于1的整数;根据所述k个第一向量相似度和M个第二向量相似度将所述当前字符向量更新为所述参考字符向量。3.根据权利要求2所述的方法,其特征在于,所述根据所述k个第一向量相似度和M个第二向量相似度将所述当前字符向量更新为所述参考字符向量包括:根据所述k个第一向量相似度分别确定对应于各个所述全局特征向量的第一权重系数;根据所述M个第二向量相似度分别确定对应于各个所述相邻字符向量的第二权重系数;根据k个所述全局特征向量与各自对应的所述第一权重系数确定第一加权求和结果,并根据M个所述相邻字符向量与各自对应的所述第二权重系数确定第二加权求和结果;将所述第一加权求和结果和所述第二加权求和结果的结果和确定为所述参考字符向量。4.根据权利要求2所述的方法,其特征在于,所述获取所述当前字符向量对应的k个第一向量相似度包括:将所述当前字符向量和所述k个全局特征向量分别进行向量内积计算,将k个第一内积结果确定为所述k个所述第一向量相似度;所述分别获取与所述当前字符向量相邻的M个相邻字符向量,和所述当前字符向量之间的第二向量相似度包括:将所述当前字符向量和所述M个相邻字符向量分别进行向量内
积计算,将M个第二内积结果确定为所述M个第二向量相似度。5.根据权利要求3所述的方法,其特征在于,包括:根据所述k个所述第一向量相似度和所述M个所述第二向量相似度确定第一参数;根据所述k个所述第一向量相似度确定分别对应于所述k个所述全局特征向量的k个第二参数,并分别获取所述k个所述第二参数与所述第一参数的第一比值,将k个所述第一比值确定为分别对应于所述k个所述全局特征向量的所述第一权重系数;根据所述M个所述第二向量相似度分别确定对应于所述M个所述相邻字符向量的M个第三参数,并分别获取所述M个所述第三参数分别与所述第一参数的第二比值,将M个所述第二比值确定为分别对应于所述M个所述相邻字符向量的所述第二权重系数。6.根据权利要求1所述的方法,其特征在于,所述获取与第i层特征解码层对应的k个全局特征向量之前,还包括:获取与所述第i层特征解码层对应的k个待更新的全局特征向量;重复如下步骤,直至遍历所述k个待更新的全局特征向量:从所述k个待更新的全局特征向量中获取一个所述待更新的全局特征向量作为当前全局特征向量;分别获取所述当前全局特征向量与其他待更新的全局特征向量之间的第三向量相似...

【专利技术属性】
技术研发人员:杨韬
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1