【技术实现步骤摘要】
基于Transformer网络模型的文本生成方法和装置
[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于
Transformer
网络模型的文本生成方法和装置
。
技术介绍
[0002]Transformer
网络模型是一种基于注意力机制的深度学习模型,由于其能够高效且高精度地处理序列数据,并且具有能够捕捉长距离依赖关系的能力,自
2017
年被首次引入自然语言处理领域以来,
Transformer
网络模型的应用范围已经不断扩展到文本生成
、
图像处理
、
推荐系统
、
语音合成等多个人工智能领域
。
[0003]Transformer
网络模型由编码器和解码器组成
。
实际组成网络模型时,取决于任务类型的不同,可以仅使用编码器,或者可以仅使用解码器,也可以两者都用
。
一般而言,执行分类任务时仅使用编码器,执行文本生成任务时仅使用解码器,执行基于
Transformer
网络模型的翻译
、
语音识别
、
语音合成等任务时两者都用
。
其中,矩阵乘法(
Matrix Multiplication
)是
Transformer
网络模型最核心的数学运算之一,它占据了网络模型整体算力的较大部分
。
因此,在网络部署中,为了降低模 ...
【技术保护点】
【技术特征摘要】
1.
一种基于
Transformer
网络模型的文本生成方法,其特征在于,所述方法包括以下步骤:
S1
:将文本校准数据集输入
Transformer
网络模型进行推理,获得由所述
Transformer
网络模型包括的每个矩阵乘各自的输入数据与输出数据分别构成的输入特征矩阵以及输出特征矩阵;
S2
:对所述输入特征矩阵中的每个输入特征取绝对值后,计算所述输入特征矩阵每一列的平均值,若某一列的平均值大于等于预设异常阈值,则判定其为原始异常值列并记录所述原始异常值列的位置;
S3
:将所述原始异常值列复制
N
次后构成的扩张异常值列拼接至所述输入特征矩阵列尾,构成输入特征扩张矩阵,并将所述输入特征扩张矩阵中包括的所述原始异常值列与所述扩张异常值列中的数值均除以
N
加1之和,其中
N
为预设通道扩张倍数;
S4
:将权重矩阵中与所述原始异常值列相对应的行复制
N
次,然后拼接至所述权重矩阵行尾以构成权重扩张矩阵;
S5
:根据所述输入特征扩张矩阵
、
所述权重扩张矩阵以及所述输出特征矩阵进行量化,获得对应于所述输入特征扩张矩阵中每一行的行缩放系数组以及对应于所述权重扩张矩阵中每一列的列缩放系数组;
S6
:利用所述行缩放系数组与所述列缩放系数组部署所述
Transformer
网络模型;
S7
:向部署后的
Transformer
网络模型输入提示句并进行推理,获得对应于所述提示句的新文本
。2.
根据权利要求1所述的文本生成方法,其特征在于,
S7
还包括:将提示句输入部署后的
Transformer
网络模型进行推理,获得对应于所述提示句的输出词;将所述输出词作为新一轮推理的输入,再次输入部署后的
Transformer
网络模型进行推理,从而得到新一轮推理的输出词;将每一轮推理得到的输出词作为下一轮推理的输入,反复进行推理直至满足预设条件时停止,然后将每一轮推理得到的输出词按顺序拼接起来,即获得对应于所述提示句的新文本
。3.
根据权利要求2所述的文本生成方法,其特征在于,所述预设条件包括:用户主动终止推理
、
出现终止词
、
每一轮网络推理得到的输出词的总数已经达到模型的最大输出个数,在模型推理过程中只要满足所述预设条件中的一个,则推理终止
。4.
根据权利要求3所述的文本生成方法,其特征在于,所述提示句的类型包括提问句以及需要进行文本续写的词语或句子,对应于所述提示句的新文本的类型包括用户输入的问题的答案,或者完成续写的文本
。5.
根据权利要求1所述的文本生成方法,其特征在于,所述预设通道扩张倍数为大于1的正整数
。6.
根据权利要求2所述的文本生成方法,其特征在于,所述预设通道扩张倍数的取值为2的正整数次方倍减去
1。7.
根据权利要求1所述的文本生成方法,其特征在于,所述输入特征扩张矩阵的列数与所述权重扩张矩阵的行数相等,所述输入特征...
【专利技术属性】
技术研发人员:张浩,张磊,
申请(专利权)人:瀚博半导体上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。