一种双注意力训练序列生成方法、装置及可读存储介质制造方法及图纸

技术编号:30017734 阅读:12 留言:0更新日期:2021-09-11 06:29
本发明专利技术提供的一种双注意力训练序列生成方法、装置及可读存储介质,涉及计算机深度学习领域。本发明专利技术通过构建面向输入文本中字符的重要度和输入文本中字符对应槽值关联度的双注意力机制模型来生成对应输入文本的双注意力训练序列,槽值关联度根据槽值的query释义矩阵作为先验知识进行衡量,能使训练序列同时具备重要度特征和关联度特征;本发明专利技术通过Bi

【技术实现步骤摘要】
一种双注意力训练序列生成方法、装置及可读存储介质


[0001]本专利技术涉及计算机深度学习领域,尤其涉及一种双注意力训练序列生成方法、装置及可读存储介质。

技术介绍

[0002]随着计算机领域的不断发展,各种基于机器学习的技术也在不断革新。
[0003]深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。
[0004]在自然语言处理深度学习技术发挥着举足轻重的作用,通过深度学习技术对自然语言处理可以使机器完成相应的问答、记录、查询等操作,在现如今智能服务领域有着极其广阔的运用。
[0005]一方面,对于学习模型的构建能影响自然语言处理的能力,另一方面,学习模型的输入训练数据也对自然语言处理能力有着直接影响,在进行模型训练前,我们都需要对训练数据进行筛选,标注,预处理等操作,目的就是时输入的训练数据能训练出我们想要的模型。针对训练数据的处理便成为提高自然语言处理能力的关键所在。
[0006]现有技术通常采用IOBES对槽值序列进行标注,槽值标签种类过多,模型训练拟合较为困难,且未对槽值标签信息进行有效的利用,但采用IO、IOE1等:方案时又未能对各类标签进行有效的区分。
[0007]为此,申请号为:CN202011024360.7的专利技术申请提供了一种深度学习序列标注方法、装置及计算机可读存储介质;该申请利用初始化的embedding层将待处理文本的句子中的每个字进行预处理,获取所述待处理文本中的每个字的字向量;通过bi

lstm层对所述字向量进行处理,获取所述待处理文本的文本特征;通过softmax层对所述文本特征进行处理,获取所述文本特征的预测标注位置;通过loss层对所述文本特征的预测标注位置进行处理,完成所述待处理文本的序列标注。该申请在于提出了一种新的计算loss值的方法,提高在深度学习中序列标注的准确性,但是,槽值标签种类过多依旧过多,且训练序列只包含了一种注意力信息。
[0008]因此,有必要提供一种新的,能有效利用槽值,且能减少槽值标签种类的训练序列生成方法来解决上述技术问题。

技术实现思路

[0009]为解决上述技术问题,本专利技术提供的一种双注意力训练序列生成方法,其特征在于,通过构建面向输入文本中字符的重要度和输入文本中字符对应槽值关联度的双注意力机制模型来生成对应输入文本的双注意力训练序列,所述双注意力训练序列用于供面向语
言理解的深度学习模型进行训练学习;
[0010]所述双注意力机制模型用于包括对输入文本的向量转换,对输入文本本向量的维度转换,对输入文本矩阵的关联转换和对输入文本中字符的重要度、输入文本中字符对应槽值关联度进行状态关联;
[0011]所述双注意力机制模型包括字符

隐状态路径、槽值

query值路径和状态关联路径;
[0012]通过字符

隐状态路径得到输入文本的关联隐状态矩阵,所述关联隐状态矩阵用于衡量输入文本中各字符的重要度;
[0013]通过槽值

query值路径得到槽值序列的释义矩阵,释义矩阵用于衡量输入文本中字符对应槽值关联度;
[0014]状态关联路径用于将释义矩阵和关联隐状态矩阵进行状态关联,并得到关联状态矩阵,所述关联状态矩阵用于生成双注意力训练序列。
[0015]作为更进一步的解决方案,所述双注意力机制模型包括输入文本层、Embedding层、Bi

lstm层、query值释义层、Bi

attention层、Dense层和Softmax函数层;
[0016]所述输入文本层包括文本

向量转化层和文本

槽值标注层;所述文本

向量转化层通过字符

索引字典将输入文本转化成以索引为元素的输入文本向量;所述文本

槽值标注层用于对输入文本中各字符的槽值进行标注,并得到与输入文本所对应的槽值序列;
[0017]所述Embedding层用于对输入文本中的每个字符进行预处理,得到所述输入文本中的每个字符的字向量并组成向量矩阵,按维度需求将低纬度向量映射到高纬度向量并组成高纬度向量的映射矩阵;
[0018]所述Bi

lstm层包括前向LSTM和后向LSTM;所述Bilstm层将经Embedding层转换的高纬向量矩阵输入到Bilstm层中,将前向LSTM输出的隐向量与后向LSTM在各个位置的隐状态向量按位进行拼接,得到前后关联的隐状态向量;
[0019]所述query值释义层用于对输入文本所对应的槽值序列进行槽值释义,释义内容保存至各槽值元素释义向量中;
[0020]所述Bi

attention层用于分析输入文本中字符的重要度和输入文本中字符对应槽值关联度,并得到包含字符的重要度和槽值关联度双注意力的双注意力训练序列;
[0021]所述Dense层用于通过线性变换对输入向量进行维度变换,并将设定维度向量进行输出;
[0022]所述Softmax函数层通过归一化指数函数分别对输入向量中各元素的权值占比进行计算,并根据权值占比进行分类输出。
[0023]作为更进一步的解决方案,所述双注意力机制模型通过字符

隐状态路径得到关联隐状态矩阵,所述字符

隐状态路径步骤如下:
[0024]通过所述输入文本层将输入文本转化为输入文本向量
[0025]将输入文本向量输入到Embedding层,并通过Embedding层将输入文本向量转化成与槽值序列维度相同的输入文本矩阵;
[0026]将输入文本矩阵输入给Bi

lstm层;Bi

lstm层通过前向LSTM和后向LSTM得到输入文本矩阵的前向隐状态向量和后向隐状态向量;
[0027]Bi

lstm层将前向隐状态向量和后向隐状态向量按照在元素对应位置进行拼接,
得到前后关联的关联隐状态向量;
[0028]通过Bi

lstm层得到输入文本矩阵中各输入文本向量的关联隐状态向量,并组成关联隐状态矩阵。
[0029]作为更进一步的解决方案,所述双注意力机制模型通过槽值

query值路径得到释义矩阵,所述槽值

query值路径步骤如下:
[0030]通过对输入文本中各字符进行槽值标注,得到对应的槽值序列;
[0031]通过q本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种双注意力训练序列生成方法,其特征在于,通过构建面向输入文本中字符的重要度和输入文本中字符对应槽值关联度的双注意力机制模型来生成对应输入文本的双注意力训练序列,所述双注意力训练序列用于供面向语言理解的深度学习模型进行训练学习;所述双注意力机制模型用于包括对输入文本的向量转换,对输入文本本向量的维度转换,对输入文本矩阵的关联转换和对输入文本中字符的重要度、输入文本中字符对应槽值关联度进行状态关联;所述双注意力机制模型包括字符

隐状态路径、槽值

query值路径和状态关联路径;通过字符

隐状态路径得到输入文本的关联隐状态矩阵,所述关联隐状态矩阵用于衡量输入文本中各字符的重要度;通过槽值

query值路径得到槽值序列的释义矩阵,释义矩阵用于衡量输入文本中字符对应槽值关联度;状态关联路径用于将释义矩阵和关联隐状态矩阵进行状态关联,并得到关联状态矩阵,所述关联状态矩阵用于生成双注意力训练序列。2.根据权利要求1所述的一种双注意力训练序列生成方法,其特征在于,所述双注意力机制模型包括输入文本层、Embedding层、Bi

lstm层、query值释义层、Bi

attention层、Dense层和Softmax函数层;所述输入文本层包括文本

向量转化层和文本

槽值标注层;所述文本

向量转化层通过字符

索引字典将输入文本转化成以索引为元素的输入文本向量;所述文本

槽值标注层用于对输入文本中各字符的槽值进行标注,并得到与输入文本所对应的槽值序列;所述Embedding层用于对输入文本中的每个字符进行预处理,得到所述输入文本中的每个字符的字向量并组成向量矩阵,按维度需求将低纬度向量映射到高纬度向量并组成高纬度向量的映射矩阵;所述Bi

lstm层包括前向LSTM和后向LSTM;所述Bilstm层将经Embedding层转换的高纬向量矩阵输入到Bilstm层中,将前向LSTM输出的隐向量与后向LSTM在各个位置的隐状态向量按位进行拼接,得到前后关联的隐状态向量;所述query值释义层用于对输入文本所对应的槽值序列进行槽值释义,释义内容保存至各槽值元素释义向量中;所述Bi

attention层用于分析输入文本中字符的重要度和输入文本中字符对应槽值关联度,并得到包含字符的重要度和槽值关联度双注意力的双注意力训练序列;所述Dense层用于通过线性变换对输入向量进行维度变换,并将设定维度向量进行输出;所述Softmax函数层通过归一化指数函数分别对输入向量中各元素的权值占比进行计算,并根据权值占比进行分类输出。3.根据权利要求2所述的一种双注意力训练序列生成方法,其特征在于,所述双注意力机制模型通过字符

隐状态路径得到关联隐状态矩阵,所述字符

隐状态路径步骤如下:通过所述输入文本层将输入文本转化为输入文本向量将输入文本向量输入到Embedding层,并通过Embedding层将输入文本向量转化成与槽值序列维度相同的输入文本矩阵;
将输入文本矩阵输入给Bi

lstm层;Bi

lstm层通过前向LSTM和后向LSTM得到输入文本矩阵的前向隐状态向量和后向隐状态向量;Bi

【专利技术属性】
技术研发人员:胡光敏娄坤姜黎
申请(专利权)人:杭州芯声智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1