一种双注意力训练序列生成方法、装置及可读存储介质制造方法及图纸

技术编号：30017734 阅读：12 留言：0更新日期：2021-09-11 06:29

本发明专利技术提供的一种双注意力训练序列生成方法、装置及可读存储介质，涉及计算机深度学习领域。本发明专利技术通过构建面向输入文本中字符的重要度和输入文本中字符对应槽值关联度的双注意力机制模型来生成对应输入文本的双注意力训练序列，槽值关联度根据槽值的query释义矩阵作为先验知识进行衡量，能使训练序列同时具备重要度特征和关联度特征；本发明专利技术通过Bi

全部详细技术资料下载

【技术实现步骤摘要】
一种双注意力训练序列生成方法、装置及可读存储介质

[0001]本专利技术涉及计算机深度学习领域，尤其涉及一种双注意力训练序列生成方法、装置及可读存储介质。

技术介绍

[0002]随着计算机领域的不断发展，各种基于机器学习的技术也在不断革新。
[0003]深度学习(deep learning)是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。
[0004]在自然语言处理深度学习技术发挥着举足轻重的作用，通过深度学习技术对自然语言处理可以使机器完成相应的问答、记录、查询等操作，在现如今智能服务领域有着极其广阔的运用。
[0005]一方面，对于学习模型的构建能影响自然语言处理的能力，另一方面，学习模型的输入训练数据也对自然语言处理能力有着直接影响，在进行模型训练前，我们都需要对训练数据进行筛选，标注，预处理等操作，目的就是时输入的训练数据能训练出我们想要的模型。针对训练数据的处理便成为提高自然语言处理能力的关键所在。
[0006]现有技术通常采用IOBES对槽值序列进行标注，槽值标签种类过多，模型训练拟合较为困难，且未对槽值标签信息进行有效的利用，但采用IO、IOE1等:方案时又未能对各类标签进行有效的区分。
[000...

【技术保护点】

【技术特征摘要】
1.一种双注意力训练序列生成方法，其特征在于，通过构建面向输入文本中字符的重要度和输入文本中字符对应槽值关联度的双注意力机制模型来生成对应输入文本的双注意力训练序列，所述双注意力训练序列用于供面向语言理解的深度学习模型进行训练学习；所述双注意力机制模型用于包括对输入文本的向量转换，对输入文本本向量的维度转换，对输入文本矩阵的关联转换和对输入文本中字符的重要度、输入文本中字符对应槽值关联度进行状态关联；所述双注意力机制模型包括字符
‑
隐状态路径、槽值
‑
query值路径和状态关联路径；通过字符
‑
隐状态路径得到输入文本的关联隐状态矩阵，所述关联隐状态矩阵用于衡量输入文本中各字符的重要度；通过槽值
‑
query值路径得到槽值序列的释义矩阵，释义矩阵用于衡量输入文本中字符对应槽值关联度；状态关联路径用于将释义矩阵和关联隐状态矩阵进行状态关联，并得到关联状态矩阵，所述关联状态矩阵用于生成双注意力训练序列。2.根据权利要求1所述的一种双注意力训练序列生成方法，其特征在于，所述双注意力机制模型包括输入文本层、Embedding层、Bi
‑
lstm层、query值释义层、Bi
‑
attention层、Dense层和Softmax函数层；所述输入文本层包括文本
‑
向量转化层和文本
‑
槽值标注层；所述文本
‑
向量转化层通过字符
‑
索引字典将输入文本转化成以索引为元素的输入文本向量；所述文本
‑
槽值标注层用于对输入文本中各字符的槽值进行标注，并得到与输入文本所对应的槽值序列；所述Embedding层用于对输入文本中的每个字符进行预处理，得到所述输入文本中的每个字符的字向量并组成向量矩阵，按维度需求将低纬度向量映射到高纬度向量并组成高纬度向量的映射矩阵；所述Bi
‑
lstm层包括前向LSTM和后向LSTM；所述Bilstm层将经Embedding层转换的高纬向量矩阵输入到Bilstm层中，将前向LSTM输出的隐向量与后向LSTM在各个位置的隐状态向量按位进行拼接，得到前后关联的隐状态向量；所述query值释义层用于对输入文本所对应的槽值序列进行槽值释义，释义内容保存至各槽值元素释义向量中；所述Bi
‑
attention层用于分析输入文本中字符的重要度和输入文本中字符对应槽值关联度，并得到包含字符的重要度和槽值关联度双注意力的双注意力训练序列；所述Dense层用于通过线性变换对输入向量进行维度变换，并将设定维度向量进行输出；所述Softmax函数层通过归一化指数函数分别对输入向量中各元素的权值占比进行计算，并根据权值占比进行分类输出。3.根据权利要求2所述的一种双注意力训练序列生成方法，其特征在于，所述双注意力机制模型通过字符
‑
隐状态路径得到关联隐状态矩阵，所述字符
‑
隐状态路径步骤如下：通过所述输入文本层将输入文本转化为输入文本向量将输入文本向量输入到Embedding层，并通过Embedding层将输入文本向量转化成与槽值序列维度相同的输入文本矩阵；
将输入文本矩阵输入给Bi
‑
lstm层；Bi
‑
lstm层通过前向LSTM和后向LSTM得到输入文本矩阵的前向隐状态向量和后向隐状态向量；Bi

【专利技术属性】
技术研发人员：胡光敏，娄坤，姜黎，
申请(专利权)人：杭州芯声智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人