基于层级注意力机制优化机器阅读理解能力的方法和系统技术方案

技术编号：24010703 阅读：44 留言：0更新日期：2020-05-02 01:38

本发明专利技术公开了一种基于层级注意力机制优化机器阅读理解能力的方法，其利用多粒度的输入特征提取文本信息，然后使用注意力机制对提取的文本信息进行相互间的交互得到包含上下文信息的特征表示，最后根据相关问题使用新的特征表示得到答案。在特征输入阶段，不仅输入了简单的单词的常规向量表示，还输入了单词的预训练模型的词向量。同时，利用了知识图谱的方法，将外部知识库一一命名实体知识库NELL的词向量也进行输入。在信息交互阶段，使用了多种注意力机制。通过使用门控的段落到问题注意力机制得到问题感知的文本单词表示，再通过线性自匹配机制，使得问题感知的文本单词进一步感知每个文本单词前后的文本信息，进而产生答案。

Method and system of optimizing machine reading comprehension based on hierarchical attention mechanism

全部详细技术资料下载

【技术实现步骤摘要】
基于层级注意力机制优化机器阅读理解能力的方法和系统
本专利技术属于自然语言处理
，更具体地，涉及一种基于层级注意力机制优化机器阅读理解能力的方法和系统。
技术介绍
随着大规模高质量数据集的出现以及现代计算机计算能力持续提升，机器阅读理解技术得到了快速的发展，并已经在多个领域被验证出准确率高于人类的准确率。如今，机器阅读理解技术已经接近成熟，并已经大量用于工程实践，如淘宝网的24小时机器客服、中国移动的智能电话客服等，机器阅读理解技术能替代人工24小时工作，并回答一些常见的问题。现有的机器阅读理解模型通常使用单个词向量技术，其把下载的数据集预处理好后，将训练语料转换为其相对应的词向量表示，在模型的段落和问题的信息交互过程中，大部分情况下使用单个注意力机制后就直接进行答案预测。然而，上述现有的机器阅读理解模型方法存在一些不可忽略的缺陷：1、机器阅读理解模型本身就是需要根据海量的文本信息、语义信息或词法信息来阅读和理解文本，并进而回答问题，但由于单个词向量技术能够提供的文本信息、语义信息或词法信息始终是有限和...

【技术保护点】
1.一种基于层级注意力机制优化机器阅读理解能力的方法，其特征在于，包括以下步骤：/n步骤一、获取文本以及与该文本相关的问题；/n步骤二、将步骤一得到的文本及其相关的问题输入训练好的、基于层级注意力机制的模型中，以得到该问题的答案。/n

【技术特征摘要】
1.一种基于层级注意力机制优化机器阅读理解能力的方法，其特征在于，包括以下步骤：
步骤一、获取文本以及与该文本相关的问题；
步骤二、将步骤一得到的文本及其相关的问题输入训练好的、基于层级注意力机制的模型中，以得到该问题的答案。

2.根据权利要求1所述的基于层级注意力机制优化机器阅读理解能力的方法，其特征在于，基于层级注意力机制的模型包括顺次连接的输入特征层、多个第一双向GRU层、门控注意力层、线性自匹配层、第二双向GRU层、以及答案输出层。

3.根据权利要求1或2所述的基于层级注意力机制优化机器阅读理解能力的方法，其特征在于，基于层级注意力机制的模型是通过以下步骤进行训练得到的：
(1)获取斯坦福大学的QA数据集，并提取该QA数据集中的所有段落、以及每个段落对应的所有问题，其中每一个段落及其对应的一个问题构成一个训练语料；
(2)将步骤(1)得到的训练语料按批次输入基于层级注意力机制的模型中的输入特征层，以得到每个训练语料中每个单词的初级向量表示集合；
(3)将步骤(2)得到的每个训练语料中每个单词的初级向量表示集合输入多个第一双向GRU层，以得到每个单词的次级向量表示集合；
(4)将步骤(3)得到的每个单词的次级向量表示集合输入门控注意力层，以得到该单词的三级向量表示集合；
(5)根据步骤(3)得到的每个单词的次级向量表示集合、以及步骤(4)得到的每个单词的三级向量表示集合，并使用softmax函数计算该单词的四级向量表示集合；
(6)将步骤(5)得到的单词的四级向量表示集合输入第二双向GRU层，以得到五级向量表示集合；
(7)将步骤(6)得到的五级向量表示集合输入答案输出层，以得到最终答案；
(8)重复上述步骤(1)至(7)一次，从而得到训练好的模型。

4.根据权利要求3所述的基于层级注意力机制优化机器阅读理解能力的方法，其特征在于，步骤(2)包括以下子步骤：
(2-1)获取每批次训练语料中每一个训练语料中的每一个段落及其对应问题，该段落中所包括的所有单词构成段落单词序列P＝(p1,p2,...,pn)，该问题中所包括的所有单词构成问题单词序列Q＝(q1,q2,...,qm)，其中n表示段落单词序列的长度，m表示问题单词序列的长度；
(2-2)将步骤(2-1)得到的每一个训练语料中每一个段落对应的段落单词序列P、以及每一个问题对应的问题单词序列Q中每一个单词按照其字母进行分割，并根据分割后的每一个字母，在字符级别词向量矩阵中查找对应的向量表示，并将该单词中对应的所有向量表示进行相加并取均值，作为该单词对应的字符级别词向量(其维数是200)，段落单词序列P＝(p1,p2,...,pn)中所有单词的字符级别词向量构成该段落单词序列P对应的段落字符级别向量集合P(char)＝(pc1,pc2,...,pcn)，问题单词序列Q＝(q1,q2,...,qm)中所有单词的字符级别词向量构成该问题单词序列Q对应的问题字符级别向量集合Q(char)＝(qc1,qc2,...,qcm)；
(2-3)将步骤(2-1)得到的每一个训练语料中每一个段落对应的段落单词序列P、以及每一个问题对应的问题单词序列Q中的每一个单词，在单词级别词向量矩阵中查找对应的向量表示(其维数是300)，作为该单词对应的单词级别词向量，段落单词序列P＝(p1,p2,...,pn)中所有单词的单词级别词向量构成该段落单词序列P对应的段落单词级别向量集合P(word)＝(pw1,pw2,...,pwn)，问题单词序列Q＝(q1,q2,...,qm)中所有单词的单词级别词向量构成该问题单词序列Q对应的问题单词级别向量集合Q(word)＝(qw1,qw2,...,qwm)；
(2-4)将步骤(2-1)得到的每一个训练语料中每一个段落对应的段落单词序列P、以及每一个问题对应的问题单词序列Q中的每一个单词，在另一个单词级别词向量矩阵中查找对应的向量表示(其维数是100)，作为该单词对应的单词级别词向量，段落单词序列P＝(p1,p2,...,pn)中所有单词的单词级别词向量构成该段落单词序列P对应的段落单词级别向量集合P(nell)＝(pn1,pn2,...,pnn)，问题单词序列Q＝(q1,q2,...,qm)中所有单词的单词级别词向量构成该问题单词序列Q对应的问题单词级别向量集合Q(nell)＝(qn1,qn2,...,qnm)；
(...

【专利技术属性】
技术研发人员：吴帆，黄小青，李肯立，
申请(专利权)人：湖南大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人