【技术实现步骤摘要】
基于层级注意力机制优化机器阅读理解能力的方法和系统
本专利技术属于自然语言处理
,更具体地,涉及一种基于层级注意力机制优化机器阅读理解能力的方法和系统。
技术介绍
随着大规模高质量数据集的出现以及现代计算机计算能力持续提升,机器阅读理解技术得到了快速的发展,并已经在多个领域被验证出准确率高于人类的准确率。如今,机器阅读理解技术已经接近成熟,并已经大量用于工程实践,如淘宝网的24小时机器客服、中国移动的智能电话客服等,机器阅读理解技术能替代人工24小时工作,并回答一些常见的问题。现有的机器阅读理解模型通常使用单个词向量技术,其把下载的数据集预处理好后,将训练语料转换为其相对应的词向量表示,在模型的段落和问题的信息交互过程中,大部分情况下使用单个注意力机制后就直接进行答案预测。然而,上述现有的机器阅读理解模型方法存在一些不可忽略的缺陷:1、机器阅读理解模型本身就是需要根据海量的文本信息、语义信息或词法信息来阅读和理解文本,并进而回答问题,但由于单个词向量技术能够提供的文本信息、语义信息或词法信息始终是有限和 ...
【技术保护点】
1.一种基于层级注意力机制优化机器阅读理解能力的方法,其特征在于,包括以下步骤:/n步骤一、获取文本以及与该文本相关的问题;/n步骤二、将步骤一得到的文本及其相关的问题输入训练好的、基于层级注意力机制的模型中,以得到该问题的答案。/n
【技术特征摘要】
1.一种基于层级注意力机制优化机器阅读理解能力的方法,其特征在于,包括以下步骤:
步骤一、获取文本以及与该文本相关的问题;
步骤二、将步骤一得到的文本及其相关的问题输入训练好的、基于层级注意力机制的模型中,以得到该问题的答案。
2.根据权利要求1所述的基于层级注意力机制优化机器阅读理解能力的方法,其特征在于,基于层级注意力机制的模型包括顺次连接的输入特征层、多个第一双向GRU层、门控注意力层、线性自匹配层、第二双向GRU层、以及答案输出层。
3.根据权利要求1或2所述的基于层级注意力机制优化机器阅读理解能力的方法,其特征在于,基于层级注意力机制的模型是通过以下步骤进行训练得到的:
(1)获取斯坦福大学的QA数据集,并提取该QA数据集中的所有段落、以及每个段落对应的所有问题,其中每一个段落及其对应的一个问题构成一个训练语料;
(2)将步骤(1)得到的训练语料按批次输入基于层级注意力机制的模型中的输入特征层,以得到每个训练语料中每个单词的初级向量表示集合;
(3)将步骤(2)得到的每个训练语料中每个单词的初级向量表示集合输入多个第一双向GRU层,以得到每个单词的次级向量表示集合;
(4)将步骤(3)得到的每个单词的次级向量表示集合输入门控注意力层,以得到该单词的三级向量表示集合;
(5)根据步骤(3)得到的每个单词的次级向量表示集合、以及步骤(4)得到的每个单词的三级向量表示集合,并使用softmax函数计算该单词的四级向量表示集合;
(6)将步骤(5)得到的单词的四级向量表示集合输入第二双向GRU层,以得到五级向量表示集合;
(7)将步骤(6)得到的五级向量表示集合输入答案输出层,以得到最终答案;
(8)重复上述步骤(1)至(7)一次,从而得到训练好的模型。
4.根据权利要求3所述的基于层级注意力机制优化机器阅读理解能力的方法,其特征在于,步骤(2)包括以下子步骤:
(2-1)获取每批次训练语料中每一个训练语料中的每一个段落及其对应问题,该段落中所包括的所有单词构成段落单词序列P=(p1,p2,...,pn),该问题中所包括的所有单词构成问题单词序列Q=(q1,q2,...,qm),其中n表示段落单词序列的长度,m表示问题单词序列的长度;
(2-2)将步骤(2-1)得到的每一个训练语料中每一个段落对应的段落单词序列P、以及每一个问题对应的问题单词序列Q中每一个单词按照其字母进行分割,并根据分割后的每一个字母,在字符级别词向量矩阵中查找对应的向量表示,并将该单词中对应的所有向量表示进行相加并取均值,作为该单词对应的字符级别词向量(其维数是200),段落单词序列P=(p1,p2,...,pn)中所有单词的字符级别词向量构成该段落单词序列P对应的段落字符级别向量集合P(char)=(pc1,pc2,...,pcn),问题单词序列Q=(q1,q2,...,qm)中所有单词的字符级别词向量构成该问题单词序列Q对应的问题字符级别向量集合Q(char)=(qc1,qc2,...,qcm);
(2-3)将步骤(2-1)得到的每一个训练语料中每一个段落对应的段落单词序列P、以及每一个问题对应的问题单词序列Q中的每一个单词,在单词级别词向量矩阵中查找对应的向量表示(其维数是300),作为该单词对应的单词级别词向量,段落单词序列P=(p1,p2,...,pn)中所有单词的单词级别词向量构成该段落单词序列P对应的段落单词级别向量集合P(word)=(pw1,pw2,...,pwn),问题单词序列Q=(q1,q2,...,qm)中所有单词的单词级别词向量构成该问题单词序列Q对应的问题单词级别向量集合Q(word)=(qw1,qw2,...,qwm);
(2-4)将步骤(2-1)得到的每一个训练语料中每一个段落对应的段落单词序列P、以及每一个问题对应的问题单词序列Q中的每一个单词,在另一个单词级别词向量矩阵中查找对应的向量表示(其维数是100),作为该单词对应的单词级别词向量,段落单词序列P=(p1,p2,...,pn)中所有单词的单词级别词向量构成该段落单词序列P对应的段落单词级别向量集合P(nell)=(pn1,pn2,...,pnn),问题单词序列Q=(q1,q2,...,qm)中所有单词的单词级别词向量构成该问题单词序列Q对应的问题单词级别向量集合Q(nell)=(qn1,qn2,...,qnm);
(...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。