基于疑问词分类器的神经网络问题生成方法及生成系统技术方案

技术编号:29202221 阅读:19 留言:0更新日期:2021-07-10 00:36
基于疑问词分类器的神经网络问题生成方法及生成系统,涉及互联网技术领域,解决现有基于分类器的网络模型存在生成问题中的疑问词不准确,导致存在根本性错误等问题,生成系统包括答案位置标注模块、疑问词分类器、疑问词添加模块以及神经网络问题生成模型;本发明专利技术在神经网络问题生成任务的基础上,将疑问词预测任务建模为一个独立的分类任务,即在神经网络问题生成模型之前,引入一个疑问词分类器,先通过疑问词分类器识别最可能提问的疑问词,再生成完整的问题。目的是提高疑问词生成的准确率和可解释性,最终减小所生成问题和真实问题的差异,提高问题的质量。提高问题的质量。提高问题的质量。

【技术实现步骤摘要】
with Maxout Pointer and Gated Self

attention Networks,基于最大输出指针和门控自注意力的段落级神经问题生成)的文章中,提到用门控自注意力(Gated Self

attention)和最大输出指针(Maxout Pointer)技术,对更长的输入文本生成问题并减少重复词的产生:
[0008]图1中,m
t
为t时刻输入单词的答案标签向量;e
t
为t时刻输入单词的词向量;u
t
为t时刻编码器双向LSTM输出的向量;s
t
为t时刻自注意力向量;为t时刻编码器特征融合门输出的向量;d
t
为t时刻解码器LSTM输出的向量;r
t
为t时刻解码器注意力得分向量;为t时刻解码器注意力向量;y
t
‑1为t

1时刻输入解码器的目标单词向量。
[0009]首先,将原始文本的词向量和答案标签向量进行拼接,输入到Bi

LSTM的编码器中;其次,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于疑问词分类器的神经网络问题生成方法,其特征是:该方法由以下步骤实现:步骤一、将语料按照真实疑问词的类别进行划分,通过降采样和过采样使得每个类别的样本数量达到均衡;步骤二、对原始输入文本中的答案词两边添加答案位置标记符,获得预处理后的数据;步骤三、构建疑问词分类器,所述疑问词分类器由预训练语言模型BERT和前馈神经网络FNN组成;步骤三一、预训练语言模型BERT模型作为文本特征提取器,对于输入原始文本提取特征向量C;步骤三二、将BERT模型提取到的特征向量C输入到FNN中,首先通过一个训练参数矩阵W
c
将特征向量C映射到一个维度为8的向量矩阵中,每个元素对应一个类别,再通过softmax函数,计算每个类别的概率,输出0

7中的概率最大的类别的id标识P,用下式表示为:P=softmax(W
c
C)步骤四、将步骤二的预处理后的数据划分为训练集、评估集和测试集,分别用于对步骤三所述的疑问词分类器进行训练、评估和测试;步骤五、采用步骤四测试后的疑问词分类器进行预测,将预测后的疑问词添加到所述原始输入文本的句首,获得预测后的文本;步骤六、利用词向量映射表,将步骤五获得的预测后的文本映射为向量形式表示,输入的文本即数值化为每个字符向量列连接成的数值矩阵;步骤七、将步骤六获得的数值矩阵输入到神经网络问题生成模型,输出完整的问题...

【专利技术属性】
技术研发人员:陈光顾鑫彤李思徐雅静徐蔚然
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1