A method of building a document automatic question answering system based on the convolution neural network includes the following steps: Step 1, construct a topic document library; step 2, construct word vector model; step 3, topic matching; step 4, construct word vector matrix; step 5, semantic matching based on convolution neural network; and the semantic matching of the semantic model based on convolution neural network; The semantic model of the convolution neural network is divided into three layers; the first layer is the convolution neural network layer; the second layer is the attention layer; the third layer is the full connection layer; step 6, the answer selection process is selected, and the matching answer is selected. The method does not need to build a synonym dictionary manually. It saves a lot of human and time cost. It can have the purpose of sampling the semantic meaning of the word context in the training process of the model, and add attention mechanism in the network to improve the contribution degree of some representative words to the whole sentence.
【技术实现步骤摘要】
一种基于卷积神经网络的文档自动问答系统的构建方法
本专利技术涉及自然语言处理和人工智能领域,运用卷积神经网络算法,提出了一种在深度学习算法大规模应用于自然语言处理的背景下,对问题和答案进行语义建模并进行语义匹配的方案。
技术介绍
自动问答中最重要的就是句子语义匹配技术,传统方法大多是在HowNet(知网),大规模词典,哈工大同义词词林工具的基础之上,构建符合场景的规则组合来达到计算的目的。该类方法的优点在于快速的建立计算模型,能有效利用单词本身的语义,并快速调整模型,缺点在于该方法没能有效利用词语上下文的语义,甚至是整个句子或段落的语义。由此看来,传统方法容易造成词语上下文的语义丢失,所得结果无法准确用于计算句子间的匹配度。一些传统的对句子进行语义匹配的方法由于无法有效的利用词语上下文的语义以及对人力和时间成本的高需求,在匹配效果上不及目前热门的深度学习方法,难以适应在数据量爆炸性增长的互联网经济时代背景下,企业对自动问答技术的需求。
技术实现思路
本专利技术的目的是提供一种基于卷积神经网络的文档自动问答系统的构建方法。因此,本专利技术采用以下技术方案。一种基于卷积神经网络的文档自动问答系统的构建方法,包括以下步骤:步骤1,构建主题文档库;根据不同的应用场景来建立主题文档库,所述主题文档库中包括k个主题文档,针对k类问题;每个主题文档对应一个问题类型,是一个问题类型的备选答案集合;步骤2,构造词向量模型;获取语料,利用word2vec工具对语料进行训练,得到词向量模型,一个单词对应所述词向量模型中的一个词向量,L为词向量的维度,所述词向量可以表示单词之间在多维 ...
【技术保护点】
一种基于卷积神经网络的文档自动问答系统的构建方法,其特征在于,包括以下步骤:步骤1,构建主题文档库;根据不同的应用场景来建立主题文档库,所述主题文档库中包括k个主题文档,针对k类问题;每个主题文档对应一个问题类型,是一个问题类型的备选答案集合;步骤2,构造词向量模型;获取语料,利用word2vec工具对语料进行训练,得到词向量模型,一个单词对应所述词向量模型中的一个词向量,L为词向量的维度,所述词向量可以表示单词之间在多维空间中的距离,所述词向量模型能够准确的表现单词之间的语义相似度;步骤3,主题匹配;接收用户提出的第一问题,根据步骤1中构建的主题文档库,对所述第一问题进行分类,找出所述第一问题对应的第一主题文档,所述第一主题文档中有n1个备选答案;步骤4,构造词向量矩阵;将第一问题划分为m个单词,根据步骤2中的词向量模型,构造第一问题矩阵A;根据步骤3中的主题匹配得到的第一主题文档,将第一主题文档中的备选答案划分为m个单词,根据步骤2中的词向量模型,构造n1个第一答案矩阵Q,每个备选答案对应一个第一答案矩阵;构造n1个词向量矩阵M,其中M=<A,Q>;步骤5,基于卷积神经网络的语义模 ...
【技术特征摘要】
1.一种基于卷积神经网络的文档自动问答系统的构建方法,其特征在于,包括以下步骤:步骤1,构建主题文档库;根据不同的应用场景来建立主题文档库,所述主题文档库中包括k个主题文档,针对k类问题;每个主题文档对应一个问题类型,是一个问题类型的备选答案集合;步骤2,构造词向量模型;获取语料,利用word2vec工具对语料进行训练,得到词向量模型,一个单词对应所述词向量模型中的一个词向量,L为词向量的维度,所述词向量可以表示单词之间在多维空间中的距离,所述词向量模型能够准确的表现单词之间的语义相似度;步骤3,主题匹配;接收用户提出的第一问题,根据步骤1中构建的主题文档库,对所述第一问题进行分类,找出所述第一问题对应的第一主题文档,所述第一主题文档中有n1个备选答案;步骤4,构造词向量矩阵;将第一问题划分为m个单词,根据步骤2中的词向量模型,构造第一问题矩阵A;根据步骤3中的主题匹配得到的第一主题文档,将第一主题文档中的备选答案划分为m个单词,根据步骤2中的词向量模型,构造n1个第一答案矩阵Q,每个备选答案对应一个第一答案矩阵;构造n1个词向量矩阵M,其中M=<A,Q>;步骤5,基于卷积神经网络的语义模型进行语义匹配;所述卷积神经网络的语义模型分为三层;第一层为卷积神经网络层,所述卷积神经网络层的输入为词向量矩阵M,所述卷积神经网络层的卷积核的宽度为所述词向量的维度,所述卷积核的数量为n2;将词向量矩阵M输入到卷积神经网络层,得到n2维的问题特征向量和n2维的答案特征向量;取n3种高度的卷积核,得到n3个问题特征向量和答案特征向量;将n3个问题特征向量组合成问题特征矩阵,...
【专利技术属性】
技术研发人员:吴明晖,范旭民,金苍宏,朱凡微,赵品通,方格格,
申请(专利权)人:浙江大学城市学院,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。