一种问题生成方法技术

技术编号:19593505 阅读:144 留言:0更新日期:2018-11-28 04:55
本发明专利技术提出了一种问题生成方法,属于人工智能领域。本发明专利技术在将文本文档进行分词后,将其转换为终端能够处理的向量的形式,把向量输入至逆向传播神经网络中对网络进行训练,通过信号正方向的传播和逆向的误差传播,一直重复此过程直到该BP网络输出的误差在阈值以内才完成训练,保证了问题生成的质量;将逆向传播神经网络应用于问题生成中,实现了自动非数据库匹配的问题生成,使问题生成更加灵活,适用性更广。

【技术实现步骤摘要】
一种问题生成方法
本专利技术属于人工智能领域,特别涉及一种问题生成方法。
技术介绍
自从二十世纪八十年代以来,人工智能领域的研究开始成为热点,主要体现在机器人、语言识别、图像识别、自然语言处理等研究领域。其中,自然语言处理研究的内容也逐渐丰富,机器翻译、自动文摘的准确度已经达到相当高的水平。目前,信息检索中的高级检索,即问题生成,还有很大的研究空间。人工智能中主要用到一些人工神经网络,其优势在于不需要事先确定输入输出之间的映射关系,仅仅通过训练,让其学习特征,在学习后,给定某一输入值后能够得到最接近期望输出值的结果。神经网络作为一种智能的处理各种信息的系统,算法是其实现功能的核心。误差逆向传播(backpropagation,BP)神经网络是一种逆向传播训练的前溃网络,这个算法的基本思想是利用梯度下降法,以实现网络的实际输出值和期望输出值的误差均方差最小。另外,基于神经网络的问题生成技术具有重要研究意义。首先,基于网络的问题生成,能够对文本进行识别,识别后生成各种问题,可以将此方法运用到阅读理解中的相关问题的设定的情景下,也可以将此技术应用于各种场景,如可以用在财务部门的相关系统中,可以应用在网上客服系统中,以及其他业务中,以期达到满足对不同行业需求的、实时的服务。其次,由于目前已经成为大数据时代,每天的数据量远远不是人工能处理的,如果采用传统的方式,即问题生成的方式是人工的,或者是通过写好的数据库进行匹配的,比较消耗人力,会带来极大的人力物力资源的开销,由于大部分问题生成都是通过匹配以及基于问题模板生成即一定的规则得到的,所以得到的问题结果在时间上也会相应滞后。而采用基于神经网络的问题生成比较节省人力,并且生成问题所需要的时间比较短,提高效率。现有的问题生成技术,只能通过特定任务的问题序列,此序列是一个个问题描述,将问题发送给用户。然而这些问题不是自动生成的问题,相当于已经存在的现有的知识库组成的。因此,在复杂的环境中,基于这种特征的生成方法是不具有灵活性的,而且前期知识库的收集也比较费时费力,在技术的适用性上有限。
技术实现思路
为了解决现有技术中,生成的问题呆滞不灵活的问题,本专利技术提出了一种问题生成方法,通过误差逆向传播算法,即在进行训练学习的过程中,由信号正方向的传播和逆向的误差传播两部分组成,一直重复此过程直到BP网络输出的误差在可以接受的范围,保证了问题生活的质量。一种问题生成方法,包括以下步骤:步骤1,对文本文档进行分词;步骤2,将分词后的文本文档转换为向量;步骤3,构建BP神经网络,输入向量,基于误差逆向传播算法对所述BP神经网络进行训练;步骤4,当所述BP神经网络的误差小于预设误差阈值时,所述BP神经网络训练完成,得到问题生成网络模型。进一步地,所述步骤1中,应用jieba分词算法对文本文档进行分词。进一步地,所述步骤2中,应用word2vec模型将分词后的文本文档转换为向量。进一步地,所述步骤2中,应用skip-gram模型将分词后的文本文档转换为向量。进一步地,所述步骤4包括以下流程:步骤41,判断所述BP神经网络的误差是否小于预设误差阈值;步骤42,当所述BP神经网络的误差不小于预设误差阈值时,更新所述BP神经网络中的权值,对所述BP神经网络训练进行训练;步骤43,当所述BP神经网络的误差小于预设误差阈值时,保存所述BP神经网络中的参数,得到问题生成网络模型。本专利技术的有益效果:本专利技术提供了一种问题生成方法,在将文本文档进行分词后,将其转换为终端能够处理的向量的形式,把向量输入至逆向传播神经网络中对网络进行训练,直到BP网络输出的误差在阈值以内才完成训练,保证了问题生成的质量;且将逆向传播神经网络应用于问题生成中,实现了自动非数据库匹配的问题生成,使问题生成更加灵活,适用性更广。附图说明图1为本专利技术实施例的流程图。图2为本专利技术的BP神经网络的结构示意图。图3为本专利技术实施例的另一流程图。具体实施方式下面结合附图对本专利技术的实施例做进一步的说明。请参阅图1,本专利技术提供的一种问题生成方法,具体如下:步骤1,对文本文档进行分词。本实施例中,将文本文档中的句子、文字段中的词语分开,遇到回车以及制表符号变为空格。本实施例的优选实施例中,利用jieba分词技术进行分词,优选的,选用jieba库中的cut方法。步骤2,将分词后的文本文档转换为向量。本实施例中,将分词后的文本文档转换为计算机等终端能识别处理的多维向量空间中的向量的形式,其向量的相似程度就可以近似表示为文档中的语句的语义相似性。本实施例的优选实施例中,选用gensiom库进行向量处理。由于gensiom是一个可以用来从文档中自动提取句子的语义主题的库,致力于使最初的、无结构的文本文档进行转换,所以使用此库进行向量的操作,此库中有word2vec方法,先利用此方法加载预料,然后训练skip-gram模型,初始化向量维度的大小,调用转换成向量的方法,输出模型就得到相应的向量。而使用word2vec的优点是该方法高效精确。步骤3,构建BP神经网络,输入向量,基于误差逆向传播算法对所述BP神经网络进行训练。请参阅图2,BP神经网络如图所示。本实施例中,构建BP神经网络后,输入步骤2中得到的向量,对网络进行训练。本实施例中,i1和i2表示接收输入的神经元,h1和h2表示隐含层的神经元,o1和o2表示输出层的神经元,从i1到h1、h2的权值分别为w1、w3,从i2到h1、h2的权值分别为w2、w4,从h1到o1、o2的权值分别为w5、w7,从h2到o1、o2的权值分别为w6、w8,b1和b2为偏差项,先计算前向传播过程,输入层到隐含层的加权和,表示为Sh1=i1*w1+i2*w2+b1同理可得Sh2=i1*w3+i2*w4+b1在该层通过sigmoid函数进行处理,如下:同理,可求出神经元h2的输出Oh2计算隐含层到输出层的加权和,即输出层神经元的加权和:同理,可求出同理,在该层需要通过sigmoid函数进行处理,求得输出层的输出,如下:o1的误差为其中,为标准误差,乘是因为后续要对其进行求导,为了消去求导后的系数2。同理,求得神经元o2的误差总误差为在前向传播过程中,输入的各个样本经过输入层传入,再经过各个隐含层逐一处理,传到输出层。因此,先计算第一个神经元的输入的加权和再加上偏置项,其中各层的权重值是随机初始化的,同理依次对输入层的所有的节点进行计算,由于细胞有两种状态:激活和抑制,如果使用函数值为0和1的阶梯函数,这种操作显得比较粗暴,因为这样的函数不连续,而且不可导,一般细胞在激活和抑制的时候是有个取值范围的,所以选用非线性的连续的sigmoid函数对权值和进行非线性的运算,并且将其运算的结果作为第一个神经元的输出,同理计算此列的所有神经元的输出;接下来计算输出层神经元的各个输出,方法是用上一层的输出权值和,再加上相应的偏置即可,最后再对权值和通过sigmoid函数计算即得到输出一的值,同理可以计算该层余下所有节点的输出,得到输出后可计算出总体误差。步骤4,当所述BP神经网络的误差小于预设误差阈值时,所述BP神经网络训练完成,得到问题生成网络模型。请参阅图3,步骤4通过以下流程实现:步骤41,判断所述BP神经网络的误差是否小于预设误本文档来自技高网
...

【技术保护点】
1.一种问题生成方法,其特征在于,包括以下步骤:步骤1,对文本文档进行分词;步骤2,将分词后的文本文档转换为向量;步骤3,构建BP神经网络,输入向量,基于误差逆向传播算法对所述BP神经网络进行训练;步骤4,当所述BP神经网络的误差小于预设误差阈值时,所述BP神经网络训练完成,得到问题生成网络模型。

【技术特征摘要】
1.一种问题生成方法,其特征在于,包括以下步骤:步骤1,对文本文档进行分词;步骤2,将分词后的文本文档转换为向量;步骤3,构建BP神经网络,输入向量,基于误差逆向传播算法对所述BP神经网络进行训练;步骤4,当所述BP神经网络的误差小于预设误差阈值时,所述BP神经网络训练完成,得到问题生成网络模型。2.如权利要求1所述的问题生成方法,其特征在于,所述步骤1中,应用jieba分词算法对文本文档进行分词。3.如权利要求1所述的问题生成方法,其特征在于,所述步骤2中,应用word2vec模型将分词...

【专利技术属性】
技术研发人员:赵豫叶茂徐培苏杨
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1