当前位置: 首页 > 专利查询>福州大学专利>正文

面向社区问答的问题分类方法及系统技术方案

技术编号:24708143 阅读:70 留言:0更新日期:2020-06-30 23:59
本发明专利技术涉及一种面向社区问答的问题分类方法及系统,该方法包括以下步骤:步骤A:采集网络问答社区中用户所提问题以及对应的问题类别,构建问题分类训练集

【技术实现步骤摘要】
面向社区问答的问题分类方法及系统
本专利技术属于自然语言处理与智能问答应用领域,具体涉及一种面向社区问答的问题分类方法及系统。
技术介绍
问答(QuestionAnswering,QA)系统起源于图灵测试,随着时间的发展,问答系统领域也发生了重大变革。按照处理的数据格式不同,问答系统分别经历了结构化知识库阶段、无结构文本阶段、基于问题.答案数据阶段。随着互联网的普及,网上出现了大量的文本和各种大型论坛,这为智能问答系统的兴起奠定了基础。在问答系统中,问题分类逐渐成了问答系统的一个重要研究分支。在早期,一些问题分类的方法主要在特定领域下采用模板或者规则来对问题进行分类,如依照一些特定的疑问词使用模板进行匹配,在一些问题分类任务上取得了一定的成果。除此之外,Yu等人通过半监督学习来进行问题分类,在数据集中协同使用未标注和已标注的数据,通过词间的语义相似性作为特征分类,实验结果得到较大的提高。Xu等人基于朴素贝叶斯来使用汉语依存语法提取问题文本的句法特征进行问题分类,有效提高了问题分类的精度。深度学习理论在答案抽取和排序任务上也有一定应用。Zhou等人将输入序列先输入CNN后,在输入LSTM来得问题句子的表征向量,输入到softmax中进行问题分类。,Wang等人则先使用LSTM来得到输入问题文本序列的隐藏序列,在利用CNN模型来得到最终的表征向量,最后进行问题分类。传统CQA系统使用有监督学习,训练问题分类模型,但该方法需要抽取复杂的文本特征,特征工程需要较多的工程经验,很难在特征构造上做到最优,并且该方法在新的数据集上泛化性能较差,对新数据集往往需求重新进行特征抽取和特征工程。目前基于深度学习的方法通常基于单一的卷积神经网络或循环神经网络,或者串行结合卷积神经网络和循环神经网络,无法全面准确地提取影响问题分类精度的各项特征。
技术实现思路
本专利技术的目的在于提供一种面向社区问答的问题分类方法及系统,该方法及系统有利于提高社区问答中问题分类的准确性。为实现上述目的,本专利技术采用的技术方案是:一种面向社区问答的问题分类方法,包括以下步骤:步骤A:采集网络问答社区中用户所提问题以及对应的问题类别,构建问题分类训练集TS;步骤B:对问题分类训练集TS中的问题进行字符级编码和词语级编码,得到问题的表征向量,以此训练基于双通道神经网络的深度学习网络模型;步骤C:问题分类系统接受用户提交的问题,将问题输入到训练好的深度学习网络模型中,输出模型划分的问题所述类别。进一步地,所述步骤B具体包括以下步骤:步骤B1:遍历问题分类训练集TS,TS中的每个训练样本表示为(q,y),其中q表示问题,y=c∈C表示问题q所属的问题类别,C={1,2,...,L}为问题类别集合,1≤c≤L,L表示问题类别数;将问题q输入深度学习网络模型的字符级编码模块,得到问题q的字符向量序列步骤B2:将问题q的字符向量序列输入深度学习网络模型的双层Bi-LSTM网络模块,再输入注意力模块,得到问题q的表征向量步骤B3:将问题q输入深度学习网络模型的词语级编码模块,得到问题q的词语级表征向量步骤B4:将问题q的词语级表征向量输入到深度学习网络模型的带shortcut连接的卷积神经网络中,得到问题q的表征向量步骤B5:将问题q的表征向量与输入全连接层进行融合,得到问题q的最终表征向量将输入到Softmax层中,计算问题q属于各个问题类别的概率选择作为预测的问题类别;步骤B6:根据目标损失函数loss,利用反向传播方法计算深度学习网络模型中各参数的梯度,并利用随机梯度下降方法更新参数,以此训练深度学习网络模型;步骤B7:当深度学习网络模型产生的损失值迭代变化小于设定阈值或者达到最大迭代次数时,则终止深度学习网络模型的训练。进一步地,所述步骤B1具体包括以下步骤:步骤B11:对问题q进行分词处理,并去除停用词,得到问题q的词序列q={w1,w2,...,wk},其中wi,i=1,2,...,k为分词及去除停用词后的问题q中的第i个词,k为分词及去除停用词后的问题q中的词语数,其中ci,j,j=1,2,...,ni为构成wi的第j个字符,ni为wi中的字符数;步骤B12:对问题q的词序列q={w1,w2,...,wk}中的每个词wi进行字符级编码,wi的字符序列为则wi的字符向量序列为i=1,2,...,k,其中j=1,2,...,ni为ci,j的字符向量,在预训练的字符向量矩阵中查询得到,其中d1表示字符向量的维度,|V1|表示字符向量矩阵E1中的字符总数;则问题q的字符向量序列为进一步地,所述步骤B2具体包括以下步骤:步骤B21:遍历问题q的每个词wi,将其字符向量序列输入第一层Bi-LSTM网络,得到wi的隐藏状态序列取作为wi的词向量即则问题q的词向量序列为步骤B22:将输入第二层Bi-LSTM网络,得到问题q的隐藏状态序列h=[h1,h2,...,hi,...,hk],其中hi为的隐藏状态;步骤B23:将问题q的隐藏状态序列h=[h1,h2,...,hi,...,hk]输入到注意力层,输出问题q的表征向量其中,Wa表示权重矩阵。进一步地,所述步骤B3的具体方法为:对问题q的词序列q={w1,w2,...,wk},其词向量序列为[e1,e2,...,ek],i=1,2,...,k,ei为第i个词wi的词向量,在预训练的词向量矩阵中查询得到,其中d2表示词向量的维度,|V2|表示预训练的词向量矩阵E2中的词数;则问题q的词语级表征向量为进一步地,所述步骤B4具体包括以下步骤:步骤B41:对进行一轮卷积,获得表征向量x1,对x1进行两轮卷积,获得表征向量x2;步骤B42:通过shortcut连接表征向量x1和x2,得到表征向量以缓解梯度消失问题,则有:xs=x1+x2步骤B43:对表征向量xs进行最大池化,得到池化后的向量xp;步骤B44:将池化向量xp作为输入,对xp进行2轮卷积得到向量x3,通过shortcut连接xp和x3并进行最大池化后输入到全连接层,将全连接层的输出作为问题q的表征向量进一步地,所述步骤B41的具体方法为:在每轮卷积中,卷积核的大小设为h,卷积核的数量设为l,padding设置为(h-1)/2,则每轮卷积中的第t个卷积核的输出为:其中,卷积核在位置i的输出为:其中为每轮卷积中第t个卷积核的参数,t=1,2,...,l,是偏置参数,f为激活函数,表示输入卷积核的表征向量落在卷积核窗口内的第i到i+h-1列;连接l个卷积核的输出,得到表征向量对进行两轮卷积,连接l个卷积核的输出,得到表征向量本专利技术还提供了一种面向社区问答的问题分类系统,其特征在于,包括:数据收集模块,用于采集网络问答社区中用户所提问题以及对应的问题类别,构建问题分类训练集本文档来自技高网
...

【技术保护点】
1.一种面向社区问答的问题分类方法,其特征在于,包括以下步骤:/n步骤A:采集网络问答社区中用户所提问题以及对应的问题类别,构建问题分类训练集TS;/n步骤B:对问题分类训练集TS中的问题进行字符级编码和词语级编码,得到问题的表征向量,以此训练基于双通道神经网络的深度学习网络模型;/n步骤C:问题分类系统接受用户提交的问题,将问题输入到训练好的深度学习网络模型中,输出模型划分的问题所述类别。/n

【技术特征摘要】
1.一种面向社区问答的问题分类方法,其特征在于,包括以下步骤:
步骤A:采集网络问答社区中用户所提问题以及对应的问题类别,构建问题分类训练集TS;
步骤B:对问题分类训练集TS中的问题进行字符级编码和词语级编码,得到问题的表征向量,以此训练基于双通道神经网络的深度学习网络模型;
步骤C:问题分类系统接受用户提交的问题,将问题输入到训练好的深度学习网络模型中,输出模型划分的问题所述类别。


2.根据权利要求1所述的面向社区问答的问题分类方法,其特征在于,所述步骤B具体包括以下步骤:
步骤B1:遍历问题分类训练集TS,TS中的每个训练样本表示为(q,y),其中q表示问题,y=c∈C表示问题q所属的问题类别,C={1,2,...,L}为问题类别集合,1≤c≤L,L表示问题类别数;将问题q输入深度学习网络模型的字符级编码模块,得到问题q的字符向量序列
步骤B2:将问题q的字符向量序列输入深度学习网络模型的双层Bi-LSTM网络模块,再输入注意力模块,得到问题q的表征向量
步骤B3:将问题q输入深度学习网络模型的词语级编码模块,得到问题q的词语级表征向量
步骤B4:将问题q的词语级表征向量输入到深度学习网络模型的带shortcut连接的卷积神经网络中,得到问题q的表征向量
步骤B5:将问题q的表征向量与输入全连接层进行融合,得到问题q的最终表征向量将输入到Softmax层中,计算问题q属于各个问题类别的概率选择作为预测的问题类别;
步骤B6:根据目标损失函数loss,利用反向传播方法计算深度学习网络模型中各参数的梯度,并利用随机梯度下降方法更新参数,以此训练深度学习网络模型;
步骤B7:当深度学习网络模型的损失值迭代变化小于设定阈值或者达到最大迭代次数时,则终止深度学习网络模型的训练。


3.根据权利要求2所述的面向社区问答的问题分类方法,其特征在于,所述步骤B1具体包括以下步骤:
步骤B11:对问题q进行分词处理,并去除停用词,得到问题q的词序列q={w1,w2,...,wk},其中wi,i=1,2,...,k为分词及去除停用词后的问题q中的第i个词,k为分词及去除停用词后的问题q中的词语数,其中ci,j,j=1,2,...,ni为构成wi的第j个字符,ni为wi中的字符数;
步骤B12:对问题q的词序列q={w1,w2,...,wk}中的每个词wi进行字符级编码,wi的字符序列为则wi的字符向量序列为其中为ci,j的字符向量,在预训练的字符向量矩阵中查询得到,其中d1表示字符向量的维度,|V1|表示字符向量矩阵E1中的字符总数;则问题q的字符向量序列为


4.根据权利要求3所述的面向社区问答的问题分类方法,其特征在于,所述步骤B2具体包括以下步骤:
步骤B21:遍历问题q的每个词wi,将其字符向量序列输入第一层Bi-LSTM网络,得到wi的隐藏状态序列取作为wi的...

【专利技术属性】
技术研发人员:陈羽中张衍坤
申请(专利权)人:福州大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1