【技术实现步骤摘要】
一种游戏平台用户问答业务的短文本分类方法
本专利技术涉及智能客服领域,特别是涉及一种游戏平台用户问答业务的短文本分类方法。
技术介绍
在智能客服领域中大量涉及自然语言理解的应用,会对用户提出的问题进行分类,根据问题的分类结果向客户提供相应的信息。目前,自然语言理解常用的模型是基于循环神经网络(RecurrentNeuralNetwork,RNN)的各种变体网络。RNN的特点是可以处理时序数据,其神经元更新依赖上一次的输入以捕捉时序数据,而文本也可以看作一种时序数据,因为文本中的一个词语的出现会受前面词语的影响,因此RNN常用于自然语言理解问题。对于长文本类型的数据,改进的RNN模型如长短期记忆网络(LongShort-TermMemory,LSTM)和注意力机制(AttentionMechanism)都有不错的效果,可以在较长的文本距离上能捕捉到上下文联系。不过在游戏平台用户问答业务场景之下,用户或玩家在提问过程中的表达更接近短文本类型的数据,极其容易出现语法的不完整而导致上下文内容缺失,现有技术常常难以应对。
技术实现思路
本专利技术的目的在于现有技术的局限,提供一种游戏平台用户问答业务的短文本分类方法,由以下技术方案实现:获取用户的输入文本,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语;运用基于分词的词向量模型获得所述分词词语的词向量,对所述分词词语的词向量进行拼接得到第一词向量矩阵,运用基于分词的卷积神经网络模型对所述第一词向量矩阵进行语义提取;其中, ...
【技术保护点】
1.一种游戏平台用户问答业务的短文本分类方法,其特征在于,包括以下步骤:/n获取用户的输入文本,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语;/n运用基于分词的词向量模型获得所述分词词语的词向量,对所述分词词语的词向量进行拼接得到第一词向量矩阵,运用基于分词的卷积神经网络模型对所述第一词向量矩阵进行语义提取;其中,所述基于分词的词向量模型及卷积神经网络模型的训练样本源于经过分词处理的语料文本;/n运用基于分字的词向量模型获得所述分字词语的词向量,对所述分字词语的词向量进行拼接得到第二词向量矩阵,运用基于分字的卷积神经网络模型对所述第二词向量矩阵进行语义提取;其中,所述基于分字的词向量模型及卷积神经网络模型的训练样本源于经过分字处理的语料文本;/n对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接,对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别。/n
【技术特征摘要】
1.一种游戏平台用户问答业务的短文本分类方法,其特征在于,包括以下步骤:
获取用户的输入文本,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语;
运用基于分词的词向量模型获得所述分词词语的词向量,对所述分词词语的词向量进行拼接得到第一词向量矩阵,运用基于分词的卷积神经网络模型对所述第一词向量矩阵进行语义提取;其中,所述基于分词的词向量模型及卷积神经网络模型的训练样本源于经过分词处理的语料文本;
运用基于分字的词向量模型获得所述分字词语的词向量,对所述分字词语的词向量进行拼接得到第二词向量矩阵,运用基于分字的卷积神经网络模型对所述第二词向量矩阵进行语义提取;其中,所述基于分字的词向量模型及卷积神经网络模型的训练样本源于经过分字处理的语料文本;
对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接,对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别。
2.根据权利要求1所述的游戏平台用户问答业务的短文本分类方法,其特征在于,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语,包括以下步骤:
对所述输入文本进行文本清洗及格式规范化;
运用分词工具对文本清洗及格式规范化后的输入文本进行分词处理得到分词词语;其中,所述分词工具的词库预设有所述语料文本的游戏类用词;
对文本清洗及格式规范化后的输入文本进行分字处理得到分字词语。
3.根据权利要求1所述的游戏平台用户问答业务的短文本分类方法,其特征在于,所述基于分词的词向量模型及基于分字的词向量模型为采用Skip-gram并加入负采样进行模型训练的Word2Vec模型;所述第一词向量矩阵及第二词向量矩阵为M×N的矩阵,M为所述分词词语或分字词语的个数,N为词向量维度。
4.根据权利要求1所述的游戏平台用户问答业务的短文本分类方法,其特征在于,所述基于分词的卷积神经网络模型及基于分字的卷积神经网络模型中的每个卷积层都包括一组尺寸为h×n的卷积核;其中,卷积核高度h可变,1≤h≤m,m为词向量矩阵高度,n为词向量维度。
5.根据权利要求4所述的游戏平台用户问答业务的短文本分类方法,其特征在于,根据每一个卷积核kernel,输入词向量矩阵W,卷积层一行输出yi,按以下方式运算得到点积的值yij:
yij=f(kernel·[vj,vj+h-1]+b);
其中,b是偏置项,v是词向量,[vj,vj+h...
【专利技术属性】
技术研发人员:陶涛,刘冶,桂进军,陈宇恒,潘炎,印鉴,
申请(专利权)人:中山大学,广州赫炎大数据科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。