当前位置: 首页 > 专利查询>中山大学专利>正文

一种游戏平台用户问答业务的短文本分类方法技术

技术编号:24035780 阅读:38 留言:0更新日期:2020-05-07 01:51
本发明专利技术涉及一种游戏平台用户问答业务的短文本分类方法,对分字与分词的词向量矩阵分别通过两个卷积神经网络模型进行语义提取,拼接两个输出结果,通过算法得到该输入文本属于各类别的概率,并选择概率最大的一个类别作为最后输出;本申请能够充分挖掘出中文短文本所包含的语义信息,有效地处理游戏平台用户问答业务中特征较少的短文本类型的数据,在短文本分类任务识别效果更好,效率也有很大的提升。

A short text classification method for user Q & a service of game platform

【技术实现步骤摘要】
一种游戏平台用户问答业务的短文本分类方法
本专利技术涉及智能客服领域,特别是涉及一种游戏平台用户问答业务的短文本分类方法。
技术介绍
在智能客服领域中大量涉及自然语言理解的应用,会对用户提出的问题进行分类,根据问题的分类结果向客户提供相应的信息。目前,自然语言理解常用的模型是基于循环神经网络(RecurrentNeuralNetwork,RNN)的各种变体网络。RNN的特点是可以处理时序数据,其神经元更新依赖上一次的输入以捕捉时序数据,而文本也可以看作一种时序数据,因为文本中的一个词语的出现会受前面词语的影响,因此RNN常用于自然语言理解问题。对于长文本类型的数据,改进的RNN模型如长短期记忆网络(LongShort-TermMemory,LSTM)和注意力机制(AttentionMechanism)都有不错的效果,可以在较长的文本距离上能捕捉到上下文联系。不过在游戏平台用户问答业务场景之下,用户或玩家在提问过程中的表达更接近短文本类型的数据,极其容易出现语法的不完整而导致上下文内容缺失,现有技术常常难以应对。
技术实现思路
本专利技术的目的在于现有技术的局限,提供一种游戏平台用户问答业务的短文本分类方法,由以下技术方案实现:获取用户的输入文本,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语;运用基于分词的词向量模型获得所述分词词语的词向量,对所述分词词语的词向量进行拼接得到第一词向量矩阵,运用基于分词的卷积神经网络模型对所述第一词向量矩阵进行语义提取;其中,所述基于分词的词向量模型及卷积神经网络模型的训练样本源于经过分词处理的语料文本;运用基于分字的词向量模型获得所述分字词语的词向量,对所述分字词语的词向量进行拼接得到第二词向量矩阵,运用基于分字的卷积神经网络模型对所述第二词向量矩阵进行语义提取;其中,所述基于分字的词向量模型及卷积神经网络模型的训练样本源于经过分字处理的语料文本;对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接,对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别。相较于现有技术,本申请对分字与分词的词向量矩阵分别通过两个卷积神经网络模型进行语义提取,拼接两个输出结果,通过算法得到该输入文本属于各类别的概率,并选择概率最大的一个类别作为最后输出;本申请能够充分挖掘出中文短文本所包含的语义信息,有效地处理游戏平台用户问答业务中特征较少的短文本类型的数据,在短文本分类任务识别效果更好,同时在效率上也有很大的提升。进一步的,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语,可包括以下步骤:对所述输入文本进行文本清洗及格式规范化;运用分词工具对文本清洗及格式规范化后的输入文本进行分词处理得到分词词语;其中,所述分词工具的词库预设有所述语料文本的游戏类用词;对文本清洗及格式规范化后的输入文本进行分字处理得到分字词语。由于用户的输入文本噪声数据较多,存在拼写错误或不完整的问题,因而可通过文本清洗去掉不包含语义信息的词语,并对文本的表达和格式进行纠正和规范化;同时,由于用户的输入文本中夹杂着游戏中一些专有的、非正式的用词用语,运用分词工具并在其词库预设所述语料文本的游戏类用词,能更加准确地对输入文本进行分词。在一种可选的实施例中,所述基于分词的词向量模型及基于分字的词向量模型为采用Skip-gram并加入负采样进行模型训练的Word2Vec模型;所述第一词向量矩阵及第二词向量矩阵为M×N的矩阵,M为所述分词词语或分字词语的个数,N为词向量维度。相比CBOW采用输入为上下文,输出为当前词语的方式,Skip-gram采用输入为当前词语,输出为上下文的方式;针对游戏平台用户问答业务的内容,由于本申请涉及的语料库存在较多的低频词语,Skip-gram因上述特点能比CBOW更好处理含低频词较多的语料库;而在Skip-gram中加入负采样还能减少出现频率较多的词语的影响;相比现有技术中通过加权平均把多个句子中的词向量压缩成一个相同维度句子向量,本申请将输入文本所包含的所有词向量拼接为M×N的矩阵,M为所述分词词语或分字词语的个数,N为词向量维度,能有效避免语义信息的丢失。在一种可选的实施例中,所述基于分词的卷积神经网络模型及基于分字的卷积神经网络模型中的每个卷积层都包括一组尺寸为h×n的卷积核;其中,卷积核高度h可变,1≤h≤m,m为词向量矩阵高度,n为词向量维度。与现有卷积神经网络中的卷积层不同的是,本申请使用的卷积层中的卷积核高度是可变的,其高度h会由1变化增加到m,每个卷积核高度的卷积计算结果对应输出矩阵的一行向量,因此输出矩阵可以捕捉到每一个词语的所有N-gram集合的语义。进一步的,根据每一个卷积核kernel,输入词向量矩阵W,卷积层一行输出yi,按以下方式运算得到点积的值yij:yij=f(kernel·[vj,vj+h-1]+b);其中,b是偏置项,v是词向量,[vj,vj+h-1]表示词向量矩阵W中尺寸为h×n的子矩阵,由词向量矩阵W中j行到j+h-1行的词向量v构成,1≤j≤m;卷积核kernel从上至下与尺寸为h×n的子矩阵做点积,拼接所有点积的值yij得到一行的输出yi。进一步的,所述基于分词的卷积神经网络模型及基于分字的卷积神经网络模型的激活函数表达式如下:该激活函数的特点是在x>0时其导数恒为1,在x≤0时其导数恒为0,因此在更新卷积核权重时可以避免出现梯度消失或梯度弥散问题。进一步的,对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别,包括按以下方式运算得到各个分类类别的结果pi:其中,i为一个分类类别,pi为分类类别i的概率,z为全连接层的输出向量,其下标为向量对应位置的数值,k为所有分类类别的总数,各个分类类别的概率pi相加和为1。一种游戏平台用户问答业务的短文本分类系统,包括:输入文本处理模块,用于获取用户的输入文本,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语;分词语义提取模块,用于运用基于分词的词向量模型获得所述分词词语的词向量,对所述分词词语的词向量进行拼接得到第一词向量矩阵,运用基于分词的卷积神经网络模型对所述第一词向量矩阵进行语义提取;其中,所述基于分词的词向量模型及卷积神经网络模型的训练样本源于经过分词处理的语料文本;分字语义提取模块,用于运用基于分字的词向量模型获得所述分字词语的词向量,对所述分字词语的词向量进行拼接得到第二词向量矩阵,运用基于分字的卷积神经网络模型对所述第二词向量矩阵进行语义提取;其中,所述基于分字的词向量模型及卷积神经网络模型的训练样本源于经过分字处理的语料文本;概率最大的分类类别获取模块,用于对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接,对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别。本专利技术还提供一种储存介质,其上储存有计算机程序,所本文档来自技高网...

【技术保护点】
1.一种游戏平台用户问答业务的短文本分类方法,其特征在于,包括以下步骤:/n获取用户的输入文本,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语;/n运用基于分词的词向量模型获得所述分词词语的词向量,对所述分词词语的词向量进行拼接得到第一词向量矩阵,运用基于分词的卷积神经网络模型对所述第一词向量矩阵进行语义提取;其中,所述基于分词的词向量模型及卷积神经网络模型的训练样本源于经过分词处理的语料文本;/n运用基于分字的词向量模型获得所述分字词语的词向量,对所述分字词语的词向量进行拼接得到第二词向量矩阵,运用基于分字的卷积神经网络模型对所述第二词向量矩阵进行语义提取;其中,所述基于分字的词向量模型及卷积神经网络模型的训练样本源于经过分字处理的语料文本;/n对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接,对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别。/n

【技术特征摘要】
1.一种游戏平台用户问答业务的短文本分类方法,其特征在于,包括以下步骤:
获取用户的输入文本,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语;
运用基于分词的词向量模型获得所述分词词语的词向量,对所述分词词语的词向量进行拼接得到第一词向量矩阵,运用基于分词的卷积神经网络模型对所述第一词向量矩阵进行语义提取;其中,所述基于分词的词向量模型及卷积神经网络模型的训练样本源于经过分词处理的语料文本;
运用基于分字的词向量模型获得所述分字词语的词向量,对所述分字词语的词向量进行拼接得到第二词向量矩阵,运用基于分字的卷积神经网络模型对所述第二词向量矩阵进行语义提取;其中,所述基于分字的词向量模型及卷积神经网络模型的训练样本源于经过分字处理的语料文本;
对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接,对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别。


2.根据权利要求1所述的游戏平台用户问答业务的短文本分类方法,其特征在于,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语,包括以下步骤:
对所述输入文本进行文本清洗及格式规范化;
运用分词工具对文本清洗及格式规范化后的输入文本进行分词处理得到分词词语;其中,所述分词工具的词库预设有所述语料文本的游戏类用词;
对文本清洗及格式规范化后的输入文本进行分字处理得到分字词语。


3.根据权利要求1所述的游戏平台用户问答业务的短文本分类方法,其特征在于,所述基于分词的词向量模型及基于分字的词向量模型为采用Skip-gram并加入负采样进行模型训练的Word2Vec模型;所述第一词向量矩阵及第二词向量矩阵为M×N的矩阵,M为所述分词词语或分字词语的个数,N为词向量维度。


4.根据权利要求1所述的游戏平台用户问答业务的短文本分类方法,其特征在于,所述基于分词的卷积神经网络模型及基于分字的卷积神经网络模型中的每个卷积层都包括一组尺寸为h×n的卷积核;其中,卷积核高度h可变,1≤h≤m,m为词向量矩阵高度,n为词向量维度。


5.根据权利要求4所述的游戏平台用户问答业务的短文本分类方法,其特征在于,根据每一个卷积核kernel,输入词向量矩阵W,卷积层一行输出yi,按以下方式运算得到点积的值yij:
yij=f(kernel·[vj,vj+h-1]+b);
其中,b是偏置项,v是词向量,[vj,vj+h...

【专利技术属性】
技术研发人员:陶涛刘冶桂进军陈宇恒潘炎印鉴
申请(专利权)人:中山大学广州赫炎大数据科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1