类别划分方法和系统以及分类神经网络训练方法和装置制造方法及图纸

技术编号:19215708 阅读:17 留言:0更新日期:2018-10-20 06:43
本发明专利技术公开了一种类别划分及分类神经网络训练方法、装置、设备及系统。其中,将预测输入序列中的每个元素分别转换为预定维数的第一向量,以得到第一向量组;将第一向量组中的第一向量依次输入由多个LSTM层连接而成的复合LSTM结构,以得到分别由多个LSTM层之中的至少一个LSTM层输出的至少一个第二向量组;将第一向量组和至少一个第二向量组进行拼接,以得到第三向量组;对第三向量组中的至少部分第三向量进行重要性加权平均,以得到第四向量;将第四向量输入分类器,以得到针对预测输入序列的类别划分结果。由此,可以使得对多种类别进行识别成为可能,且可以提高类别识别的准确度。

【技术实现步骤摘要】
类别划分方法和系统以及分类神经网络训练方法和装置
本专利技术总体说来涉及人工智能
,更具体地讲,涉及一种针对序列进行类别划分的方法及系统、一种用于针对序列进行类别划分的分类神经网络的训练方法及训练装置、以及相应的计算设备和非暂时性机器可读存储介质。
技术介绍
对连续的一系列元素进行类型识别在诸多领域都起着举足轻重的作用,可有助于进一步得到智能化的应用。例如,对对话语句的意图类型(如肯定、否定、疑问)的识别,对人机交互的智能程度至关重要。再例如,随着媒体信息的爆炸式增长,对短句(诸如广告语)、段落、摘要、文章等多种类型的信息进行主题分类,也显得尤为重要。目前,随着神经网络技术的发展,利用神经网络对序列化对象的类别进行划分逐渐成为一种主流方案,然而,现有类别划分方式无法在输入序列较为复杂的情况下对其进行有效的划分。以对语句的情感类型进行识别为例,公开号为CN107368613A的中国专利申请提出了一种短文本情感分析方法,其使用了LSTM结构,能够在一定程度上较为准确地划分出语句的正负情感极性,而对于诸如反讽、疑问等复杂情感语句的识别能力有限。
技术实现思路
本专利技术的示例性实施例在于提供一种针对序列进行类别划分的方法及系统、一种用于针对序列进行类别划分的分类神经网络的训练方法及训练装置、以及相应的计算设备和非暂时性机器可读存储介质,以解决现有技术存在的上述问题。根据本专利技术的第一个方面,提供一种用于针对序列进行类别划分的方法,包括:将预测输入序列中的每个元素分别转换为预定维数的第一向量,以得到第一向量组;将第一向量组中的第一向量依次输入由多个LSTM层连接而成的复合LSTM结构,以得到分别由多个LSTM层之中的至少一个LSTM层输出的至少一个第二向量组;将第一向量组和至少一个第二向量组进行拼接,以得到第三向量组;对第三向量组中的至少部分第三向量进行重要性加权平均,以得到第四向量;将第四向量输入分类器,以得到针对预测输入序列的类别划分结果。可选地,LSTM层为双向LSTM层。可选地,使用嵌入层将预测输入序列中的每个元素分别转换为预定维数的第一向量,使用拼接结构将第一向量组和至少一个第二向量组进行拼接,并且,使用基于注意力机制的关注结构对第三向量组中的至少部分第三向量进行重要性加权平均,其中,嵌入层、复合LSTM结构、拼接结构、关注结构和分类器构成分类神经网络,其中,复合LSTM结构与嵌入层、关注结构和分类器三者之中的一项或多项被进行联合训练。可选地,复合LSTM结构由三个LSTM层连接而成。可选地,方法还包括:基于原始预测输入语句来产生预测输入序列,其中,元素指示字或词,类别涉及语句情感、语句意图或语句主题。可选地,元素还指示标点。可选地,元素还指示填充符,并且,基于原始预测输入语句来产生预测输入序列的步骤包括:统计原始预测输入语句中的元素个数;以及在统计得到的元素个数低于预定数量的情况下,通过在原始预测输入语句的结尾填充一个或多个填充符来得到预测输入序列。可选地,基于原始预测输入语句来产生预测输入序列的步骤还包括:在统计原始预测输入语句中的元素个数之前,去除原始预测输入语句中作为低频字或词的元素和/或作为停用词的元素。可选地,基于原始预测输入语句来产生预测输入序列的步骤还包括:将去除的元素替换为填充符。可选地,统计原始预测输入语句中的元素个数的步骤包括:使用N-gram模型统计原始预测输入语句中的元素个数,其中,N为大于或等于1的整数。可选地,元素具有对应的索引值,并且,将预测输入序列中的每个元素分别转换为预定维数的第一向量的步骤包括:将预测输入序列中的每个元素所对应的索引值分别转换为预定维数的第一向量。根据本专利技术的第二个方面,还提供一种用于针对序列进行类别划分的分类神经网络的训练方法,其中,所述分类神经网络包括嵌入层、复合LSTM结构、拼接结构、基于注意力机制的关注结构和分类器,所述复合LSTM结构由多个LSTM层连接而成,该方法包括:将基于历史输入序列和所述历史输入序列的真实类别产生的训练样本输入所述分类神经网络以进行运算,其中,所述历史输入序列中的每个元素经由所述嵌入层被分别转换为预定维数的第一向量,以得到第一向量组;所述第一向量组中的第一向量依次被输入所述复合LSTM结构,以得到分别由所述多个LSTM层之中的至少一个LSTM层输出的至少一个第二向量组;所述第一向量组和所述至少一个第二向量组经由所述拼接结构进行拼接,以得到第三向量组;所述第三向量组中的至少部分第三向量经由所述关注结构进行重要性加权平均,以得到第四向量;所述第四向量经由所述分类器进行类别预测,以得到所述训练样本的预测类别;根据所述预测类别与所述真实类别之间的差异来联合调整复合LSTM结构与嵌入层、关注结构和分类器三者之中的一项或多项。可选地,所述LSTM层为双向LSTM层。可选地,复合LSTM单元由三个LSTM层连接而成。可选地,方法还包括:基于原始历史输入语句来产生历史输入序列,其中,所述元素指示字或词,所述类别涉及语句情感、语句意图或语句主题。可选地,所述元素还指示标点。可选地,所述元素还指示填充符,并且,基于原始历史输入语句来产生历史输入序列的步骤包括:统计原始历史输入语句中的元素个数;以及在统计得到的元素个数低于预定数量的情况下,通过在原始历史输入语句的结尾填充一个或多个填充符来得到历史输入序列。可选地,基于原始历史输入语句来产生历史输入序列的步骤还包括:在统计原始历史输入语句中的元素个数之前,去除原始历史输入语句中作为低频字或词的元素和/或作为停用词的元素。可选地,基于原始历史输入语句来产生历史输入序列的步骤还包括:将去除的元素替换为填充符。可选地,所述统计原始历史输入语句中的元素个数的步骤包括:使用N-gram模型统计所述原始历史输入语句中的元素个数,其中,N为大于或等于1的整数。可选地,所述元素具有对应的索引值,并且,所述历史输入序列中的每个元素所对应的索引值经由所述嵌入层被分别转换为预定维数的第一向量。根据本专利技术的第三个方面,还提供一种用于针对序列进行类别划分的系统,包括:嵌入单元,用于使用嵌入层将预测输入序列中的每个元素分别转换为预定维数的第一向量,以得到第一向量组;复合LSTM单元,用于将所述第一向量组中的第一向量依次输入由多个LSTM层连接而成的复合LSTM结构,以得到分别由所述多个LSTM层之中的至少一个LSTM层输出的至少一个第二向量组;拼接单元,用于使用拼接结构将所述第一向量组和所述至少一个第二向量组进行拼接,以得到第三向量组;关注单元,用于使用基于注意力机制的关注结构对所述第三向量组中的至少部分第三向量进行重要性加权平均,以得到第四向量;分类单元,用于将所述第四向量输入分类器,以得到针对所述预测输入序列的类别划分结果。可选地,所述LSTM层为双向LSTM层。可选地,嵌入层、复合LSTM结构、拼接结构、关注结构和分类器构成分类神经网络,其中,复合LSTM结构与嵌入层、关注结构和分类器三者之中的一项或多项被进行联合训练。可选地,复合LSTM结构由三个LSTM层连接而成。可选地,系统还包括:语句处理单元,用于基于原始预测输入语句来产生预测输入序列,其中,所述元素指示字或词,所述类别涉及语句情感、语句意图本文档来自技高网...

【技术保护点】
1.一种用于针对序列进行类别划分的方法,包括:将预测输入序列中的每个元素分别转换为预定维数的第一向量,以得到第一向量组;将所述第一向量组中的第一向量依次输入由多个LSTM层连接而成的复合LSTM结构,以得到分别由所述多个LSTM层之中的至少一个LSTM层输出的至少一个第二向量组;将所述第一向量组和所述至少一个第二向量组进行拼接,以得到第三向量组;对第三向量组中的至少部分第三向量进行重要性加权平均,以得到第四向量;以及将所述第四向量输入分类器,以得到针对所述预测输入序列的类别划分结果。

【技术特征摘要】
1.一种用于针对序列进行类别划分的方法,包括:将预测输入序列中的每个元素分别转换为预定维数的第一向量,以得到第一向量组;将所述第一向量组中的第一向量依次输入由多个LSTM层连接而成的复合LSTM结构,以得到分别由所述多个LSTM层之中的至少一个LSTM层输出的至少一个第二向量组;将所述第一向量组和所述至少一个第二向量组进行拼接,以得到第三向量组;对第三向量组中的至少部分第三向量进行重要性加权平均,以得到第四向量;以及将所述第四向量输入分类器,以得到针对所述预测输入序列的类别划分结果。2.根据权利要求1所述的方法,其中,使用嵌入层将预测输入序列中的每个元素分别转换为预定维数的第一向量,使用拼接结构将所述第一向量组和所述至少一个第二向量组进行拼接,并且,使用基于注意力机制的关注结构对所述第三向量组中的至少部分第三向量进行重要性加权平均,其中,嵌入层、复合LSTM结构、拼接结构、关注结构和分类器构成分类神经网络,其中,复合LSTM结构与嵌入层、关注结构和分类器三者之中的一项或多项被进行联合训练。3.根据权利要求1所述的方法,还包括:基于原始预测输入语句来产生预测输入序列,其中,所述元素指示字或词,所述类别涉及语句情感、语句意图或语句主题。4.根据权利要求3所述的方法,其中,所述元素还指示填充符,并且,基于原始预测输入语句来产生预测输入序列的步骤包括:统计原始预测输入语句中的元素个数;以及在统计得到的元素个数低于预定数量的情况下,通过在原始预测输入语句的结尾填充一个或多个填充符来得到预测输入序列。5.根据权利要求4所述的方法,其中,基于原始预测输入语句来产生预测输入序列的步骤还包括:在统计原始预测输入语句中的元素个数之前,去除原始预测输入语句中作为低频字或词的元素和/或作为停用词的元素。6.一种用于针对序列进行类别划分的分类神经网络的训练方法,其中,所述分类神经网络包括嵌入层、复合LSTM结构、拼接结构、基于注意力机制的关注结构和分类器,所述复合LSTM结构由多个LSTM层连接而成,该方法包括:将基于历史输入序列和所述历史输入序列的真实类别产生的训练样本输入所述分类神经网络以进行运算,其中,所述历史输入序列中的每个元素经由所述嵌入层被分别转换为预定维数的第一向量,以得到第一向量组;所述第一向量组中的第一向量依次被输入所述复合LSTM结构,以得到分别由所述多个LSTM层之中的至少一个LSTM层输出的至少一个第二向量组;所述第一向量组和所述至少一个第二向量组经由所述拼接结构进行拼接,以得到第三向量组...

【专利技术属性】
技术研发人员:裴炜欣王珵
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1