文本分类模型的构建方法、系统以及计算机可读存储介质技术方案

技术编号:21034440 阅读:31 留言:0更新日期:2019-05-04 05:29
本发明专利技术提出了一种文本分类模型的构建方法、文本分类模型的构建系统和计算机可读存储介质。其中,文本分类模型的构建方法包括:采集至少三轮对话信息;将至少三轮对话信息并行输入至卷积神经网络文本分类模型;根据至少三轮对话信息对卷积神经网络文本分类模型进行训练,得到文本分类模型。利用并行输入的对话信息对卷积神经网络文本分类模型进行训练,由于训练过程中使用的并行输入的信息具有上下文关联关系的对话信息,因此,得到的训练结果能够实现结合上下文进行文本分类,进而提高文本分类的准确性。

Construction Method, System and Computer Readable Storage Medium of Text Classification Model

【技术实现步骤摘要】
文本分类模型的构建方法、系统以及计算机可读存储介质
本专利技术涉及文本分类
,具体而言,涉及一种文本分类模型的构建方法、文本分类模型的构建系统和计算机可读存储介质。
技术介绍
多通道卷积神经网络多应用在图像处理领域,如应用在人机交互中图像识别,或者在视频目标图像追踪中,实现了目标的快速确定。相关技术中,文本分类运用的是softmax分类器(一种损失函数运用softmax函数的分类器),但softmax函数有严重的问题是softmax分类输出的概率(0~1)互斥。某一类别概率高会让其他类别概率都很低。比如在政务文本分类中,一条数据既是社保类别又是征缴业务类别,所以很难用单一类别判断数据。Softmax分类器原本用于卷积神经网络图像识别,需要对1000个label(标签)输出确定类别,然而,相关技术中,文本分类运用过程中是对单一数据的进行训练的结果,得到的训练模型不能对具有上下文关联的信息进行关联处理,致使准确率较低。因此,亟需一种文本分类模型的构建方法,以使构建得到的模型能够实现上下文关联处理,进而提高分类的准确性。
技术实现思路
本专利技术旨在至少解决现有技术或相关技术中存在的技术问题之一。为此,本专利技术第一个方面在于提出一种文本分类模型的构建方法。本专利技术的第二个方面在于提出一种文本分类模型的构建系统。本专利技术的第三个方面在于提出一种计算机可读存储介质。有鉴于此,根据本专利技术的一个方面,提出了一种文本分类模型的构建方法,包括:采集至少三轮对话信息;将至少三轮对话信息并行输入至卷积神经网络文本分类模型;根据至少三轮对话信息对卷积神经网络文本分类模型进行训练,得到文本分类模型。本专利技术提供的文本分类模型的构建方法,采集至少三轮对话信息,其中至少三轮对话信息可以来源于真实场景下的人机交互场景,或者为对话双方的记录信息,例如医疗场景下的对话信息,也可以是人社局工作人员和办理人员的交谈对话信息;将获取得到的对话信息并行输入至CNN文本分类模型中,(CNN,ConvolutionalNeuralNetworks卷积神经网络),利用并行输入的对话信息对CNN文本分类模型进行训练,由于训练过程中使用的并行输入的信息具有上下文关联关系的对话信息,因此,得到的训练结果能够实现结合上下文进行文本分类,进而提高文本分类的准确性。根据本专利技术的上述文本分类模型的构建方法,还可以具有以下技术特征:在上述技术方案中,优选地,至少三轮对话信息通过以下任意一种方式并行输入至卷积神经网络文本分类模型:使用字向量映射的方式将至少三轮对话信息中每一轮对话信息逐字映射到向量空间,生成对应的第一图像,将至少三轮对话信息对应的第一图像并行输入至卷积神经网络文本分类模型;将至少三轮对话信息通过独热编码编译成第二图像输入至卷积神经网络文本分类模型。在该技术方案中,利用字向量映射的方式将至少三轮对话信息中的每一轮对话信息逐字映射到向量空间,生成至少三张第一图像,将至少三轮对话信息对应的第一图像并行输入至CNN文本分类模型中,优选地,CNN文本分类模型为多通道卷积神经网络,以及至少三张第一图像并行输入至多通道卷积神经网络,进行训练,利用字向量映射的方式可以同时对至少三轮对话信息进行映射,进而加快了第一图像的生成速度,减少了训练样本生成过程的时间浪费;或者,利用独热编码将至少三轮对话信息编译成第二图像,其中第二图像中存储至少三轮对话信息,将第二图像输入至CNN文本分类模型中,进而减少了存储中的图像数量,以便进行训练样本的管理,同时能够降低对卷积神经网络的要求,无需多通道模式即可实现上下文关联的样本输入。在上述任一技术方案中,优选地,根据至少三轮对话信息对卷积神经网络文本分类模型进行训练,得到文本分类模型,具体包括:将第一图像或第二图像输入至卷积层进行卷积运算,并将运算结果输入池化层中使用预设方法进行降采样处理;将降采样处理结果输入至全连接层,通过分类器进行分类,并将分类结果输入至优化器进行优化,得到文本分类模型。在该技术方案中,将第一图像或第二图像输入至卷积层进行卷积运算,将第一图像或第二图像的特征提取出来,并将提取出来的运算结果输入至池化层中,使用预设方法对运算结果进行采样,以减少采样数量,并将采样结果输入至全连接层进行分类和优化,以得到训练后的模型,进而利用上述步骤得到的文本分类模型在训练过程中使用的是具有上下文关联关系的对话信息,因而,得到的文本分类模型能够对文本进行分类时能够结合上下文关联信息进行分类,相对于不结合上下文信息训练的文本分类模型提高分类的准确性。在上述任一技术方案中,优选地,预设方法为max-pooling。在该技术方案中,预设方法为max-pooling,即对输入到池化层中的特征值中最强的进行保留,舍弃其他较弱的特征值,进而保证特征的位置与旋转不变性,此外,能够减少文本分类模型的参数数量,减少模型过拟合的问题,同时能够将输入X长度整理为固定长度的输入,以便在网络结构过程中的确定神经元的数量。在上述任一技术方案中,优选地,将降采样处理结果输入至全连接层,通过分类器进行分类,并将分类结果输入至优化器进行优化具体包括:将降采样处理结果输入至全连接层,通过sigmoid分类器进行分类,根据选定的sigmoid损失函数进行迭代运算,直至sigmoid损失函数的数值最小。在该技术方案中,使用sigmoid分类器进行分类,即避免出现分类的结果只能是0-1两种情况,避免出现如使用softmax分类器中存在的互斥情况,其中,sigmoid分类器是基于sigmoid函数的卷积神经网络分类模型,使用sigmoid损失函数进行迭代运算,直至sigmoid损失函数的数值最小,进而利用损失函数的最小值确定得到的模型的优劣,当损失函数的数值最小时,即得到的文本分类模型达到该分类器下的最优状态,使用得到的模型进行分类的准确性越高。在上述任一技术方案中,优选地,根据选定的sigmoid损失函数进行迭代运算,直至sigmoid损失函数的数值最小具体包括:使用Adam改进后的随机梯度下降算法对选定的sigmoid损失函数进行迭代运算,直至sigmoid损失函数的数值最小。在该技术方案中,使用随机梯度下降算法对损失函数进行迭代运算过程中将损失函数中不恰当的数学部分改进为Adam方法,其中,Adam是一种可以替代传统随机梯度下降过程的一阶优化算法,以使改进后的随机梯度下降算法适配选定的sigmoid损失函数,得到sigmoid损失函数的数值最小,提高文本分类模型分类结果的准确性。在上述任一技术方案中,优选地,字向量为采用中英文翻译训练改进的Cove预训练字向量。在该技术方案中,字向量为采用中英文翻译训练改进的Cove预训练字向量,其中,Cove预训练字向量为情景向量(contextvectors,即Cove)进行预训练后的字向量,由于中英文翻译过程中会产生更多的上下文信息,因此字向量选取过程中选择为中英文翻译训练改进的Cove预训练字向量,进而映射到向量空间后生成的第一图像内包含的上下文信息更为丰富,最终得到的文本分类模型分类的准确性更高。在上述任一技术方案中,优选地,在将降采样处理结果输入至全连接层之后,在通过sigmoid分类器进行分类之前,还包括:将将降采样处理结果依次本文档来自技高网...

【技术保护点】
1.一种文本分类模型的构建方法,其特征在于,包括:采集至少三轮对话信息;将所述至少三轮对话信息并行输入至卷积神经网络文本分类模型;根据所述至少三轮对话信息对所述卷积神经网络文本分类模型进行训练,得到所述文本分类模型。

【技术特征摘要】
1.一种文本分类模型的构建方法,其特征在于,包括:采集至少三轮对话信息;将所述至少三轮对话信息并行输入至卷积神经网络文本分类模型;根据所述至少三轮对话信息对所述卷积神经网络文本分类模型进行训练,得到所述文本分类模型。2.根据权利要求1所述的文本分类模型的构建方法,其特征在于,所述至少三轮对话信息通过以下任意一种方式并行输入至卷积神经网络文本分类模型:使用字向量映射的方式将所述至少三轮对话信息中每一轮对话信息逐字映射到向量空间,生成对应的第一图像,将所述至少三轮对话信息对应的第一图像并行输入至所述卷积神经网络文本分类模型;将所述至少三轮对话信息通过独热编码编译成第二图像输入至所述卷积神经网络文本分类模型。3.根据权利要求2所述的文本分类模型的构建方法,其特征在于,所述根据所述至少三轮对话信息对所述卷积神经网络文本分类模型进行训练,得到所述文本分类模型,具体包括:将所述第一图像或所述第二图像输入至卷积层进行卷积运算,并将运算结果输入池化层中使用预设方法进行降采样处理;将降采样处理结果输入至全连接层,通过分类器进行分类,并将分类结果输入至优化器进行优化,得到所述文本分类模型。4.根据权利要求3所述的文本分类模型的构建方法,其特征在于,所述预设方法为max-pooling。5.根据权利要求3所述的文本分类模型的构建方法,其特征在于,所述将降采样处理结果输入至全连接层,通过分类器进行分类,并将分类结果输入至优化器进行优化具体包括:将降采样处理结果输入至全连接层,通过sigmoid分类器进行分类,根据选定的sigmoid损失函数进行迭代运算,直至所述sigmoid损失函数的数值最小。6.根据权利要求5所述的文本分类模型的构建方法,其特征在于,所述根据选定的sigmoid损失函数进行迭代运算,直至所述sigmoid损失函数的数值最小具体包括:使用Adam改进后的随机梯度下降算法对选定的所述sigmoid损失函数进行迭代运算,直至所述sigmoid损失函数的数值最小。7.根据权利要求2所述的文本分类模型的构建方法,其特征在于,所述字向量为采用中英文翻译训练改进的Cove预训练字向量。8.根据权利要求2所述的文本分类模型的构建方法,其特征在于,在所述将降采样处理结果输入至全连接层之后,在所述通过sigmoid分类器进行分类之前,还包括:将所述将降采样处理结果依次输入dropout和relu激活。9.根据权利要求1所述的文本分类模型的构建方法,其特征在于,在采集至少三轮对话信息之后,在所述将所述至少三轮对话信息并行输入至卷积神经网络文本分类模型之前,还包括:对所述至少...

【专利技术属性】
技术研发人员:程源泉欧阳一村
申请(专利权)人:深圳中兴网信科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1