文本分类方法和装置制造方法及图纸

技术编号:21914045 阅读:30 留言:0更新日期:2019-08-21 12:27
本发明专利技术提供一种文本分类方法和装置,属于文本分类技术领域,其可至少部分解决现有的文本分类方法准确度不高的问题。本发明专利技术的文本分类方法包括:获取训练文本集,所述训练文本集包括多个初始文本,以及所述初始文本对应的文本类型;对所述初始文本进行分词;将分词得到的词段映射为第一词向量,并根据所述第一词向量构建第一初始矩阵;根据所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵;将第一初始矩阵、第二初始矩阵分别作为TextCNN模型两个通道的输入,对应的文本类型作为输出,利用TextCNN模型对所述训练文本集进行训练得到基分类器。

Text Classification Method and Device

【技术实现步骤摘要】
文本分类方法和装置
本专利技术属于文本分类
,具体涉及一种文本分类方法和一种文本分类装置。
技术介绍
文本分类,即将分析文本的类型。例如对短信的文本进行分析,确定它是垃圾短信还是非垃圾短信。又例如对客户投诉的文本分析,确定该投诉的问题属于哪一类问题。以通信行业的投诉为例,通常需要对客户投诉的内容进行分析,确定是属于网络质量的投诉还是资费问题的投诉等,从而有针对性地对服务进行改善。现有文本分类的准确度有待进一步提高。
技术实现思路
本专利技术至少部分解决现有的文本分类准确度不高的问题,提供一种文本分类方法和一种文本分类装置。解决本专利技术技术问题所采用的技术方案是一种文本分类方法,包括:获取训练文本集,所述训练文本集包括多个初始文本,以及所述初始文本对应的文本类型;对所述初始文本进行分词;将分词得到的词段映射为第一词向量,并根据所述第一词向量构建第一初始矩阵;根据所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵;将第一初始矩阵、第二初始矩阵分别作为TextCNN模型(文本卷积神经网络)两个通道的输入,对应的文本类型作为输出,利用TextCNN模型对所述训练文本集进行训练得到基分类器。可选地,所述根据所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二词向量得到第二初始矩阵包括:将所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量的乘积作为第二词向量;将所述第二词向量按照对应的顺序组成第二初始矩阵。可选地,所述基分类器的训练过程包括:将所述第一初始矩阵经一维卷积层得到第一卷积结果,将对应的所述第二初始矩阵经所述一维卷积层得到第二卷积结果;将所述第一卷积结果经k维最大值池化得到第一池化结果,将对应的所述第二卷积结果经所k维最大值池化得到第二池化结果;将所述第一池化结果和对应的所述第二池化结果经全连接层得到其对应的各分类结果的概率;计算当前分类结果的损失函数;针对当前损失函数,对各模型参数分别求导,得到使得损失函数最小化的各模型参数值,所述各模型参数包括所述一维卷积层中的参数和所述全连接层中的参数。更新所述一维卷积层的参数。可选地,所述损失函数包括:均方差函数、交叉熵函数、逻辑回归函数中的任意一项。可选地,所述k维最大值池化中k≥2。可选地,所述对初始文本进行分词包括:按照字符串匹配或全切分方法对所述初始文本进行分词。解决本专利技术技术问题所采用的技术方案是一种文本分类装置,包括:获取模块,用于获取训练文本集,所述训练文本集包括多个初始文本,以及所述初始文本对应的文本类型;分词模块,用于对所述初始文本进行分词;映射模块,用于将分词得到的词段映射为第一词向量,并根据所述第一词向量构建第一初始矩阵,以及根据所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵;训练模块,用于将第一初始矩阵、第二初始矩阵分别作为TextCNN模型两个通道的输入,对应的文本类型作为输出,利用TextCNN模型对所述训练文本集进行训练得到基分类器。可选地,所述映射模块具体用于将所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量的乘积作为第二词向量;将所述第二词向量按照对应的顺序组成第二初始矩阵。可选地,所述训练模块具体用于:将所述第一初始矩阵经一维卷积层得到第一卷积结果,将对应的所述第二初始矩阵经所述一维卷积层得到第二卷积结果;将所述第一卷积结果经k维最大值池化得到第一池化结果,将对应的所述第二卷积结果经所述k维最大值池化得到第二池化结果;将所述第一池化结果和对应的所述第二池化结果经全连接层得到其对应的各分类结果的概率;计算当前分类结果的损失函数;针对当前损失函数,对各模型参数分别求导,得到使得损失函数最小化的各模型参数值,所述各模型参数包括所述一维卷积层中的参数和所述全连接层中的参数。解决本专利技术技术问题所采用的技术方案是一种文本分类装置,包括存储器和处理器,所述存储器存储指令,所述处理器运行所述指令以执行上述的方法。附图说明图1为本专利技术的实施例的一种文本分类方法的流程图;图2为本专利技术的实施例的一种文本分类装置的框图;图3为本专利技术的实施例的另一种文本分类装置的框图。具体实施方式为使本领域技术人员更好地理解本专利技术的技术方案,下面结合附图和具体实施方式对本专利技术作进一步详细描述。实施例1:参照图1,本实施例提供一种文本分类方法,包括以下步骤。在步骤S1、获取训练文本集,训练文本集包括多个初始文本,以及初始文本对应的文本类型。以下均以对电信客户投诉内容进行分类的场景为例进行说明。训练文本集可以是通过网络爬虫获取,也可从运营商自己受理的客户投诉的档案中获取。初始文本即客户投诉的文本内容,文本类型即诸如“网络问题”、“资费问题”等的分类。文本类型需要人工标注。在步骤S2、对初始文本进行分词。举例而言,初始文本为:“我在地铁上手机网络信号很差”。经过分词后得到的词段例如为:“我”“在”“地铁上”“手机”“网络”“信号”“很”“差”,共8个词段。具体的分词算法例如是字符串匹配法、全切分法等。字符串匹配法例如是:反向最大匹配法、双向最大匹配法等。全切分方法为切分出与词库匹配的所有可能的词段,并将所有的可能的词段以词网格形式表示,再运用统计语言模型(例如n-gram模型)找到最优路径,决定最优的切分结果。在步骤S3、将分词得到的词段映射为第一词向量,并根据第一词向量构建第一初始矩阵。沿用前例,每个词段根据词向量工具分别生成对应K维的词向量。分别得到V1、V2……V8这8个K维词向量,并将这8个K维词向量按照其对应的词段所出现的顺序排列组成第一矩阵。可采用Word2Vec算法生成词向量,具体过程如下:定义词向量维度大小K,以及文本中每个词段进行预测时上下文参考词段汇输入数量的大小2a。将分词处理后的词段作为输入,对某一个词段W前后a个共2a个词段对应的词向量求和取平均,得到隐层向量。根据分词处理后的文本语料,构建初始化的霍夫曼树,随机初始化霍夫曼树上内部节点的词向量以及模型参数值;其中隐层向量为根节点,词段W为输出节点;通过梯度上升算法来更新霍夫曼树上内部节点的词向量以使模型参数值到收敛。每个词段W的词向量为该词段从霍夫曼树根节点到该词段位置的路径编码。在步骤S4、根据词段在训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵。也即是基于每个词段在全部初始文本中出现的概率对每个词段对应的词向量进行重建。对于出现频率高的词段,其对于文本分类的意义也会更大。需要说明的是,对于“的”、“啊”等语气词,其对文本分类是没有实质意义的,为避免这类词在步骤S4的处理后其词向量的模反而增大,可以在步骤S3中规定为这类词的词向量为很小的值(例如其词向量的各个分量均为0)。当然,也可以在步骤S4中对这类对文本分类无意义的词在第二初始矩阵中的词向量的各个分量都很小。即在步骤S4中可以包括对无意义词段的对应的第二词向量进行设定的子步骤。当然在步骤S1或步骤S2中,也可对训练文本集或分词结果进行处理,去除这些无意义的词段。第二矩阵的构建构成例如如下:将词段在训练文本集的初始文本中出现的概率和该词段对应的第一词向量的乘积作为第二词本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,包括:获取训练文本集,所述训练文本集包括多个初始文本,以及所述初始文本对应的文本类型;对所述初始文本进行分词;将分词得到的词段映射为第一词向量,并根据所述第一词向量构建第一初始矩阵;根据所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵;将第一初始矩阵、第二初始矩阵分别作为TextCNN模型两个通道的输入,对应的文本类型作为输出,利用TextCNN模型对所述训练文本集进行训练得到基分类器。

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:获取训练文本集,所述训练文本集包括多个初始文本,以及所述初始文本对应的文本类型;对所述初始文本进行分词;将分词得到的词段映射为第一词向量,并根据所述第一词向量构建第一初始矩阵;根据所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵;将第一初始矩阵、第二初始矩阵分别作为TextCNN模型两个通道的输入,对应的文本类型作为输出,利用TextCNN模型对所述训练文本集进行训练得到基分类器。2.根据权利要求1所述的方法,其特征在于,所述根据所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二词向量得到第二词向量包括:将所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量的乘积作为第二词向量;将所述第二词向量按照对应的顺序组成第二初始矩阵。3.根据权利要求1所述的方法,其特征在于,所述基分类器的训练过程包括:将所述第一初始矩阵经一维卷积层得到第一卷积结果,将对应的所述第二初始矩阵经所述一维卷积层得到第二卷积结果;将所述第一卷积结果经k维最大值池化得到第一池化结果,将对应的所述第二卷积结果经所k维最大值池化得到第二池化结果;将所述第一池化结果和对应的所述第二池化结果经全连接层得到其对应的各分类结果的概率;计算当前分类结果的损失函数;针对当前损失函数,对各模型参数分别求导,得到使得损失函数最小化的各模型参数值,所述各模型参数包括所述一维卷积层中的参数和所述全连接层中的参数。4.根据权利要求3所述的方法,其特征在于,所述损失函数包括:均方差函数、交叉熵函数、逻辑回归函数中的任意一项。5.根据权利要求3所述的方法,其特征在于,所述k维最大值池化中k≥2。6.根据权利要求1所述的方法,...

【专利技术属性】
技术研发人员:刘馨靖
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1