文本分类方法和装置制造方法及图纸

技术编号：21914045 阅读：30 留言：0更新日期：2019-08-21 12:27

本发明专利技术提供一种文本分类方法和装置，属于文本分类技术领域，其可至少部分解决现有的文本分类方法准确度不高的问题。本发明专利技术的文本分类方法包括：获取训练文本集，所述训练文本集包括多个初始文本，以及所述初始文本对应的文本类型；对所述初始文本进行分词；将分词得到的词段映射为第一词向量，并根据所述第一词向量构建第一初始矩阵；根据所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵；将第一初始矩阵、第二初始矩阵分别作为TextCNN模型两个通道的输入，对应的文本类型作为输出，利用TextCNN模型对所述训练文本集进行训练得到基分类器。

Text Classification Method and Device

全部详细技术资料下载

【技术实现步骤摘要】
文本分类方法和装置
本专利技术属于文本分类
，具体涉及一种文本分类方法和一种文本分类装置。
技术介绍
文本分类，即将分析文本的类型。例如对短信的文本进行分析，确定它是垃圾短信还是非垃圾短信。又例如对客户投诉的文本分析，确定该投诉的问题属于哪一类问题。以通信行业的投诉为例，通常需要对客户投诉的内容进行分析，确定是属于网络质量的投诉还是资费问题的投诉等，从而有针对性地对服务进行改善。现有文本分类的准确度有待进一步提高。
技术实现思路
本专利技术至少部分解决现有的文本分类准确度不高的问题，提供一种文本分类方法和一种文本分类装置。解决本专利技术技术问题所采用的技术方案是一种文本分类方法，包括：获取训练文本集，所述训练文本集包括多个初始文本，以及所述初始文本对应的文本类型；对所述初始文本进行分词；将分词得到的词段映射为第一词向量，并根据所述第一词向量构建第一初始矩阵；根据所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵；将第一初始矩阵、第二初始矩阵分别作为TextCNN模型(文本卷积神经网络)两个通道的输入，对应的文本类型作为输出，利用TextCNN模型对所述训练文本集进行训练得到基分类器。可选地，所述根据所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二词向量得到第二初始矩阵包括：将所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量的乘积作为第二词向量；将所述第二词向量按照对应的顺序组成第二初始矩阵。可选地，所述基分类器的训练过程包括：将所述第一初始矩阵经一维卷积层得到第一卷积...

【技术保护点】
1.一种文本分类方法，其特征在于，包括：获取训练文本集，所述训练文本集包括多个初始文本，以及所述初始文本对应的文本类型；对所述初始文本进行分词；将分词得到的词段映射为第一词向量，并根据所述第一词向量构建第一初始矩阵；根据所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵；将第一初始矩阵、第二初始矩阵分别作为TextCNN模型两个通道的输入，对应的文本类型作为输出，利用TextCNN模型对所述训练文本集进行训练得到基分类器。

【技术特征摘要】
1.一种文本分类方法，其特征在于，包括：获取训练文本集，所述训练文本集包括多个初始文本，以及所述初始文本对应的文本类型；对所述初始文本进行分词；将分词得到的词段映射为第一词向量，并根据所述第一词向量构建第一初始矩阵；根据所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵；将第一初始矩阵、第二初始矩阵分别作为TextCNN模型两个通道的输入，对应的文本类型作为输出，利用TextCNN模型对所述训练文本集进行训练得到基分类器。2.根据权利要求1所述的方法，其特征在于，所述根据所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二词向量得到第二词向量包括：将所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量的乘积作为第二词向量；将所述第二词向量按照对应的顺序组成第二初始矩阵。3.根据权利要求1所述的方法，其特征在于，所述基分类器的训练过程包括：将所述第一初始矩阵经一维卷积层得到第一卷积结果，将对应的所述第二初始矩阵经所述一维卷积层得到第二卷积结果；将所述第一卷积结果经k维最大值池化得到第一池化结果，将对应的所述第二卷积结果经所k维最大值池化得到第二池化结果；将所述第一池化结果和对应的所述第二池化结果经全连接层得到其对应的各分类结果的概率；计算当前分类结果的损失函数；针对当前损失函数，对各模型参数分别求导，得到使得损失函数最小化的各模型参数值，所述各模型参数包括所述一维卷积层中的参数和所述全连接层中的参数。4.根据权利要求3所述的方法，其特征在于，所述损失函数包括：均方差函数、交叉熵函数、逻辑回归函数中的任意一项。5.根据权利要求3所述的方法，其特征在于，所述k维最大值池化中k≥2。6.根据权利要求1所述的方法，...

【专利技术属性】
技术研发人员：刘馨靖，
申请(专利权)人：中国联合网络通信集团有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人