基于神经网络的文本分类方法、系统及计算机设备技术方案

技术编号：22166898 阅读：28 留言：0更新日期：2019-09-21 10:34

本发明专利技术实施例提供了一种基于神经网络的文本分类方法，所述方法包括：对待分类文本进行分词操作以获取L个分词；对所述L个分词分别进行词向量映射，以获取L*d维词向量矩阵，其中每个分词映射为一个d维词向量；通过卷积层对所述L*d维词向量矩阵执行卷积操作，得到M个卷积特征图，所述卷积层包括M个f*d的卷积核；将每个卷积特征图中的第j个元素配置到第j个输入向量中，得到(L‑f+1)个输入向量，1≤j≤(L‑f+1)；及将所述(L‑f+1)个输入向量依顺序输入到长短短期记忆网络模型中，计算所述待分类文本的分类向量。本发明专利技术实施例提供的文本分类方法，可以有效避免文本分类错误的问题，从而提高分类准确率。

Text Classification Method, System and Computer Equipment Based on Neural Network

全部详细技术资料下载

【技术实现步骤摘要】
基于神经网络的文本分类方法、系统及计算机设备
本专利技术实施例涉及计算机数据处理领域，尤其涉及一种基于神经网络的文本分类方法、系统、计算机设备及计算机可读存储介质。
技术介绍
文本分类是自然语言处理的重要任务之一，类似于文章的行业分类，情感分析等许多自然语言处理任务其实质都是文本的分类。目前常用的文本分类器主要可以分成两大类：基于先验规则的文本分类器和基于模型的文本分类器。基于先验规则的文本分类器的分类规则需要靠人工挖掘或先验知识的积累。基于模型的文本分类器，如基于LDA(LatentDirichletAllocation，文档主题生成模型)等主题模型对文本分类。然而，采用上述分类方法经常会出现分类错误的问题，导致分类的准确率低。
技术实现思路
有鉴于此，本专利技术实施例的目的是提供一种基于神经网络的文本分类方法、系统、计算机设备及计算机可读存储介质，解决文本分类错误、分类准确率低的问题。为实现上述目的，本专利技术实施例提供了一种基于神经网络的文本分类方法，包括以下步骤：对待分类文本进行分词操作以获取L个分词；对所述L个分词分别进行词向量映射，以获取L*d维词向量矩阵，其中每个分词映射为一个d维词向量；通过卷积层对所述L*d维词向量矩阵执行卷积操作，得到M个卷积特征图，所述卷积层包括M个f*d的卷积核；将每个卷积特征图中的第j个元素配置到第j个输入向量中，得到(L-f+1)个输入向量，1≤j≤(L-f+1)，其中所述第j个输入向量中的元素排列顺序由各个元素所在的特征卷积图的i值决定，i为卷积核标识，1≤i≤M；及将所述(L-f+1)个输入向量依顺序输入到长短短...

【技术保护点】
1.一种基于神经网络的文本分类方法，其特征在于，所述方法包括：对待分类文本进行分词操作以获取L个分词；对所述L个分词分别进行词向量映射，以获取L*d维词向量矩阵，其中每个分词映射为一个d维词向量；通过卷积层对所述L*d维词向量矩阵执行卷积操作，得到M个卷积特征图，所述卷积层包括M个f*d的卷积核；将每个卷积特征图中的第j个元素配置到第j个输入向量中，得到(L‑f+1)个输入向量，1≤j≤(L‑f+1)，其中所述第j个输入向量中的元素排列顺序由各个元素所在的特征卷积图的i值决定，i为卷积核标识，1≤i≤M；及将所述(L‑f+1)个输入向量依顺序输入到长短短期记忆网络模型中，计算所述待分类文本的分类向量。

【技术特征摘要】
1.一种基于神经网络的文本分类方法，其特征在于，所述方法包括：对待分类文本进行分词操作以获取L个分词；对所述L个分词分别进行词向量映射，以获取L*d维词向量矩阵，其中每个分词映射为一个d维词向量；通过卷积层对所述L*d维词向量矩阵执行卷积操作，得到M个卷积特征图，所述卷积层包括M个f*d的卷积核；将每个卷积特征图中的第j个元素配置到第j个输入向量中，得到(L-f+1)个输入向量，1≤j≤(L-f+1)，其中所述第j个输入向量中的元素排列顺序由各个元素所在的特征卷积图的i值决定，i为卷积核标识，1≤i≤M；及将所述(L-f+1)个输入向量依顺序输入到长短短期记忆网络模型中，计算所述待分类文本的分类向量。2.根据权利要求1所述的基于神经网络的文本分类方法，其特征在于，所述对待分类文本进行分词操作以获取L个分词的步骤，包括：获取浏览所述待分类文本的多个用户的多个用户属性信息；根据所述多个用户的多个用户属性信息，分析得到浏览所述待分类文本的目标群体；根据所述目标群体的历史用户画像，得到所述待分类文本对应每个主题的预测概率；根据所述每个主题的预测概率，筛选预测概率大于预设阀值的多个目标主题；及基于所述多个目标主题对所述待分类文本进行分词操作。3.根据权利要求2所述的基于神经网络的文本分类方法，其特征在于，所述基于所述多个目标主题对所述待分类文本进行分词操作的步骤，包括：根据所述多个目标主题的多个主题词库，对所述待分类文本进行分词操作。4.根据权利要求2所述的基于神经网络的文本分类方法，其特征在于，所述基于所述多个目标主题对所述待分类文本进行分词操作的步骤，包括：根据每个目标主题关联的主题词库分别对所述待分类文本进行分词操作，以得到多个分词集合；对比各个分词集合在相应字符位置区域的分词是否相同；如果相同，则将相应字符位置区域的分词放入目标分词集合中；及如果不相同，则选择将其中一个分词集合在相应字符位置区域的分词放入到所述目标分词集合。5.根据权利要求4所述的基于神经网络的文本分类方法，其特征在于，所述选择将其中一个分词集合在相应字符位置区域的分词放入到所述目标分词集合的步骤，包括：通过隐马尔科夫模型分析各个分词集合在相应字符位置区域的分词的被划分概率；及选择...

【专利技术属性】
技术研发人员：于凤英，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人