一种文本分类方法及装置制造方法及图纸

技术编号：19277500 阅读：23 留言：0更新日期：2018-10-30 18:02

本发明专利技术实施例提供了一种文本分类方法及装置。在本发明专利技术实施例中，确定多个文本类别；对于每一个文本类别，获取分别属于该文本类别的多个样本文本；确定预设神经网络模型；使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练，得到目标文本分类模型；获取待分类文本；使用目标文本分类模型确定待分类文本在多个文本类别中所属的目标文本类别。通过本发明专利技术实施例的方法，可以确定待分类文本所述的文本类别。之后可以目标文本类别分类存储待分类文本，方便用户之后查询和使用和同领域归类。

A text categorization method and device

The embodiment of the invention provides a text classification method and device. In an embodiment of the invention, a plurality of text categories are determined; for each text category, a plurality of sample texts belonging to that text category are obtained; a preset neural network model is determined; and a preset neural network model is trained using a plurality of sample texts belonging to each text category to obtain a target text classification model. Type 2; Get the text to be classified; Use the target text classification model to determine the target text category to which the text to be classified belongs in multiple text categories. Through the method of the embodiment of the invention, the text category of the text to be classified can be determined. After that, the target text can be classified and stored, which is convenient for users to query and use and classify in the same domain.

全部详细技术资料下载

【技术实现步骤摘要】
一种文本分类方法及装置
本专利技术涉及计算机
，特别是涉及一种文本分类方法及装置。
技术介绍
近年来，随着图像识别技术的不断成熟，名片识别、证件识别、银行卡识别等技术纷纷投入使用。这些技术可以从照片或图片中提取文本，但是文本所属的类别需要进行细分，才利于存储和使用。如名片中常出现的姓名、地址、职位、公司名称等。对文本分类后再分类存储这些文本，可以方便用户之后查询、使用和同领域归类。然而，如何对本文分类是一个亟待解决的技术问题。
技术实现思路
为了解决上述问题，本专利技术公开了一种文本分类方法及装置。第一方面，本专利技术实施例示出了一种文本分类方法，所述方法包括：确定多个文本类别；对于每一个文本类别，获取分别属于所述文本类别的多个样本文本；确定预设神经网络模型；使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练，得到目标文本分类模型；获取待分类文本；使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别。在一个可选的实现方式中，所述获取待分类文本，包括：获取目标图像，所述目标图像中包括待分类文本；对所述目标图像进行图像识别，得到所述目标图像中包括的文本，并作为所述待分类文本；或，获取用户输入的文本，并作为所述待分类文本；或，获取目标语音信号；对所述目标语音信号进行语音识别，得到所述目标语音信号对应的文本，并作为待分类文本。在一个可选的实现方式中，所述预设神经网络模型包括长短期记忆网络LSTM和门控循环单元GRU。在一个可选的实现方式中，所述使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别...

【技术保护点】
1.一种文本分类方法，其特征在于，所述方法包括：确定多个文本类别；对于每一个文本类别，获取分别属于所述文本类别的多个样本文本；确定预设神经网络模型；使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练，得到目标文本分类模型；获取待分类文本；使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别。

【技术特征摘要】
1.一种文本分类方法，其特征在于，所述方法包括：确定多个文本类别；对于每一个文本类别，获取分别属于所述文本类别的多个样本文本；确定预设神经网络模型；使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练，得到目标文本分类模型；获取待分类文本；使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别。2.根据权利要求1所述的方法，其特征在于，所述获取待分类文本，包括：获取目标图像，所述目标图像中包括待分类文本；对所述目标图像进行图像识别，得到所述目标图像中包括的文本，并作为所述待分类文本；或，获取用户输入的文本，并作为所述待分类文本；或，获取目标语音信号；对所述目标语音信号进行语音识别，得到所述目标语音信号对应的文本，并作为待分类文本。3.根据权利要求1所述的方法，其特征在于，所述预设神经网络模型包括长短期记忆网络LSTM和门控循环单元GRU。4.根据权利要求1所述的方法，其特征在于，所述使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别，包括：获取所述待分类文本中的每一个字符对应的向量；将每一个字符对应的向量按照字符在所述待分类文本中的先后顺序组成向量特征；利用所述向量特征和预设权重确定所述待分类文本属于每一个文本类别的概率；将最大的概率的文本类别确定为所述待分类文本所属的目标文本类别。5.根据权利要求1所述的方法，其特征在于，所述使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别之后，还包括：获取用户对使用所述目标文本分类模型确定所述待分类文本所属的目标文本类别的评价信息；根据所述评价信息优化所述目标文本分类模型。6.一种文本分类装置，其特征在于，所述装置包括：第一确定模块，用于确定...

【专利技术属性】
技术研发人员：殷子墨，李健，张连毅，武卫东，
申请(专利权)人：北京捷通华声科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人