一种文本分类方法和装置制造方法及图纸

技术编号：20272720 阅读：22 留言：0更新日期：2019-02-02 03:44

本申请公开了一种文本分类方法和装置，该方法包括：获取待分类文本的文本特征，所述文本特征包括所述待分类文本的字音词向量对应的文本特征和字形词向量对应的文本特征中的至少一种；获取预先训练得到的分类模型，所述分类模型基于卷积神经网络对不同类型的训练文本的文本特征进行训练得到；根据所述待分类文本的文本特征以及所述分类模型，确定所述待分类文本的类型。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本分类方法和装置
本申请涉及文本处理
，尤其涉及一种文本分类方法和装置。
技术介绍
随着文本信息的快速增长，特别是互联网中在线文本信息的激增，文本分类已经成为处理大量文档数据的关键技术，并广泛应用于各个领域。例如，在风险监控的场景中，可以对用户举报的文本进行分类，确定用户的举报是否为恶意举报或错误举报等。现有技术在进行文本分类时，通常可以采用机器学习算法对不同类型的文本的关键词进行学习训练，基于训练得到的模型进行文本分类。然而，在实际应用中，这种文本分类方法通常无法准确地识别文本想要表达的真实含义，导致文本分类结果的准确度较低。
技术实现思路
本申请实施例提供一种文本分类方法和装置，用于解决在采用机器学习算法基于关键词对文本进行分类时，分类结果的准确度较低的问题。为解决上述技术问题，本申请实施例是这样实现的：第一方面，提出一种文本分类方法，包括：获取待分类文本的文本特征，所述文本特征包括所述待分类文本的字音词向量对应的文本特征和字形词向量对应的文本特征中的至少一种；获取预先训练得到的分类模型，所述分类模型基于卷积神经网络对不同类型的训练文本的文本特征进行训练得到；根据所述待分类文本的文本特征以及所述分类模型，确定所述待分类文本的类型。第二方面，提出一种文本分类装置，包括：第一获取单元，获取待分类文本的文本特征，所述文本特征包括所述待分类文本的字音词向量对应的文本特征和字形词向量对应的文本特征中的至少一种；第二获取单元，获取预先训练得到的分类模型，所述分类模型基于卷积神经网络对不同类型的训练文本的文本特征进行训练得到；分类单元，根据所述待分类文本的文...

【技术保护点】
1.一种文本分类方法，包括：获取待分类文本的文本特征，所述文本特征包括所述待分类文本的字音词向量对应的文本特征和字形词向量对应的文本特征中的至少一种；获取预先训练得到的分类模型，所述分类模型基于卷积神经网络对不同类型的训练文本的文本特征进行训练得到；根据所述待分类文本的文本特征以及所述分类模型，确定所述待分类文本的类型。

【技术特征摘要】
1.一种文本分类方法，包括：获取待分类文本的文本特征，所述文本特征包括所述待分类文本的字音词向量对应的文本特征和字形词向量对应的文本特征中的至少一种；获取预先训练得到的分类模型，所述分类模型基于卷积神经网络对不同类型的训练文本的文本特征进行训练得到；根据所述待分类文本的文本特征以及所述分类模型，确定所述待分类文本的类型。2.如权利要求1所述的方法，当所述待分类文本的文本特征中包括字音词向量对应的文本特征时，获取待分类文本的文本特征，包括：将所述待分类文本转化为拼音；对所述拼音中的多个字母进行分组，得到多组拼音；根据所述多组拼音以及预先训练得到的字音词向量模型，得到与所述多组拼音对应的多个字音词向量，所述字音词向量模型基于word2vector算法对不同文本的拼音进行训练得到；对所述多个字音词向量进行截断或填充处理，得到所述待分类文本的字音词向量对应的文本特征。3.如权利要求2所述的方法，对所述拼音中的多个字母进行分组，得到多组拼音，包括：采用汉语语言模型N-Gram方法对所述拼音中的多个字母进行分组，得到多组拼音，其中，所述N为大于等于3的整数。4.如权利要求1所述的方法，当所述待分类文本的文本特征中包括字形词向量对应的文本特征时，获取所述待分类文本的文本特征，包括：确定所述待分类文本对应的多个笔画；对所述多个笔画进行分组，得到多组笔画；根据所述多组笔画以及预先训练得到的字形词向量模型，得到与所述多组笔画对应的多个字形词向量，所述字形词向量模型基于word2vector算法对不同文本的笔画进行训练得到；对所述多个字形词向量进行截断或填充处理，得到所述待分类文本的字形词向量对应的文本特征。5.如权利要求4所述的方法，对所述多个笔画进行分组，得到多组笔画，包括：采用N-Gram方法对所述多个笔画进行分组，得到多组笔画，其中，所述N为大于等于3的整数。6.如权利要求1所述的方法，所述分类模型通过以下方式训练得到：获取不同类型的训练文本；确定所述训练文本的文本特征，所述训练文本的文本特征包括所述训练文本的字音词向量对应的文本特征和字形词向量对应的文本特征中的至少一种；构建卷积神经网络模型；将所述训练文本的文本特征输入所述卷积神经网络模型中，训练得到所述分类模型。7.如权利要求6所述的方法，所述卷积神经网络模型中包括输入层、卷积层、池化层、全连接层以及输出层，其中，所述输入层用于表征文本的文本特征，所述输出层用于表征文本的类型。8.如权利要求7所述的方法，将所述训练文本的文本特征输入所述卷积神经网络模型中，训练得到所述...

【专利技术属性】
技术研发人员：叶芸，赵文飙，王维强，金宏，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人