建立文本分类模型以及文本分类的方法、装置制造方法及图纸

技术编号：17704957 阅读：28 留言：0更新日期：2018-04-14 17:55

本发明专利技术提供一种建立文本分类模型与文本分类的方法、装置，建立方法包括：获取训练样本；基于实体词典对文本进行切词后获取对应的向量矩阵；利用文本的向量矩阵以及文本的分类，训练第一分类模型和第二分类模型；在训练过程中，利用第一分类模型与第二分类模型的损失函数得到文本分类模型的损失函数，并利用文本分类模型的损失函数对第一和第二分类模型调整参数，得到由第一和第二分类模型构成的文本分类模型。文本分类的方法包括：获取待分类的文本；基于实体词典对文本进行切词后获取文本对应的向量矩阵；将向量矩阵输入文本分类模型，根据文本分类模型的输出，得到该文本的分类结果。通过本发明专利技术所提供的技术方案，能够提高文本分类的效果。

全部详细技术资料下载

【技术实现步骤摘要】
建立文本分类模型以及文本分类的方法、装置
本专利技术涉及自然语言处理技术，尤其涉及一种建立文本分类模型以及文本分类的方法、装置。
技术介绍
在互联网时代，文本自动分类的方法应用于互联网领域的各个方面，包括网页分类、微博情感分析、用户评论挖掘等。目前，文本分类在广泛领域的精度已经达到很高的程度，但是在垂直领域的分类仍具有一定的缺陷，例如医疗领域、法律领域、科技领域等。现有技术通常采用单一模型对文本进行分类，已有的模型各有优缺点，例如对短文本分类效果不好、鲁棒性和泛化性能不佳，等等。因此将单一模型应用于垂直领域的文本分类往往无法达到很好的分类效果。
技术实现思路
有鉴于此，本专利技术提供了一种建立文本分类模型以及文本分类的方法和装置，用于提高文本分类的效果。本专利技术为解决技术问题所采用的技术方案是提供一种建立文本分类模型的方法，所述方法包括：获取训练样本，所述训练样本包括：文本及其对应的分类；基于实体词典对所述文本进行切词后，获取所述文本对应的向量矩阵；利用所述文本对应的向量矩阵以及所述文本的分类，分别训练第一分类模型和第二分类模型；在所述训练过程中，利用第一分类模型的损失函数以及所述第二分类模型的损失函数得到文本分类模型的损失函数，并利用文本分类模型的损失函数对所述第一分类模型和第二分类模型进行参数调整，得到由第一分类模型和第二分类模型构成的文本分类模型。根据本专利技术一优选实施例，所述文本分类模型用于医疗文本的分类。根据本专利技术一优选实施例，所述第一分类模型和第二分类模型的训练目标为最小化所述文本分类模型的损失函数。根据本专利技术一优选实施例，...
建立文本分类模型以及文本分类的方法、装置

【技术保护点】
一种建立文本分类模型的方法，其特征在于，所述方法包括：获取训练样本，所述训练样本包括：文本及其对应的分类；基于实体词典对所述文本进行切词后，获取所述文本对应的向量矩阵；利用所述文本对应的向量矩阵以及所述文本的分类，分别训练第一分类模型和第二分类模型；在所述训练过程中，利用第一分类模型的损失函数以及所述第二分类模型的损失函数得到文本分类模型的损失函数，并利用文本分类模型的损失函数对所述第一分类模型和第二分类模型进行参数调整，得到由第一分类模型和第二分类模型构成的文本分类模型。

【技术特征摘要】
1.一种建立文本分类模型的方法，其特征在于，所述方法包括：获取训练样本，所述训练样本包括：文本及其对应的分类；基于实体词典对所述文本进行切词后，获取所述文本对应的向量矩阵；利用所述文本对应的向量矩阵以及所述文本的分类，分别训练第一分类模型和第二分类模型；在所述训练过程中，利用第一分类模型的损失函数以及所述第二分类模型的损失函数得到文本分类模型的损失函数，并利用文本分类模型的损失函数对所述第一分类模型和第二分类模型进行参数调整，得到由第一分类模型和第二分类模型构成的文本分类模型。2.根据权利要求1所述的方法，其特征在于，所述文本分类模型用于医疗文本的分类。3.根据权利要求1所述的方法，其特征在于，所述第一分类模型和第二分类模型的训练目标为最小化所述文本分类模型的损失函数。4.根据权利要求1所述的方法，其特征在于，所述第一分类模型为基于概率的分类模型。5.根据权利要求4所述的方法，其特征在于，所述第一分类模型包括基于双向长度记忆单元和卷积神经网络组合的分类模型。6.根据权利要求4所述的方法，其特征在于，训练第一分类模型包括：将所述文本作为输入，所述文本的分类作为输出，训练第一分类模型。7.根据权利要求1所述的方法，其特征在于，所述第二分类模型为基于相似度的分类模型。8.根据权利要求7所述的方法，其特征在于，所述第二分类模型包括基于深度神经网络的分类模型。9.根据权利要求7所述的方法，其特征在于，训练第二分类模型包括：将所述文本以及与该文本的分类对应的专家数据作为输入，将文本与专家数据的相似度作为输出，训练第二分类模型。10.根据权利要求1所述的方法，其特征在于，所述利用第一分类模型的损失函数以及所述第二分类模型的损失函数得到文本分类模型的损失函数包括：使用预设组合形式，对第一分类模型的损失函数以及第二分类模型的损失函数进行整合，得到文本分类模型的损失函数。11.一种文本分类的方法，其特征在于，所述方法包括：获取待分类的文本；基于实体词典对所述文本进行切词后，获取所述文本对应的向量矩阵；将所述向量矩阵输入文本分类模型，根据所述文本分类模型的输出，得到该文本的分类结果；其中，所述文本分类模型根据如权利要求1至10任一权项所述的方法预先建立。12.一种建立文本分类模型的装置，其特征在于...

【专利技术属性】
技术研发人员：夏源，周景博，董维山，范伟，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人