建立文本分类模型以及文本分类的方法、装置制造方法及图纸

技术编号:17704957 阅读:28 留言:0更新日期:2018-04-14 17:55
本发明专利技术提供一种建立文本分类模型与文本分类的方法、装置,建立方法包括:获取训练样本;基于实体词典对文本进行切词后获取对应的向量矩阵;利用文本的向量矩阵以及文本的分类,训练第一分类模型和第二分类模型;在训练过程中,利用第一分类模型与第二分类模型的损失函数得到文本分类模型的损失函数,并利用文本分类模型的损失函数对第一和第二分类模型调整参数,得到由第一和第二分类模型构成的文本分类模型。文本分类的方法包括:获取待分类的文本;基于实体词典对文本进行切词后获取文本对应的向量矩阵;将向量矩阵输入文本分类模型,根据文本分类模型的输出,得到该文本的分类结果。通过本发明专利技术所提供的技术方案,能够提高文本分类的效果。

【技术实现步骤摘要】
建立文本分类模型以及文本分类的方法、装置
本专利技术涉及自然语言处理技术,尤其涉及一种建立文本分类模型以及文本分类的方法、装置。
技术介绍
在互联网时代,文本自动分类的方法应用于互联网领域的各个方面,包括网页分类、微博情感分析、用户评论挖掘等。目前,文本分类在广泛领域的精度已经达到很高的程度,但是在垂直领域的分类仍具有一定的缺陷,例如医疗领域、法律领域、科技领域等。现有技术通常采用单一模型对文本进行分类,已有的模型各有优缺点,例如对短文本分类效果不好、鲁棒性和泛化性能不佳,等等。因此将单一模型应用于垂直领域的文本分类往往无法达到很好的分类效果。
技术实现思路
有鉴于此,本专利技术提供了一种建立文本分类模型以及文本分类的方法和装置,用于提高文本分类的效果。本专利技术为解决技术问题所采用的技术方案是提供一种建立文本分类模型的方法,所述方法包括:获取训练样本,所述训练样本包括:文本及其对应的分类;基于实体词典对所述文本进行切词后,获取所述文本对应的向量矩阵;利用所述文本对应的向量矩阵以及所述文本的分类,分别训练第一分类模型和第二分类模型;在所述训练过程中,利用第一分类模型的损失函数以及所述第二分类模型的损失函数得到文本分类模型的损失函数,并利用文本分类模型的损失函数对所述第一分类模型和第二分类模型进行参数调整,得到由第一分类模型和第二分类模型构成的文本分类模型。根据本专利技术一优选实施例,所述文本分类模型用于医疗文本的分类。根据本专利技术一优选实施例,所述第一分类模型和第二分类模型的训练目标为最小化所述文本分类模型的损失函数。根据本专利技术一优选实施例,所述第一分类模型为基于概率的分类模型.根据本专利技术一优选实施例,所述第一分类模型包括基于双向长度记忆单元和卷积神经网络组合的分类模型。根据本专利技术一优选实施例,训练第一分类模型包括:将所述文本作为输入,所述文本的分类作为输出,训练第一分类模型。根据本专利技术一优选实施例,所述第二分类模型为基于相似度的分类模型。根据本专利技术一优选实施例,所述第二分类模型包括基于深度神经网络的分类模型。根据本专利技术一优选实施例,训练第二分类模型包括:将所述文本以及与该文本的分类对应的专家数据作为输入,将文本与专家数据的相似度作为输出,训练第二分类模型。根据本专利技术一优选实施例,所述利用第一分类模型的损失函数以及所述第二分类模型的损失函数得到文本分类模型的损失函数包括:使用预设组合形式,对第一分类模型的损失函数以及第二分类模型的损失函数进行整合,得到文本分类模型的损失函数。本专利技术为解决技术问题而采用的技术方案是提供一种建立文本分类模型的装置,所述装置包括:第一获取单元,用于获取训练样本,所述训练样本包括:文本及其对应的分类;第二获取单元,用于基于实体词典对所述文本进行切词后,获取所述文本对应的向量矩阵;训练单元,用于利用所述文本对应的向量矩阵以及所述文本的分类,分别训练第一分类模型和第二分类模型;其中,在所述训练过程中,利用第一分类模型的损失函数以及所述第二分类模型的损失函数得到文本分类模型的损失函数,并利用文本分类模型的损失函数对所述第一分类模型和第二分类模型进行参数调整,得到由第一分类模型和第二分类模型构成的文本分类模型。根据本专利技术一优选实施例,所述训练单元在训练第一分类模型和第二分类模型的目标为最小化所述文本分类模型的损失函数。根据本专利技术一优选实施例,所述训练单元在训练第一分类模型时,具体执行:将所述文本作为输入,所述文本的分类作为输出,训练第一分类模型。根据本专利技术一优选实施例,所述训练单元在训练第二分类模型时,具体执行:将所述文本以及与该文本的分类对应的专家数据作为输入,将文本与专家数据的相似度作为输出,训练第二分类模型。根据本专利技术一优选实施例,所述训练单元在利用第一分类模型的损失函数以及所述第二分类模型的损失函数得到文本分类模型的损失函数时,具体执行:使用预设组合形式,对第一分类模型的损失函数以及第二分类模型的损失函数进行整合,得到文本分类模型的损失函数。本专利技术为解决技术问题而采用的技术方案是提供一种文本分类的方法,所述方法包括:获取待分类的文本;基于实体词典对所述文本进行切词后,获取所述文本对应的向量矩阵;将所述向量矩阵输入文本分类模型,根据所述文本分类模型的输出,得到该文本的分类结果。本专利技术为解决技术问题而采用的技术方案是提供一种文本分类的装置,所述装置包括:第三获取单元,用于获取待分类的文本;第四获取单元,用于基于实体词典对所述文本进行切词后,获取所述文本对应的向量矩阵;分类单元,用于将所述向量矩阵输入文本分类模型,根据所述文本分类模型的输出,得到该文本的分类结果。由以上技术方案可以看出,本专利技术通过使用新构造的损失函数来整合两个分类模型以得到文本分类模型,从而在使用该文本分类模型进行文本分类时,能够提高文本分类的效果。【附图说明】图1为本专利技术一实施例提供的建立文本分类模型的结构图。图2为本专利技术一实施例提供的对文本进行分类的方法流程图。图3为本专利技术一实施例提供的建立文本分类模型的装置结构图。图4为本专利技术一实施例提供的对文本进行分类的装置结构图。图5为本专利技术一实施例提供的计算机系统/服务器的框图。【具体实施方式】为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。本专利技术的核心思想在于,如图1中所示:创建一种包括多种分类模型的文本分类模型以用于文本的分类,并且利用整合构成的损失函数对多种分类模型进行训练,使得由多种分类模型构成的文本分类模型能够同时考虑多种分类模型的相关程度;更进一步地,可以在训练过程中引入专家数据,使得该文本分类模型能够对文本进行更加准确地分类。该文本分类模型可以用于各种垂直领域,例如医疗领域、科技领域、法律领域等,本文以文本分类模型应用于医疗领域为例进行说明。首先对建立文本分类模型的过程进行描述。在本专利技术中,文本分类模型包括多种分类模型,可以为两种、三种或者更多种,本文以由两种分类模型构成文本分类模型为例进行说明。具体地,文本分类模型可以采用以下训练方式得到:1)获取训练样本,所获取的训练样本包括:文本及其对应的分类。在本步骤中,所获取的训练样本中包括的医疗文本为已标注分类的医疗文本,即根据医疗文本的标注结果能够获得该医疗文本的分类。2)基于实体词典对文本进行切词后,获取文本对应的向量矩阵。在本步骤中,首先基本文档来自技高网...
建立文本分类模型以及文本分类的方法、装置

【技术保护点】
一种建立文本分类模型的方法,其特征在于,所述方法包括:获取训练样本,所述训练样本包括:文本及其对应的分类;基于实体词典对所述文本进行切词后,获取所述文本对应的向量矩阵;利用所述文本对应的向量矩阵以及所述文本的分类,分别训练第一分类模型和第二分类模型;在所述训练过程中,利用第一分类模型的损失函数以及所述第二分类模型的损失函数得到文本分类模型的损失函数,并利用文本分类模型的损失函数对所述第一分类模型和第二分类模型进行参数调整,得到由第一分类模型和第二分类模型构成的文本分类模型。

【技术特征摘要】
1.一种建立文本分类模型的方法,其特征在于,所述方法包括:获取训练样本,所述训练样本包括:文本及其对应的分类;基于实体词典对所述文本进行切词后,获取所述文本对应的向量矩阵;利用所述文本对应的向量矩阵以及所述文本的分类,分别训练第一分类模型和第二分类模型;在所述训练过程中,利用第一分类模型的损失函数以及所述第二分类模型的损失函数得到文本分类模型的损失函数,并利用文本分类模型的损失函数对所述第一分类模型和第二分类模型进行参数调整,得到由第一分类模型和第二分类模型构成的文本分类模型。2.根据权利要求1所述的方法,其特征在于,所述文本分类模型用于医疗文本的分类。3.根据权利要求1所述的方法,其特征在于,所述第一分类模型和第二分类模型的训练目标为最小化所述文本分类模型的损失函数。4.根据权利要求1所述的方法,其特征在于,所述第一分类模型为基于概率的分类模型。5.根据权利要求4所述的方法,其特征在于,所述第一分类模型包括基于双向长度记忆单元和卷积神经网络组合的分类模型。6.根据权利要求4所述的方法,其特征在于,训练第一分类模型包括:将所述文本作为输入,所述文本的分类作为输出,训练第一分类模型。7.根据权利要求1所述的方法,其特征在于,所述第二分类模型为基于相似度的分类模型。8.根据权利要求7所述的方法,其特征在于,所述第二分类模型包括基于深度神经网络的分类模型。9.根据权利要求7所述的方法,其特征在于,训练第二分类模型包括:将所述文本以及与该文本的分类对应的专家数据作为输入,将文本与专家数据的相似度作为输出,训练第二分类模型。10.根据权利要求1所述的方法,其特征在于,所述利用第一分类模型的损失函数以及所述第二分类模型的损失函数得到文本分类模型的损失函数包括:使用预设组合形式,对第一分类模型的损失函数以及第二分类模型的损失函数进行整合,得到文本分类模型的损失函数。11.一种文本分类的方法,其特征在于,所述方法包括:获取待分类的文本;基于实体词典对所述文本进行切词后,获取所述文本对应的向量矩阵;将所述向量矩阵输入文本分类模型,根据所述文本分类模型的输出,得到该文本的分类结果;其中,所述文本分类模型根据如权利要求1至10任一权项所述的方法预先建立。12.一种建立文本分类模型的装置,其特征在于...

【专利技术属性】
技术研发人员:夏源周景博董维山范伟
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1