文本分类方法和装置、服务器制造方法及图纸

技术编号:24169035 阅读:17 留言:0更新日期:2020-05-16 02:21
本说明书实施例提供一种文本分类方法和装置、服务器,通过特征提取能力相对低的第二文本分类模型输出第一训练文本的预测类别,再通过由第一训练文本以及第一训练文本的真实类别和预测类别训练出的第一文本分类模型对接收到的文本信息进行分类。由于第二文本分类模型的特征提取能力小于第一文本分类模型,因此,通过第二文本分类模型能够对第一文本分类模型进行约束,从而可以有效控制第一文本分类模型的过拟合,从而提高文本分类的准确性。

Text classification methods and devices, servers

【技术实现步骤摘要】
文本分类方法和装置、服务器
本说明书涉及人工智能
,尤其涉及文本分类方法和装置、服务器。
技术介绍
在日常应用中,常常需要对一些文本信息进行分类。例如,在智能机器人客服应用场景中,用户可以向智能机器人客服发送文本信息,该文本信息可以是与账户操作相关的文本信息,例如:“如何注册账户”或者“如何为账户绑定手机号”等;也可以是与订单相关的文本信息,例如:“如何取消订单”或者“取消订单退款处理时效是多久”等;还可以是其他类型的文本信息。为了提高智能机器人客服的应答效率,需要对此类文本信息进行分类。因此,有必要提高文本信息分类的准确性。
技术实现思路
基于此,本说明书实施例提供了文本分类方法和装置、服务器。根据本说明书实施例的第一方面,提供一种文本分类方法,所述方法包括:接收文本信息;通过预先训练的第一文本分类模型对所述文本信息进行分类,以确定所述文本信息所属的类别;其中,所述第一文本分类模型基于第一训练文本、所述第一训练文本的真实类别,以及由预先训练的第二文本分类模型输出的所述第一训练文本的第一预测类别训练得到,且所述第二文本分类模型的特征提取能力低于所述第一文本分类模型的特征提取能力。根据本说明书实施例的第二方面,提供一种文本分类装置,所述装置包括:接收模块,用于接收文本信息;分类模块,用于通过预先训练的第一文本分类模型对所述文本信息进行分类,以确定所述文本信息所属的类别;其中,所述第一文本分类模型基于第一训练文本、所述第一训练文本的真实类别,以及由预先训练的第二文本分类模型输出的所述第一训练文本的第一预测类别训练得到,且所述第二文本分类模型的特征提取能力低于所述第一文本分类模型的特征提取能力。根据本说明书实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一实施例所述的方法。根据本说明书实施例的四方面,提供一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一实施例所述的方法。应用本说明书实施例方案,通过特征提取能力相对低的第二文本分类模型输出第一训练文本的预测类别,再通过由第一训练文本以及第一训练文本的真实类别和预测类别训练出的第一文本分类模型对接收到的文本信息进行分类。由于第二文本分类模型的特征提取能力小于第一文本分类模型,因此,通过第二文本分类模型能够对第一文本分类模型进行约束,从而可以有效控制第一文本分类模型的过拟合,从而提高文本分类的准确性。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。图1是本说明书一实施例的文本分类方法流程图。图2A是本说明书一实施例的第二模型训练过程的示意图。图2B是本说明书一实施例的第一模型训练过程的示意图。图3是本说明书另一实施例的第一模型训练过程的示意图。图4是本说明书一实施例的文本分类装置的框图。图5是本说明书一实施例的用于实施本说明书实施例方法的计算机设备的示意图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。如图1所示,本说明书实施例提供一种文本分类方法,所述方法可包括:步骤S102:接收文本信息;步骤S104:通过预先训练的第一文本分类模型对所述文本信息进行分类,以确定所述文本信息所属的类别;其中,所述第一文本分类模型基于第一训练文本、所述第一训练文本的真实类别,以及由预先训练的第二文本分类模型输出的所述第一训练文本的第一预测类别训练得到,且所述第二文本分类模型的特征提取能力低于所述第一文本分类模型的特征提取能力。本说明书实施例中的各步骤可由位于服务器端的智能机器人客服来执行。对于步骤S102,所述文本信息可以由用户通过客户端发送给智能机器人客服。用户可以在客户端上输入文本信息,客户端可以将该文本信息发送给智能机器人客服。其中,客户端可以是安装在智能手机、平板电脑或者台式电脑等电子设备上的应用程序。例如,可以是淘宝、网商银行或者支付宝等应用程序。用户在所述客户端上输入的文本信息可以是与账户操作相关的文本信息,例如:“如何注册账户”或者“如何为账户绑定手机号”等;也可以是与订单相关的文本信息,例如:“如何取消订单”或者“取消订单退款处理时效是多久”等;还可以是其他类型的文本信息。在一些实施例中,用户还可以向所述客户端发送其他格式的信息,所述其他格式是文本以外的格式。所述客户端在接收到所述其他格式的信息之后,可以从中提取出文本信息,然后发送给智能机器人客服。例如,当所述其他格式为图片格式时,可以通过OCR(OpticalCharacterRecognition,光学字符识别)技术从图片中识别出文本信息。进一步地,对于接收到或者提取出的文本信息,还可以从所述文本信息中过滤掉停用词,然后将过滤后的文本信息发送给智能机器人客服。对于步骤S104,智能机器人客服可以对所述文本信息进行分类,以确定所述文本信息所属的类别。例如,将“如何注册账户”和“如何为账户绑定手机号”划分为“账户操作”类别;又例如,将“如何取消订单”和“取消订单退款处理时效是多久”划分为订单类别。本步骤中所述的类别可以是类别数据库中的类别,其中,所述类别数据库中包括多个类别,每个类别可以根据实际需求预先设定。如果有需要,还可以定期对所述类别数据库中的类别进行更新,更新方式包括建立新类别、删除不常用类别以及调整现有类别(比如调整现有类别的名称)等。每个类别对应一组应答信息,用于所述智能机器人客服对所述文本信息进行回复。所述智能机器人客服在确定所述文本信息所属的类别之后,可以在所述类别对应的应答信息中查找与所述文本信息最匹配的应答信息,并将本文档来自技高网...

【技术保护点】
1.一种文本分类方法,所述方法包括:/n接收文本信息;/n通过预先训练的第一文本分类模型对所述文本信息进行分类,以确定所述文本信息所属的类别;/n其中,所述第一文本分类模型基于第一训练文本、所述第一训练文本的真实类别,以及由预先训练的第二文本分类模型输出的所述第一训练文本的第一预测类别训练得到,且所述第二文本分类模型的特征提取能力低于所述第一文本分类模型的特征提取能力。/n

【技术特征摘要】
1.一种文本分类方法,所述方法包括:
接收文本信息;
通过预先训练的第一文本分类模型对所述文本信息进行分类,以确定所述文本信息所属的类别;
其中,所述第一文本分类模型基于第一训练文本、所述第一训练文本的真实类别,以及由预先训练的第二文本分类模型输出的所述第一训练文本的第一预测类别训练得到,且所述第二文本分类模型的特征提取能力低于所述第一文本分类模型的特征提取能力。


2.根据权利要求1所述的方法,所述第一文本分类模型通过以下方式训练得到:
将所述第一训练文本输入所述第二文本分类模型,获取所述第一预测类别;
将所述第一训练文本作为第一文本分类模型的输入,并将所述第一训练文本的真实类别和所述第一预测类别共同作为所述第一文本分类模型的输出,以训练所述第一文本分类模型。


3.根据权利要求2所述的方法,所述方法还包括:
若不满足预设的训练终止条件,将所述第一文本分类模型作为所述第二文本分类模型,重新训练第一文本分类模型。


4.根据权利要求1所述的方法,所述第二文本分类模型通过以下方式训练得到:
将第二训练文本作为所述第二文本分类模型的输入,将所述第二训练文本的真实类别作为所述第二文本分类模型的输出,以训练所述第二文本分类模型。


5.根据权利要求1所述的方法,所述第一文本分类模型输出的所述第一训练文本的第二预测类别满足预设的第一损失函数,所述第一预测类别满足预设的第二损失函数。


6.根据权利要求1所述的方法,将所述第一训练文本作为第一文本分类模型的输入,并将所述第一训练文本的真实...

【专利技术属性】
技术研发人员:马良庄
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1