文本分类处理方法和装置制造方法及图纸

技术编号:24331250 阅读:18 留言:0更新日期:2020-05-29 19:40
本发明专利技术公开了一种文本分类处理方法和装置。其中,该方法包括:获取待分类的文本;将待分类的文本输入到模型当中,其中,模型为使用训练数据通过机器学习训练所得到的;将从模型中获取的输出作为待分类的文本对应的类别;保存待分类的文本和其对应的类别。本发明专利技术解决了现有技术依靠人工方式对文本进行分类的技术问题。

【技术实现步骤摘要】
文本分类处理方法和装置
本专利技术涉及文本分类领域,具体而言,涉及一种文本分类处理方法和装置。
技术介绍
在泛在电力物联网的大背景下,95598客户服务系统作为泛在电力物联网应用的重要组成部分,登记了海量客户信息。当前主要依靠人工统计工单分析,产生效率不足等相关问题。由于在95598客户诉求数据量较大,人工分类效率低,无法做到精准高效分类。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种文本分类处理方法和装置,以至少解决现有技术依靠人工方式对文本进行分类的技术问题。根据本专利技术实施例的一个方面,提供了一种文本分类处理方法,包括:获取待分类的文本;将所述待分类的文本输入到模型当中,其中,所述模型为使用训练数据通过机器学习训练所得到的;将从所述模型中获取的输出作为所述待分类的文本对应的类别;保存所述待分类的文本和其对应的类别。可选地,在获取所述待分类的文本之前,所述方法还包括:使用多组训练数据通过机器学习进行训练得到所述模型。可选地,通过机器学习进行训练得到所述模型包括:使用第一语料集进行预训练得到第一模型;使用第二语料集对所述第一模型进行迭代训练得到所述模型,其中,所述第二语料集包括多组数据,每一组数据均包括文本以及该文本所对应的类别。可选地,使用所述第一语料集进行预训练得到第一模型包括:通过BERT使用所述第一语料集进行训练得到所述第一模型,其中,在所述训练中掩盖语料集中的每一条语料的部分内容,所述训练用于预测所掩盖的内容。可选地,所述文本包括工单文本,所述类别包括:工单的类型,其中,所述类型包括至少一类。根据本专利技术实施例的另一方面,还提供了一种文本分类处理装置,包括:获取模块,用于获取待分类的文本;输入模块,用于将所述待分类的文本输入到模型当中,其中,所述模型为使用训练数据通过机器学习训练所得到的;输出模块,用于将从所述模型中获取的输出作为所述待分类的文本对应的类别;保存模块,用于保存所述待分类的文本和其对应的类别。可选地,还包括:训练模块,用于使用多组训练数据通过机器学习进行训练得到所述模型。可选地,所述训练模块包括:第一训练单元,用于使用第一语料集进行预训练得到第一模型;第二训练单元,用于使用第二语料集对所述第一模型进行迭代训练得到所述模型,其中,所述第二语料集包括多组数据,每一组数据均包括文本以及该文本所对应的类别。可选地,所述第一训练单元用于:通过BERT使用所述第一语料集进行训练得到所述第一模型,其中,在所述训练中掩盖语料集中的每一条语料的部分内容,所述训练用于预测所掩盖的内容。可选地,所述文本包括工单文本,所述类别包括:工单的类型,其中,所述类型包括至少一类。根据本专利技术实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述的文本分类处理方法。根据本专利技术实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项所述的文本分类处理方法。在本专利技术实施例中,采用获取待分类的文本;将所述待分类的文本输入到模型当中,其中,所述模型为使用训练数据通过机器学习训练所得到的;将从所述模型中获取的输出作为所述待分类的文本对应的类别;保存所述待分类的文本和其对应的类别的方式,通过机器学习训练得到的模型识别待分类的文本对应的类别,并进行保存,达到了快速、准确进行分类的目的,从而实现了提高文本分类效率的技术效果,进而解决了现有技术依靠人工方式对文本进行分类技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的文本分类处理方法的流程图;图2是根据本专利技术可选实施例的分类模型的训练的流程图;图3是根据本专利技术实施例的文本分类处理装置的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。实施例1根据本专利技术实施例,提供了一种文本分类处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本专利技术实施例的文本分类处理方法的流程图,如图1所示,该方法包括如下步骤:步骤S102,获取待分类的文本;上述待分类的文本包括但不限于工单,其中,可以通过多种方式获取待分类的文本,例如,利用爬取软件、人工录入等。在具体实施过程中,利用多种方式获取待分类的文本,可以扩展待分类的文本来源,以适用于多种应用场景。步骤S104,将待分类的文本输入到模型当中,其中,模型为使用训练数据通过机器学习训练所得到的;在上述模型为分类模型时,可以通过该模型对待分类的文本进行处理。可选地,该模型为工单分类模型。需要说明的是,上述模型是使用训练数据通过机器学习训练所得到的,可以实现文本的自动分类。步骤S106,将从模型中获取的输出作为待分类的文本对应的类别;通过上述模型可以将输入的待分类的文本,对应输出其对应的类别,该模型可以有效提高分类精度,提高文本分类效率。步骤S108,保存待分类的文本和其对应的类别。作为一种可选的实施例,可以将待分类的文本和其对应的类别以预定格式进行保存,其中,该预定格式包括文本属性和类别属性,可以将待分类的文本保存在文本属性的位置,将待分类的文本对应的类别保存在类别属性的位置。需要说明的是,在具体实施过程中,并不仅限于上述方式。通过上述步骤,可以通过机器学习训练得到的模型识别待分类的文本对应的类别,并进行保存,达到了快速、准确进行分类的目的,从而实现了提高文本分类效率的技术效果,进而解决了现有技术依靠人工方式对文本进行分类技术问题。可选地,在获取待分类的文本之前,方本文档来自技高网
...

【技术保护点】
1.一种文本分类处理方法,其特征在于,包括:/n获取待分类的文本;/n将所述待分类的文本输入到模型当中,其中,所述模型为使用训练数据通过机器学习训练所得到的;/n将从所述模型中获取的输出作为所述待分类的文本对应的类别;/n保存所述待分类的文本和其对应的类别。/n

【技术特征摘要】
1.一种文本分类处理方法,其特征在于,包括:
获取待分类的文本;
将所述待分类的文本输入到模型当中,其中,所述模型为使用训练数据通过机器学习训练所得到的;
将从所述模型中获取的输出作为所述待分类的文本对应的类别;
保存所述待分类的文本和其对应的类别。


2.根据权利要求1所述的方法,其特征在于,在获取所述待分类的文本之前,所述方法还包括:
使用多组训练数据通过机器学习进行训练得到所述模型。


3.根据权利要求2所述的方法,其特征在于,通过机器学习进行训练得到所述模型包括:
使用第一语料集进行预训练得到第一模型;
使用第二语料集对所述第一模型进行迭代训练得到所述模型,其中,所述第二语料集包括多组数据,每一组数据均包括文本以及该文本所对应的类别。


4.根据权利要求3所述的方法,其特征在于,使用所述第一语料集进行预训练得到第一模型包括:
通过BERT使用所述第一语料集进行训练得到所述第一模型,其中,在所述训练中掩盖语料集中的每一条语料的部分内容,所述训练用于预测所掩盖的内容。


5.根据权利要求1至4中任一项所述的方法,其特征在于,所述文本包括工单文本,所述类别包括:工单的类型,其中,所述类型包括至少一类。


6...

【专利技术属性】
技术研发人员:张禄及洪泉姚晓明胡彩娥丁屹峰王培祎马龙飞陆斯悦王健徐蕙
申请(专利权)人:国网北京市电力公司国家电网有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1