模型训练方法、文本分类方法、装置、介质及电子设备制造方法及图纸

技术编号:35815671 阅读:18 留言:0更新日期:2022-12-03 13:39
本公开的实施方式提供了一种用于异常文本分类的模型训练方法、文本分类方法、装置、介质及电子设备,涉及自然语言处理技术领域。该方法包括:获取初始文本训练集;对初始文本训练集进行信息增强处理,得到增强训练文本;信息增强处理包括特征增强处理与数据增强处理中的至少一种;根据初始文本训练集与增强训练文本生成增强文本训练集;增强文本训练集用于训练异常文本分类模型。本公开对模型训练所采用的训练文本进行特征增强和数据增强等处理,增大正负样本之间的距离,使得训练得到的异常文本分类模型得到的文本分类结果更加准确。文本分类模型得到的文本分类结果更加准确。文本分类模型得到的文本分类结果更加准确。

【技术实现步骤摘要】
模型训练方法、文本分类方法、装置、介质及电子设备


[0001]本公开的实施方式涉及自然语言处理
,更具体地,本公开的实施方式涉及用于异常文本分类的模型训练方法、文本分类方法、用于异常文本分类的模型训练装置、文本分类装置、计算机可读存储介质及电子设备。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]自然语言处理(Natural Language Processing,NLP)是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。
[0004]自然语言处理可以应用于从大量文本信息中识别出异常文本的场景,如垃圾邮件的识别场景。电子邮箱与人们的工作生活密切相关,邮件用户每天都会收到大量的垃圾邮件,一部分垃圾邮件属于危害邮件,常见的危害邮件有代开发票类邮件、涉黄邮件、涉赌邮件等,这些危害邮件给用户带来不好的体验甚至是财产上的损失。

技术实现思路

[0005]虽然现有的邮件反垃圾系统已经为用户屏蔽了大量的危害邮件,但是用户依然能收到不少危害邮件,反垃圾系统每日依旧会受到大量的危害邮件举报,对垃圾邮件的过滤无法达到令用户满意的程度,导致用户体验感不佳。
[0006]为此,本公开提出一种改进的用于异常文本分类的模型训练方法,以使对模型训练所采用的训练文本进行特征增强和数据增强等处理,增大正负样本之间的距离,使得训练得到的异常文本分类模型输出的文本分类结果更加准确。
[0007]在本上下文中,本公开的实施方式期望提供一种用于异常文本分类的模型训练方法、用于异常文本分类的模型训练装置、计算机可读存储介质及电子设备。
[0008]在本公开实施方式的第一方面中,提供了一种用于异常文本分类的模型训练方法,包括:获取初始文本训练集;对所述初始文本训练集进行信息增强处理,得到增强训练文本;所述信息增强处理包括特征增强处理与数据增强处理中的至少一种;根据所述初始文本训练集与所述增强训练文本生成增强文本训练集;所述增强文本训练集用于训练异常文本分类模型。
[0009]在本公开实施方式的第二方面中,提供了一种文本分类方法,包括:获取待识别文本;将所述待识别文本输入至预先训练的异常文本分类模型,对所述待识别文本进行文本分类处理;所述异常文本分类模型基于用于异常文本分类的模型训练方法得到;根据所述异常文本分类模型的输出结果确定所述待识别文本的文本分类结果。
[0010]在本公开实施方式的第三方面中,提供了一种用于异常文本分类的模型训练装置,包括:初始训练集获取模块,用于获取初始文本训练集;信息增强处理模块,用于对所述
初始文本训练集进行信息增强处理,得到增强训练文本;所述信息增强处理包括特征增强处理与数据增强处理中的至少一种;增强训练集生成模块,用于根据所述初始文本训练集与所述增强训练文本生成增强文本训练集;所述增强文本训练集用于训练异常文本分类模型。
[0011]在本公开实施方式的第四方面中,提供一种文本分类装置,包括:待识别文本获取模块,用于获取待识别文本;文本分类模块,用于将所述待识别文本输入至预先训练的异常文本分类模型,对所述待识别文本进行文本分类处理;所述异常文本分类模型基于用于异常文本分类的模型训练方法得到;结果确定模块,用于根据所述异常文本分类模型的输出结果确定所述待识别文本的文本分类结果。
[0012]在本公开实施方式的第五方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的用于异常文本分类的模型训练方法。
[0013]在本公开实施方式的第六方面中,提供了一种电子设备,包括:处理器;以及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上述所述的用于异常文本分类的模型训练方法。
[0014]根据本公开实施方式的技术方案,一方面,通过初始文本训练集进行特征增强和数据增强处理,可以增大正负样本之间的距离,从初始文本训练集中加工出更多的表示,提高训练集的数据及质量。另一方面,采用增强文本训练集训练得到的异常文本分类模型,可以更好地学习正负样本各自的特征,从而使异常文本分类模型得到的文本分类结果更加准确。
附图说明
[0015]通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
[0016]图1示意性地示出了多种类型的垃圾邮件的内容图;
[0017]图2示意性地示出了根据本公开的一些实施例的示例性应用场景的系统架构的示意框图;
[0018]图3示意性地示出了根据本公开的一些实施例的用于异常文本分类的模型训练方法的流程示意图;
[0019]图4示意性地示出了根据本公开的一些实施例的对初始文本训练集中的文本进行拆字处理的示意图;
[0020]图5示意性地示出了根据本公开的一些实施例的确定初始文本训练集中的文本的音节字符串的示意图;
[0021]图6示意性地示出了根据本公开的一些实施例的进行同音字替换的示意图;
[0022]图7示意性地示出了根据本公开的一些实施例的进行等价字替换的示意图;
[0023]图8示意性地示出了根据本公开的一些实施例的采用正常邮件伪造危害邮件的示意图;
[0024]图9示意性地示出了根据本公开的一些实施例的用于异常文本分类的模型的结构
图;
[0025]图10示意性地示出了根据本公开的一些实施例的文本分类方法的流程示意图;
[0026]图11示意性地示出了根据本公开的一些实施例的用于异常文本分类的模型训练装置的示意框图;
[0027]图12示意性地示出了根据本公开的一些实施例的文本分类装置的示意框图;
[0028]图13示意性地示出了根据本公开的示例实施例的存储介质的示意图;以及
[0029]图14示意性地示出了根据专利技术的示例实施例的电子设备的方框图。
[0030]在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
[0031]下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0032]本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
[0033]根据本公开的实施方式,提出了一种用于异常文本分类的模型训练方法、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于异常文本分类的模型训练方法,其特征在于,包括:获取初始文本训练集;对所述初始文本训练集进行信息增强处理,得到增强训练文本;所述信息增强处理包括特征增强处理与数据增强处理中的至少一种;根据所述初始文本训练集与所述增强训练文本生成增强文本训练集;所述增强文本训练集用于训练异常文本分类模型。2.根据权利要求1所述的方法,其特征在于,所述增强训练文本包括特征增强训练文本与数据增强训练文本;所述对所述初始文本训练集进行信息增强处理,得到增强训练文本,包括:基于所述初始文本训练集确定第一训练文本;所述第一训练文本为由异常文本组成的训练文本;对所述第一训练文本进行所述特征增强处理,得到所述特征增强训练文本;基于所述初始文本训练集确定第二训练文本;所述第二训练文本为与所述第一训练文本相反的训练样本;对所述第二训练文本进行所述数据增强处理,得到所述数据增强训练文本。3.根据权利要求2所述的方法,其特征在于,所述特征增强训练文本包括拆字增强训练文本;所述对所述第一训练文本进行所述特征增强处理,得到所述特征增强训练文本,包括:获取拆字字典;所述拆字字典包括文本拆字规则;根据所述文本拆字规则对所述第一训练样本进行拆字处理,得到多个拆字文本;将得到的所述多个拆字文本添加至所述拆字增强训练文本。4.根据权利要求2所述的方法,其特征在于,所述数据增强训练文本包括同音字替换训练文本;所述对所述第二训练文本进行所述数据增强处理,得到所述数据增强训练文本,包括:确定所述第二训练文本中包含的同音待替换字,获取所述同音待替换字对应的替换同音字;采用所述替换同音字对所述同音待替换字进行替换处理,得到所述同音字替换训练文本。5.根据权利要求1所述的方法,其特征在于,所述增强文本训练集包括特征增强训练文本与数据增强训练文本,所述方法还包括:将所述增强文本训练集输入至初始文本分类模型,以对所述初始文本分类模型进行模型训练,得到训练完成的异常文本分类模型;其中,所述初始文本分类模型包括特征增强层、数据增强层与叠加层;所述特征增强层用于,对所述特征增强训练文本进行特征提取,生成特征...

【专利技术属性】
技术研发人员:李首贤刘洋张睿肖科但红卫袁立强刘庆生
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1