模型训练方法、文本分类方法、装置、介质及电子设备制造方法及图纸

技术编号：35815671 阅读：18 留言：0更新日期：2022-12-03 13:39

本公开的实施方式提供了一种用于异常文本分类的模型训练方法、文本分类方法、装置、介质及电子设备，涉及自然语言处理技术领域。该方法包括：获取初始文本训练集；对初始文本训练集进行信息增强处理，得到增强训练文本；信息增强处理包括特征增强处理与数据增强处理中的至少一种；根据初始文本训练集与增强训练文本生成增强文本训练集；增强文本训练集用于训练异常文本分类模型。本公开对模型训练所采用的训练文本进行特征增强和数据增强等处理，增大正负样本之间的距离，使得训练得到的异常文本分类模型得到的文本分类结果更加准确。文本分类模型得到的文本分类结果更加准确。文本分类模型得到的文本分类结果更加准确。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、文本分类方法、装置、介质及电子设备

[0001]本公开的实施方式涉及自然语言处理
，更具体地，本公开的实施方式涉及用于异常文本分类的模型训练方法、文本分类方法、用于异常文本分类的模型训练装置、文本分类装置、计算机可读存储介质及电子设备。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]自然语言处理(Natural Language Processing，NLP)是指用计算机对自然语言的形、音、义等信息进行处理，即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。
[0004]自然语言处理可以应用于从大量文本信息中识别出异常文本的场景，如垃圾邮件的识别场景。电子邮箱与人们的工作生活密切相关，邮件用户每天都会收到大量的垃圾邮件，一部分垃圾邮件属于危害邮件，常见的危害邮件有代开发票类邮件、涉黄邮件、涉赌邮件等，这些危害邮件给用户带来不好的体验甚至是财产上的损失。

技术实现思路

[0005]虽然现有的邮件反垃圾系统已经为用户屏蔽了大量的危害邮件，但是用户依然能收到不少危害邮件，反垃圾系统每日依旧会受到大量的危害邮件举报，对垃圾邮件的过滤无法达到令用户满意的程度，导致用户体验感不佳。
[0006]为此，本公开提出一种改进的用于异常文本分类的模型训练方法，以使对模型训练所采用的训练文本进行特征增强和数据增强等处理，增大正负样本之间的距离，使得训练得到的...

【技术保护点】

【技术特征摘要】
1.一种用于异常文本分类的模型训练方法，其特征在于，包括：获取初始文本训练集；对所述初始文本训练集进行信息增强处理，得到增强训练文本；所述信息增强处理包括特征增强处理与数据增强处理中的至少一种；根据所述初始文本训练集与所述增强训练文本生成增强文本训练集；所述增强文本训练集用于训练异常文本分类模型。2.根据权利要求1所述的方法，其特征在于，所述增强训练文本包括特征增强训练文本与数据增强训练文本；所述对所述初始文本训练集进行信息增强处理，得到增强训练文本，包括：基于所述初始文本训练集确定第一训练文本；所述第一训练文本为由异常文本组成的训练文本；对所述第一训练文本进行所述特征增强处理，得到所述特征增强训练文本；基于所述初始文本训练集确定第二训练文本；所述第二训练文本为与所述第一训练文本相反的训练样本；对所述第二训练文本进行所述数据增强处理，得到所述数据增强训练文本。3.根据权利要求2所述的方法，其特征在于，所述特征增强训练文本包括拆字增强训练文本；所述对所述第一训练文本进行所述特征增强处理，得到所述特征增强训练文本，包括：获取拆字字典；所述拆字字典包括文本拆字规则；根据所述文本拆字规则对所述第一训练样本进行拆字处理，得到多个拆字文本；将得到的所述多个拆字文本添加至所述拆字增强训练文本。4.根据权利要求2所述的方法，其特征在于，所述数据增强训练文本包括同音字替换训练文本；所述对所述第二训练文本进行所述数据增强处理，得到所述数据增强训练文本，包括：确定所述第二训练文本中包含的同音待替换字，获取所述同音待替换字对应的替换同音字；采用所述替换同音字对所述同音待替换字进行替换处理，得到所述同音字替换训练文本。5.根据权利要求1所述的方法，其特征在于，所述增强文本训练集包括特征增强训练文本与数据增强训练文本，所述方法还包括：将所述增强文本训练集输入至初始文本分类模型，以对所述初始文本分类模型进行模型训练，得到训练完成的异常文本分类模型；其中，所述初始文本分类模型包括特征增强层、数据增强层与叠加层；所述特征增强层用于，对所述特征增强训练文本进行特征提取，生成特征...

【专利技术属性】
技术研发人员：李首贤，刘洋，张睿，肖科，但红卫，袁立强，刘庆生，
申请(专利权)人：网易杭州网络有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人