【技术实现步骤摘要】
一种多层级多类别的中文文本分类的实现方法及装置
本专利技术涉及自然语言处理和机器学习
,特别是涉及一种多层级多类别的中文文本分类的实现方法及装置。
技术介绍
文本分类是计算机对自然语言按照一定的类目体系进行自动化归类的过程,在很多领域有重大应用,例如以电信10000号客服中心平台为例,希望能够通过自动文本分类的手段,实现客户来访工单的准确分类及快速记录,从而达到加快现场话务员服务响应能效,提升整体服务质量,提高热线整体运营数据分析的智能化程度,优化管理的效果。目前随着机器学习的研究逐渐深入,文本分类方法不断改进,目前在文本分类领域的研究取得较大进展,很多研究提出了多层级多类别的分类体系。这种多层级多类别的分类体系是指,多个类别的层级之间是递进关系,一般是首先分为几大类,每一大类中包含若干中类,每个中类中又包含若干小类,每一小类下再分小小类,如此顺延,最后,每一个文本都可以分到某一个类目下,而其中的大类、中类、小类、小小类等之间存在着自上而下的逻辑关系。多层级多类别的文本分类不仅费时费力,覆盖的范围和准确 ...
【技术保护点】
1.一种多层级多类别的中文文本分类的实现方法,包括如下步骤:/n步骤S1,结合训练数据集合中的实际分类体系的树形结构,构建与该树形结构对应的N层文本分类多叉树,根据所述N层文本分类多叉树的结构,将所述训练数据集合中的训练数据分别写入到各层级对应的分类文件中;/n步骤S2,对各分类文件的中文文本进行分词,并进行特征选择保存到对应的特征文件中;/n步骤S3,选择分类算法,并设定、调整算法参数集,将步骤S2保存的特征文件数据导入所述分类算法中,迭代生成训练数据的每个分类与子分类模型并保存。/n
【技术特征摘要】
1.一种多层级多类别的中文文本分类的实现方法,包括如下步骤:
步骤S1,结合训练数据集合中的实际分类体系的树形结构,构建与该树形结构对应的N层文本分类多叉树,根据所述N层文本分类多叉树的结构,将所述训练数据集合中的训练数据分别写入到各层级对应的分类文件中;
步骤S2,对各分类文件的中文文本进行分词,并进行特征选择保存到对应的特征文件中;
步骤S3,选择分类算法,并设定、调整算法参数集,将步骤S2保存的特征文件数据导入所述分类算法中,迭代生成训练数据的每个分类与子分类模型并保存。
2.如权利要求1所述的一种多层级多类别的中文文本分类的实现方法,其特征在于,于步骤S1之前,还包括如下步骤:
步骤S0,获取文本的训练数据集合、验证数据集合及待分类的测试数据集合。
3.如权利要求2所述的一种多层级多类别的中文文本分类的实现方法,其特征在于:于步骤S1中,以文件命名规则R对分类文件进行文件命名,将类别号的命名规则与其对应的中文类别名称保存为分类文件。
4.如权利要求3所述的一种多层级多类别的中文文本分类的实现方法,其特征在于,步骤S2进一步包括:
步骤S200,利用中文分词工具依次对分类文件的中文文本进行分词;
步骤S201,构建停用词库,将利用构建的停用词库对步骤S200的分词结果进行筛除;
步骤S302,对分词结果进行特征提取,并利用特征选择工具选择前m维特征作为特征库。
5.如权利要求4所述的一种多层级多类别的中文文本分类的实现方法,其特征在于:于步骤S201中,所述停用词库包括但不限于数字、英文字符、副词、语气词以及与业务无关词汇,可根据实际工单文本数据内容的需要,增添、删改停用词库。
6.如权利要求4所述的一种多层级多类别的中文文本分类的实现方法,其特征在于:于步骤S3中,读取步骤S0中整理的验证数据集V对分类算法的结果进行准确率判定,若高于给定阈值Δ,则模型训练结束,否则返回执行S2。
7.如权利要求6所述的一种多层级...
【专利技术属性】
技术研发人员:代晓菊,丁富强,陆晋军,孙海,蒋润青,张亮,李铮,钱志骥,
申请(专利权)人:上海理想信息产业集团有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。