【技术实现步骤摘要】
文本分类方法、装置、设备以及存储介质
[0001]本公开涉及人工智能
,具体涉及自然语言处理和深度学习
,尤其涉及文本分类方法、装置、设备以及存储介质。
技术介绍
[0002]众所周知,阅读范文是学生学习写作的重要方法,通过阅读范文能明显提高学生的写作成绩,故范文素材库的快速构建是实现写作信息化辅助手段的重要环节。
[0003]文本分类是自然语言处理领域的一个经典课题,它可以为文档集合中的每个文档确定一个类别,随着数据时代的到来,互联网上电子文档的数量大幅增长,文本分类已经成为信息检索和管理的关键技术。
技术实现思路
[0004]本公开提供了一种文本分类方法、装置、设备以及存储介质。
[0005]根据本公开的第一方面,提供了一种文本分类方法,包括:获取待分类文本;对待分类文本进行体裁分类,得到体裁标签;从待分类文本的文本内容中提取年级特征,其中,年级特征为作者年级相关联的特征;响应于确定年级特征的数目大于一个,基于体裁标签、年级特征和预先生成的体裁年级关系表,确定待分类文本的年级标签,其中,体裁年级关系表中保存有与体裁及作者年级相关联的文本字数范围;输出待分类文本的体裁标签和年级标签。
[0006]根据本公开的第二方面,提供了一种文本分类装置,包括:获取模块,被配置成获取待分类文本;体裁分类模块,被配置成对待分类文本进行体裁分类,得到体裁标签;提取模块,被配置成从待分类文本的文本内容中提取年级特征,其中,年级特征为作者年级相关联的特征;年级分类模块,被配置成响应于确 ...
【技术保护点】
【技术特征摘要】
1.一种文本分类方法,包括:获取待分类文本;对所述待分类文本进行体裁分类,得到体裁标签;从所述待分类文本的文本内容中提取年级特征,其中,所述年级特征为作者年级相关联的特征;响应于确定所述年级特征的数目大于一个,基于所述体裁标签、所述年级特征和预先生成的体裁年级关系表,确定所述待分类文本的年级标签,其中,所述体裁年级关系表中保存有与体裁及作者年级相关联的文本字数范围;输出所述待分类文本的体裁标签和年级标签。2.根据权利要求1所述的方法,其中,所述对所述待分类文本进行体裁分类,得到体裁标签,包括:利用预先训练的体裁分类模型对所述待分类文本进行体裁分类,得到体裁标签。3.根据权利要求2所述的方法,其中,所述体裁分类模型通过如下步骤训练得到:获取训练文本集,其中,所述训练文本集中的训练文本带有体裁标签;基于每个体裁标签对应的训练文本的数目在所述训练文本集中的占比,确定所述每个体裁标签对应的类别权重,其中,所述类别权重与所述占比成反比;基于所述类别权重计算所述训练文本集的样本损失值;基于所述样本损失值更新所述初始体裁分类模型的参数,得到体裁分类模型。4.根据权利要求1所述的方法,还包括:响应于确定所述体裁标签为预设体裁标签,通过后置规则对所述体裁标签进行验证。5.根据权利要求4所述的方法,其中,所述响应于确定所述体裁标签为预设体裁标签,通过后置规则对所述体裁标签进行验证,包括:响应于确定所述体裁标签为诗歌或记叙文,通过所述待分类文本的总字数和/或换行数来对所述体裁标签进行验证。6.根据权利要求1所述的方法,其中,所述基于所述体裁标签、所述年级特征和预先生成的体裁年级关系表,确定所述待分类文本的年级标签,包括:分别生成所述年级特征对应的第一年级标签;确定所述待分类文本的字数;基于所述体裁标签、所述字数和预先生成的体裁年级关系表,从所述第一年级标签中确定所述待分类文本的年级标签。7.根据权利要求1所述的方法,还包括:响应于确定所述年级特征的数目为一个,生成所述年级特征对应的第二年级标签;将所述待分类文本和所述第二年级标签输入至打分模型中,输出得到所述第二年级标签的打分结果;响应于确定所述打分结果满足预设条件,将所述第二年级标签作为所述待分类文本的年级标签。8.根据权利要求1
‑
7中任一项所述的方法,还包括:利用预先训练的主题分类模型确定所述待分类文本的主题标签;以及所述输出所述待分类文本的体裁标签和年级标签,包括:
输出所述待分类文本的体裁标签、年级标签和主题标签。9.一种文本分类装置,包括:获取模块,被配置成获取待分类文本;体裁分类模块,被配置成对所述待分类文本进行体裁分类,得到体裁标签;提取模块,被配置成从所述待分类文本的文本内容中提取年级特征,其中,所述年级特征为作者年级相关联的特征;年级分类模块,被配置成响应于确定所述年级特征的数目大于一个,基于所述体裁标签、所述年级特征和预先生成的体裁年级关系表,确定所述待分类文本的...
【专利技术属性】
技术研发人员:李绍鸣,吴广发,薛璐影,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。