文本分类方法、装置、设备以及存储介质制造方法及图纸

技术编号:34926665 阅读:11 留言:0更新日期:2022-09-15 07:20
本公开提供了一种文本分类方法、装置、设备以及存储介质,涉及人工智能技术领域,具体涉及自然语言处理和深度学习技术领域。该方法包括:获取待分类文本;对待分类文本进行体裁分类,得到体裁标签;从待分类文本的文本内容中提取年级特征,其中,年级特征为作者年级相关联的特征;响应于确定年级特征的数目大于一个,基于体裁标签、年级特征和预先生成的体裁年级关系表,确定待分类文本的年级标签,其中,体裁年级关系表中保存有与体裁及作者年级相关联的文本字数范围;输出待分类文本的体裁标签和年级标签。本公开提供的文本分类方法可以从多个维度对待分类文本进行分类,满足了用户对多维度标签的需求。对多维度标签的需求。对多维度标签的需求。

【技术实现步骤摘要】
文本分类方法、装置、设备以及存储介质


[0001]本公开涉及人工智能
,具体涉及自然语言处理和深度学习
,尤其涉及文本分类方法、装置、设备以及存储介质。

技术介绍

[0002]众所周知,阅读范文是学生学习写作的重要方法,通过阅读范文能明显提高学生的写作成绩,故范文素材库的快速构建是实现写作信息化辅助手段的重要环节。
[0003]文本分类是自然语言处理领域的一个经典课题,它可以为文档集合中的每个文档确定一个类别,随着数据时代的到来,互联网上电子文档的数量大幅增长,文本分类已经成为信息检索和管理的关键技术。

技术实现思路

[0004]本公开提供了一种文本分类方法、装置、设备以及存储介质。
[0005]根据本公开的第一方面,提供了一种文本分类方法,包括:获取待分类文本;对待分类文本进行体裁分类,得到体裁标签;从待分类文本的文本内容中提取年级特征,其中,年级特征为作者年级相关联的特征;响应于确定年级特征的数目大于一个,基于体裁标签、年级特征和预先生成的体裁年级关系表,确定待分类文本的年级标签,其中,体裁年级关系表中保存有与体裁及作者年级相关联的文本字数范围;输出待分类文本的体裁标签和年级标签。
[0006]根据本公开的第二方面,提供了一种文本分类装置,包括:获取模块,被配置成获取待分类文本;体裁分类模块,被配置成对待分类文本进行体裁分类,得到体裁标签;提取模块,被配置成从待分类文本的文本内容中提取年级特征,其中,年级特征为作者年级相关联的特征;年级分类模块,被配置成响应于确定年级特征的数目大于一个,基于体裁标签、年级特征和预先生成的体裁年级关系表,确定待分类文本的年级标签,其中,体裁年级关系表中保存有与体裁及作者年级相关联的文本字数范围;输出模块,被配置成输出待分类文本的体裁标签和年级标签。
[0007]根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法。
[0008]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法。
[0009]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面中任一实现方式描述的方法。
[0010]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0012]图1是本公开可以应用于其中的示例性系统架构图;
[0013]图2是根据本公开的文本分类方法的一个实施例的流程图;
[0014]图3是根据本公开的文本分类方法的另一个实施例的流程图;
[0015]图4是根据本公开的文本分类方法的又一个实施例的流程图;
[0016]图5是根据本公开的文本分类方法的再一个实施例的流程图;
[0017]图6是根据本公开的文本分类方法的一个应用场景图;
[0018]图7是根据本公开的文本分类装置的一个实施例的结构示意图;
[0019]图8是用来实现本公开实施例的文本分类方法的电子设备的框图。
具体实施方式
[0020]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0021]需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
[0022]图1示出了可以应用本公开的文本分类方法或文本分类装置的实施例的示例性系统架构100。
[0023]如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0024]用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送信息等。终端设备101、102、103上可以安装有各种客户端应用。
[0025]终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述电子设备中。其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
[0026]服务器105可以提供各种服务。例如,服务器105可以对从终端设备101、102、103获取的待分类文本进行分析和处理,并生成处理结果(例如待分类文本的体裁标签和年级标签)。
[0027]需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
[0028]需要说明的是,本公开实施例所提供的文本分类方法一般由服务器105执行,相应地,文本分类装置一般设置于服务器105中。
[0029]应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需
要,可以具有任意数目的终端设备、网络和服务器。
[0030]继续参考图2,其示出了根据本公开的文本分类方法的一个实施例的流程200。该文本分类方法包括以下步骤:
[0031]步骤201,获取待分类文本。
[0032]在本实施例中,文本分类方法的执行主体(例如图1所示的服务器105)可以获取待分类文本,待分类文本即为需要进行分类的文本,其可以为作文,或者还可以为其他形式的文本,如日记等。这里的分类可以包括体裁分类、年级分类等等,体裁分类即对待分类文本的体裁进行分类,体裁一般包括记叙文、说明文、议论文、应用文、诗歌、散文等。年级分类即对待分类文本的作者的年级进行分类,年级包括小学一年级至六年级、初中一年级至三年级、高中一年级至三年级等等。可选地,上述执行主体还会对待分类文本的主题进行分类,主题一般包括人生哲理,如命运、美、价值、生命、历史等,为人处世,如宽容、帮助、尊重等,读书做人,如成熟、情操等,人生观、价值观,人与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,包括:获取待分类文本;对所述待分类文本进行体裁分类,得到体裁标签;从所述待分类文本的文本内容中提取年级特征,其中,所述年级特征为作者年级相关联的特征;响应于确定所述年级特征的数目大于一个,基于所述体裁标签、所述年级特征和预先生成的体裁年级关系表,确定所述待分类文本的年级标签,其中,所述体裁年级关系表中保存有与体裁及作者年级相关联的文本字数范围;输出所述待分类文本的体裁标签和年级标签。2.根据权利要求1所述的方法,其中,所述对所述待分类文本进行体裁分类,得到体裁标签,包括:利用预先训练的体裁分类模型对所述待分类文本进行体裁分类,得到体裁标签。3.根据权利要求2所述的方法,其中,所述体裁分类模型通过如下步骤训练得到:获取训练文本集,其中,所述训练文本集中的训练文本带有体裁标签;基于每个体裁标签对应的训练文本的数目在所述训练文本集中的占比,确定所述每个体裁标签对应的类别权重,其中,所述类别权重与所述占比成反比;基于所述类别权重计算所述训练文本集的样本损失值;基于所述样本损失值更新所述初始体裁分类模型的参数,得到体裁分类模型。4.根据权利要求1所述的方法,还包括:响应于确定所述体裁标签为预设体裁标签,通过后置规则对所述体裁标签进行验证。5.根据权利要求4所述的方法,其中,所述响应于确定所述体裁标签为预设体裁标签,通过后置规则对所述体裁标签进行验证,包括:响应于确定所述体裁标签为诗歌或记叙文,通过所述待分类文本的总字数和/或换行数来对所述体裁标签进行验证。6.根据权利要求1所述的方法,其中,所述基于所述体裁标签、所述年级特征和预先生成的体裁年级关系表,确定所述待分类文本的年级标签,包括:分别生成所述年级特征对应的第一年级标签;确定所述待分类文本的字数;基于所述体裁标签、所述字数和预先生成的体裁年级关系表,从所述第一年级标签中确定所述待分类文本的年级标签。7.根据权利要求1所述的方法,还包括:响应于确定所述年级特征的数目为一个,生成所述年级特征对应的第二年级标签;将所述待分类文本和所述第二年级标签输入至打分模型中,输出得到所述第二年级标签的打分结果;响应于确定所述打分结果满足预设条件,将所述第二年级标签作为所述待分类文本的年级标签。8.根据权利要求1

7中任一项所述的方法,还包括:利用预先训练的主题分类模型确定所述待分类文本的主题标签;以及所述输出所述待分类文本的体裁标签和年级标签,包括:
输出所述待分类文本的体裁标签、年级标签和主题标签。9.一种文本分类装置,包括:获取模块,被配置成获取待分类文本;体裁分类模块,被配置成对所述待分类文本进行体裁分类,得到体裁标签;提取模块,被配置成从所述待分类文本的文本内容中提取年级特征,其中,所述年级特征为作者年级相关联的特征;年级分类模块,被配置成响应于确定所述年级特征的数目大于一个,基于所述体裁标签、所述年级特征和预先生成的体裁年级关系表,确定所述待分类文本的...

【专利技术属性】
技术研发人员:李绍鸣吴广发薛璐影
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1