书面语体类型的分类方法、装置、存储介质及电子设备制造方法及图纸

技术编号:30137115 阅读:16 留言:0更新日期:2021-09-23 14:49
本申请属于数据处理技术领域,尤其涉及一种书面语体类型的分类方法、装置、存储介质及电子设备。所述方法包括:先获取待分类书面语体样本,然后将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应,最后根据所述至少一个分类结果,确定所述待分类书面语体样本的书面语体类型。因此,以解决了传统靠人工对其加以区分,而导致所述汉语书面语体类型的分类无法批量且自动的进行分类,进而使得书面语体类型的分类成本较高等技术问题。较高等技术问题。较高等技术问题。

【技术实现步骤摘要】
书面语体类型的分类方法、装置、存储介质及电子设备


[0001]本申请属于数据处理
,尤其涉及一种书面语体类型的分类方法、装置、存储介质及电子设备。

技术介绍

[0002]现代汉语书面语体类型包括记叙体、议论体和说明体等。而所述“记叙体”的下级节点品种从初级到高级的发展品种有《语文》教材类、写人叙事类散文,民间故事、人物事件类新闻报道、小说等;“议论体”从初级到高级的发展品种有教材类、议论性散文、时评类新闻评论、社论类新闻评论、学术论文等;“说明体”的下级节点品种较另两类基础书面语体更多,从教材类、科普文、到操作指南、会议类新闻报道、学术论文、法律法规、政府公文等,因其所应用的专业领域分类非常广泛,故到高级阶段分支类型非常多样。
[0003]而传统技术中,没有系统化且自动化的书面语体类型的分类方法,对所述书面语体类型的分类方法均是靠人工对其加以区分,而导致所述汉语书面语体类型的分类无法批量且自动的进行分类,进而使得书面语体类型的分类成本较高。
[0004]申请内容
[0005]本申请实施方式提供了一种书面语体类型的分类方法、装置、存储介质及电子设备,以解决汉语书面语体类型的传统分类无法批量且自动的进行分类,进而使得书面语体类型的分类成本较高的技术问题。
[0006]本申请实施方式第一方面提供了一种书面语体类型的分类方法,所述方法包括:
[0007]获取待分类书面语体样本;
[0008]将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应;
[0009]根据所述至少一个分类结果,确定所述待分类书面语体样本的书面语体类型。
[0010]可选地,所述至少一个子分类模型包括:
[0011]因子子分类模型集合以及中值距离子分类模型。
[0012]可选地,所述将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应之前,所述方法还包括:
[0013]预先构建所述因子子分类模型集合;
[0014]相应的,所述预先构建所述因子子分类模型集合具体包括:
[0015]对预先配置的训练集进行因子分析,获取分析数据;
[0016]根据所述分析数据与预先配置的矩阵计算公式,确认至少一个矩阵;
[0017]对所述至少一个矩阵分别进行均值聚类,获取所述因子子分类模型集合以及至少
一个均值聚类距离值。
[0018]可选地,所述将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应之前,所述方法还包括:
[0019]预先构建所述中值距离子分类模型;
[0020]相应的,所述预先构建中值距离子分类模型,具体包括:
[0021]获取不同书面语体类型对应的至少一个中值向量;
[0022]根据预先配置的中值距离计算公式,计算输入的训练集距离所述至少一个中值向量的中值距离,确定最小的中值距离对应的书面语体类型为当前样本的书面语体类型,以此构建所述中值距离自分类模型。
[0023]可选地,所述中值距离计算公式为:
[0024]其中,A表示A类书面语体类型,Z
An
为所述待分类书面语体样本距离所述A类书面语体类型的中值距离,所述t
in
表示第n个样本且第i个指标变量,z
Ai
表示A类中第i个指标变量的中值向量,p值指标变量,1≤n≤846,n为正整数,1≤i≤9,i为正整数。
[0025]可选地,所述分类结果为四个;对应的,所述根据所述至少一个分类结果,确定所述待分类书面语体样本的书面语体类型,具体包括:
[0026]当至少三个所述分类结果一致时,确定当前所述一致的分类结果对应的书面语体类型为所述待分类书面语体样本的书面语体类型;
[0027]当两个所述分类结果一致,且另外两个所述分类结果不一致时,确定当前所述一致的分类结果对应的书面语体类型为所述待分类书面语体样本的书面语体类型;
[0028]当所述分类结果两两一致时,确定所述中值距离与所述至少一个均值聚类距中的最小值,所述最小值对应的书面语体类型即为所述待分类书面语体样本的书面语体类型。
[0029]可选地,所述预先构建所述因子子分类模型集合之前,所述方法还包括:
[0030]预先对构建所述因子子分类模型集合的数据进行预处理。
[0031]本申请实施方式第二方面提供了一种书面语体类型的分类装置,所述装置包括:
[0032]获取模块,用于获取待分类书面语体样本;
[0033]输入模块,用于将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应;
[0034]确定模块,用于根据所述至少一个分类结果,确定所述待分类书面语体样本的书面语体类型。
[0035]本申请实施方式第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前述的一种书面语体类型的分类方法。
[0036]本申请实施方式第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前述的一种书面语体类型的分类方法的步骤。
[0037]本申请实施方式第五方面提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述本申请实施方式第一方面提供的一种书面语体类型的分类方法。
[0038]本专利技术的实施方式与现有技术相比存在的有益效果是:先获取待分类书面语体样本,然后将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应,最后根据所述至少一个分类结果,确定所述待分类书面语体样本的书面语体类型。通过预先构建所述书面语体类型分类模型,以自动确认所述待分类书面语体样本的书面语体类型,以解决了传统靠人工对其加以区分,而导致所述汉语书面语体类型的分类无法批量且自动的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种书面语体类型的分类方法,其特征在于,所述方法包括:获取待分类书面语体样本;将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应;根据所述至少一个分类结果,确定所述待分类书面语体样本的书面语体类型。2.根据权利要求1所述的方法,其特征在于,所述至少一个子分类模型包括:因子子分类模型集合以及中值距离子分类模型。3.根据权利要求2所述的方法,其特征在于,所述将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应之前,所述方法还包括:预先构建所述因子子分类模型集合;相应的,所述预先构建所述因子子分类模型集合具体包括:对预先配置的训练集进行因子分析,获取分析数据;根据所述分析数据与预先配置的矩阵计算公式,确认至少一个矩阵;对所述至少一个矩阵分别进行均值聚类,获取所述因子子分类模型集合以及至少一个均值聚类距离值。4.根据权利要求3所述的方法,其特征在于,所述将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应之前,所述方法还包括:预先构建所述中值距离子分类模型;相应的,所述预先构建中值距离子分类模型,具体包括:获取不同书面语体类型对应的至少一个中值向量;根据预先配置的中值距离计算公式,计算输入的训练集距离所述至少一个中值向量的中值距离,确定最小的中值距离对应的书面语体类型为当前样本的书面语体类型,以此构建所述中值距离自分类模型。5.根据权利要求4所述的方法,其特征在于,所述中值距离计算公式为:其中,A表示A类书面语体类型,Z
A...

【专利技术属性】
技术研发人员:罗茵逯燕玲周建设史金生刘竞洋陈硕
申请(专利权)人:北京联合大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1