数据处理方法、装置、设备及计算机存储介质制造方法及图纸

技术编号：25690187 阅读：16 留言：0更新日期：2020-09-18 21:01

本公开实施例公开了一种数据处理方法、装置、设备和计算机存储介质。该方法包括：获取第一数据，其中，所述第一数据包括待分级文件中每一级别词汇的数量信息；获取分类器；其中，所述分类器是基于第二数据得到的，所述第二数据包括已分级文件中每一级别词汇的数量信息；通过分类器对所述第一数据进行处理，得到第一分级结果；其中，所述第一分级结果用于表示所述待分级文件对应的级别。如此，本公开实施例中，在待分级文件为任一阅读材料的情况下，可以灵活地确定出该阅读材料对应的级别。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、设备及计算机存储介质
本公开涉及数据处理
，尤其涉及一种数据处理方法、装置、设备以及计算机存储介质。
技术介绍
在相关技术的语言学习体系中，语言学习者通常需要借助大量的阅读材料来巩固学习成果，拓宽学习范围。然而，在现有的语言学习，比如英语学习体系中，语言学习者通常只能从其所选择的语言学习体系内已经确定级别的、有限的若干阅读材料，来选择与其语言学习水平相当的阅读材料，而在面对该语言学习体系之外的任一阅读材料的情况下，语言学习者无法得知该阅读材料的级别信息，也就无法确定该阅读材料是否适合自身阅读学习。
技术实现思路
本公开实施例期望提供数据处理的技术方案。本公开实施例提供了一种数据处理的方法，所述方法包括：获取第一数据，其中，所述第一数据包括待分级文件中每一级别词汇的数量信息；获取分类器；其中，所述分类器是基于第二数据得到的，所述第二数据包括已分级文件中每一级别词汇的数量信息；通过所述分类器对所述第一数据进行处理，得到第一分级结果；其中，所述第一分级结果用于表示所述待分级文件对应的级别。可选的，所述方法还包括：获取标准分级样本，其中，所述标准分级样本用于实现词汇分级；基于所述标准分级样本，分别对所述待分级文件和所述已分级文件进行处理，得到所述第一数据和所述第二数据。由以上可以看出，在首先获取用于实现词汇分级的标准分级样本的条件下，再使用该标准分级样本对待分级文件和已分级文件进行处理，因而，得到的第一数据和第二数据...

【技术保护点】
1.一种数据处理方法，其特征在于，所述方法包括：/n获取第一数据，其中，所述第一数据包括待分级文件中每一级别词汇的数量信息；/n获取分类器；其中，所述分类器是基于第二数据得到的，所述第二数据包括已分级文件中每一级别词汇的数量信息；/n通过所述分类器对所述第一数据进行处理，得到第一分级结果；其中，所述第一分级结果用于表示所述待分级文件对应的级别。/n

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述方法包括：
获取第一数据，其中，所述第一数据包括待分级文件中每一级别词汇的数量信息；
获取分类器；其中，所述分类器是基于第二数据得到的，所述第二数据包括已分级文件中每一级别词汇的数量信息；
通过所述分类器对所述第一数据进行处理，得到第一分级结果；其中，所述第一分级结果用于表示所述待分级文件对应的级别。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
获取标准分级样本；其中，所述标准分级样本用于实现词汇分级；
基于所述标准分级样本，分别对所述待分级文件和所述已分级文件进行处理，得到所述第一数据和所述第二数据。

3.根据权利要求2所述的方法，其特征在于，所述基于所述标准分级样本，分别对所述待分级文件和所述已分级文件进行处理，包括：
基于所述标准分级样本，确定第三数据；其中，所述第三数据包括所述标准分级样本中每一级别词汇的集合；
基于所述第三数据，对所述待分级文件和所述已分级文件进行处理。

4.根据权利要求3所述的方法，其特征在于，所述标准分级样本，包括至少两个级别的标准分级文件；所述基于所述标准分级样本，确定第三数据，包括：
在所述标准分级样本中检索待检索词汇，确定第一级别信息；其中，所述待检索词汇，用于表示所述标准分级样本中的任一词汇或词汇组合；所述第一级别信息，表示所述待检索词汇首次出现位置所对应的标准分级文件的级别信息；所述首次出现位置，用于表示所述待检索词汇在所述标准分级样本中首次出现的位置；
基于每一所述待检索词汇的所述第一级别信息，确定所述第三数据。

5.根据权利要求4所述的方法，其特征在于，所述在所述标准分级样本中检索待检索词汇，确定第一级别信息，包括：
确定所述待检索词汇在所述标准分级样本中的检索范围；
基于所述检索范围，在所述标准分级样本中检索所述待检索词汇，确定所述第一级别信息。

6.根据权利要求5所述的方法，其特征在于，所述确定所述待检索词汇在所述标准分级样本中的检索范围，包括：
基于预设的词汇级别判断规则和所述标准分级样本，确定第二级别信息；其中，所述第二级别信息，用于表示所述待检索词汇的起始检索级别信息；
基于所述第二级别信息，确定所述检索范围。

7.根据权利要求1-6任一项所述的...

【专利技术属性】
技术研发人员：牛临潇，王海涛，李南贤，李诚，
申请(专利权)人：北京市商汤科技开发有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人