数据处理方法、装置、设备及计算机存储介质制造方法及图纸

技术编号:25690187 阅读:16 留言:0更新日期:2020-09-18 21:01
本公开实施例公开了一种数据处理方法、装置、设备和计算机存储介质。该方法包括:获取第一数据,其中,所述第一数据包括待分级文件中每一级别词汇的数量信息;获取分类器;其中,所述分类器是基于第二数据得到的,所述第二数据包括已分级文件中每一级别词汇的数量信息;通过分类器对所述第一数据进行处理,得到第一分级结果;其中,所述第一分级结果用于表示所述待分级文件对应的级别。如此,本公开实施例中,在待分级文件为任一阅读材料的情况下,可以灵活地确定出该阅读材料对应的级别。

【技术实现步骤摘要】
数据处理方法、装置、设备及计算机存储介质
本公开涉及数据处理
,尤其涉及一种数据处理方法、装置、设备以及计算机存储介质。
技术介绍
在相关技术的语言学习体系中,语言学习者通常需要借助大量的阅读材料来巩固学习成果,拓宽学习范围。然而,在现有的语言学习,比如英语学习体系中,语言学习者通常只能从其所选择的语言学习体系内已经确定级别的、有限的若干阅读材料,来选择与其语言学习水平相当的阅读材料,而在面对该语言学习体系之外的任一阅读材料的情况下,语言学习者无法得知该阅读材料的级别信息,也就无法确定该阅读材料是否适合自身阅读学习。
技术实现思路
本公开实施例期望提供数据处理的技术方案。本公开实施例提供了一种数据处理的方法,所述方法包括:获取第一数据,其中,所述第一数据包括待分级文件中每一级别词汇的数量信息;获取分类器;其中,所述分类器是基于第二数据得到的,所述第二数据包括已分级文件中每一级别词汇的数量信息;通过所述分类器对所述第一数据进行处理,得到第一分级结果;其中,所述第一分级结果用于表示所述待分级文件对应的级别。可选的,所述方法还包括:获取标准分级样本,其中,所述标准分级样本用于实现词汇分级;基于所述标准分级样本,分别对所述待分级文件和所述已分级文件进行处理,得到所述第一数据和所述第二数据。由以上可以看出,在首先获取用于实现词汇分级的标准分级样本的条件下,再使用该标准分级样本对待分级文件和已分级文件进行处理,因而,得到的第一数据和第二数据,可以充分的体现出待分级文件和已分级文件分别承载的标准分级样本中级别的特征,从而第一数据和第二数据可以准确的体现出待分级文件和已分级文件的级别特征,为后续的分类器调整、以及对待分类文件的精确分类,提供了有利条件。可选的,所述基于所述标准分级样本,分别对所述待分级文件和所述已分级文件进行处理,包括:基于所述标准分级样本,确定第三数据;其中,所述第三数据包括所述标准分级样本中每一级别词汇的集合;基于所述第三数据,对所述待分级文件和所述已分级文件进行处理。由以上可以看出,基于标准分级样本确定的第三数据,可以准确而客观的反映出标准分级样本中各个样本的级别特性,在这种情况下,再基于第三数据,对待分级文件和已分级文件进行处理,得到的第一数据和第二数据,能够体现出待分级文件和已分级文件中所包含的各个级别的词汇信息。可选的,所述标准分级样本,包括至少两个级别的标准分级文件;所述基于所述标准分级样本,确定第三数据,包括:在所述标准分级样本中检索待检索词汇,确定第一级别信息;其中,所述待检索词汇,用于表示所述标准分级样本中的任一词汇或词汇组合;所述第一级别信息,表示所述待检索词汇首次出现位置所对应的标准分级文件的级别信息;所述首次出现位置,用于表示所述待检索词汇在所述标准分级样本中首次出现的位置;基于每一所述待检索词汇的所述第一级别信息,确定所述第三数据。基于此,在本公开实施例提供的数据处理方法中,通过在标准分级样本中检索待检索词汇,首先确定待检索词汇的首次出现位置,再根据首次出现位置确定各个待检索词汇的第一级别信息,从而实现了在标准分级样本或标准分级文件未具备词汇列表的条件下,依然可以快速而全面的确定表示标准分级样本中每一级别词汇集合的第三数据。可选的,所述在所述标准分级样本中检索待检索词汇,确定第一级别信息,包括:确定所述待检索词汇在所述标准分级样本中的检索范围;基于所述检索范围,在所述标准分级样本中检索所述待检索词汇,确定所述第一级别信息。基于此,在本公开实施例中,首先确定待检索词汇在标准分级样本中的检索范围,再基于检索范围,在标准分级样本中检索待检索词汇,以确定第一级别信息,从而实现了待检索词汇的快速检索,因而,在确定第一级别信息的过程中,实现了计算量的降低,计算速度的提高,从而提高了计算效率。可选的,所述确定所述待检索词汇在所述标准分级样本中的检索范围,包括:基于预设的词汇级别判断规则和所述标准分级样本,确定第二级别信息;其中,所述第二级别信息,用于表示所述待检索词汇的起始检索级别信息;基于所述第二级别信息,确定所述检索范围。基于此,在本公开实施例中,首先基于预设的词汇级别判断规则和标准分级文件,确定表示待检索词汇的最低级别信息的第二级别信息,然后基于第二级别信息,确定检索范围,因而,本公开实施例所提供的检索范围的确定方法,可以很大程度上减少词汇检索的数量,从而降低了词汇检索的运算时间,节省了词汇检索所占用的计算资源,实现了待检索词汇的快速定位。可选的,所述分类器是基于以下步骤得到的:基于所述第二数据,获取比例信息;其中,所述比例信息,用于表示所述第二数据相对于所述已分级文件中所有词汇数量的比例;基于所述比例信息,训练初始分类器,得到所述分类器。基于此,在本公开实施例中,首先基于第二数据,获取表示第二数据相对于已分级文件中所有词汇数量比例的比例信息,再基于该比例信息,建立分类器。也就是说,在训练分类器之前,首先对分类器建立所依赖的数据进行了归一化处理,从而使得分类器训练过程中的数据运算范围缩小,缩短了分类器训练过程所需要的时间,也降低了分类器训练时数据运算产生的存储开销,进而降低了分类器训练的时间成本和运算资源成本。可选的,所述方法还包括:获取第二分级结果;其中,所述第二分级结果,用于表示与目标对象对应的级别信息;基于所述第二分类结果,获取推荐文件列表;其中,所述推荐文件列表,用于表示所述待分级文件中与所述第二分级结果对应的文件列表。基于此,在本公开实施例中,首先得到用于表示与目标对象对应级别信息的第二分级结果,再得到用于表示待分级文件中与第二分级结果对应的推荐文件列表。由此,本公开实施例中,在分类器训练完成之后,可以根据目标对象本身的级别信息推荐与其对应的推荐文件列表,一方面,使得目标对象获取对应推荐文件列表的操作更加快捷智能,另一方面,也使得目标对象获取的推荐文件列表的针对性更强。可选的,所述获取第二分级结果,包括:获取所述目标对象的级别测试结果;其中,所述级别测试结果,表示所述对目标对象进行词汇级别测试得到的结果;基于所述级别测试结果,得到所述第二分级结果。基于此,在本公开实施例中,首先获取表示目标对象通过级别测试得到的至少一个词汇的集合的级别测试结果,然后基于级别测试结果,得到第二分级结果。由此,本公开实施例中所获取到的第二分级结果,能够全面而客观的反应出目标对象的语言水平。可选的,所述基于所述级别测试结果,得到所述第二分级结果,包括:基于所述级别测试结果,确定第四数据;其中,所述第四数据,用于表示所述级别测试结果中每一级别的已识别词汇的数量信息;所述已识别词汇为在所述级别测试结果中所述目标对象能够正确识别的词汇;通过所述分类器对所述第四数据进行处理,得到所述第二分级结果。基于此,在本公本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:/n获取第一数据,其中,所述第一数据包括待分级文件中每一级别词汇的数量信息;/n获取分类器;其中,所述分类器是基于第二数据得到的,所述第二数据包括已分级文件中每一级别词汇的数量信息;/n通过所述分类器对所述第一数据进行处理,得到第一分级结果;其中,所述第一分级结果用于表示所述待分级文件对应的级别。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
获取第一数据,其中,所述第一数据包括待分级文件中每一级别词汇的数量信息;
获取分类器;其中,所述分类器是基于第二数据得到的,所述第二数据包括已分级文件中每一级别词汇的数量信息;
通过所述分类器对所述第一数据进行处理,得到第一分级结果;其中,所述第一分级结果用于表示所述待分级文件对应的级别。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取标准分级样本;其中,所述标准分级样本用于实现词汇分级;
基于所述标准分级样本,分别对所述待分级文件和所述已分级文件进行处理,得到所述第一数据和所述第二数据。


3.根据权利要求2所述的方法,其特征在于,所述基于所述标准分级样本,分别对所述待分级文件和所述已分级文件进行处理,包括:
基于所述标准分级样本,确定第三数据;其中,所述第三数据包括所述标准分级样本中每一级别词汇的集合;
基于所述第三数据,对所述待分级文件和所述已分级文件进行处理。


4.根据权利要求3所述的方法,其特征在于,所述标准分级样本,包括至少两个级别的标准分级文件;所述基于所述标准分级样本,确定第三数据,包括:
在所述标准分级样本中检索待检索词汇,确定第一级别信息;其中,所述待检索词汇,用于表示所述标准分级样本中的任一词汇或词汇组合;所述第一级别信息,表示所述待检索词汇首次出现位置所对应的标准分级文件的级别信息;所述首次出现位置,用于表示所述待检索词汇在所述标准分级样本中首次出现的位置;
基于每一所述待检索词汇的所述第一级别信息,确定所述第三数据。


5.根据权利要求4所述的方法,其特征在于,所述在所述标准分级样本中检索待检索词汇,确定第一级别信息,包括:
确定所述待检索词汇在所述标准分级样本中的检索范围;
基于所述检索范围,在所述标准分级样本中检索所述待检索词汇,确定所述第一级别信息。


6.根据权利要求5所述的方法,其特征在于,所述确定所述待检索词汇在所述标准分级样本中的检索范围,包括:
基于预设的词汇级别判断规则和所述标准分级样本,确定第二级别信息;其中,所述第二级别信息,用于表示所述待检索词汇的起始检索级别信息;
基于所述第二级别信息,确定所述检索范围。


7.根据权利要求1-6任一项所述的...

【专利技术属性】
技术研发人员:牛临潇王海涛李南贤李诚
申请(专利权)人:北京市商汤科技开发有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1