文件的处理方法及装置制造方法及图纸

技术编号:28295601 阅读:61 留言:0更新日期:2021-04-30 16:19
本发明专利技术公开了一种文件的处理方法及装置。其中,该方法包括:获取多个资源文件,并构建每个资源文件的特征信息;基于每个资源文件的特征信息对多个资源文件进行聚类,生成多个资源簇;根据接收到的资源文件提取请求,从至少一个资源簇中抽取资源文件构成文件包,并返回文件包。本发明专利技术解决了现有技术中单一教学资源的推荐方法导致老师无法精准找到合适的教学资源的技术问题。

【技术实现步骤摘要】
文件的处理方法及装置
本专利技术涉及数据处理领域,具体而言,涉及一种文件的处理方法及装置。
技术介绍
随着在线教育的推广,电子化资源越来越丰富,资源的海量增长丰富了老师的选择,为教学带来更多可能性,老师可以在教学中运用多样的资源,丰富课堂内容,活跃课堂气氛。但是,老师面对数量众多、类型众多的电子资源,往往很难快速精准选择到自己预期的资源。为了提高资源的匹配效率,现有技术中常采用单一资源推荐的方法,例如习题推荐。但是老师在完整的教学流程中,需要使用到多种类型资源的组合,以涵盖老师在传授某一特定内容时所需要用到的各类资源,比如上课需要准备课件、课堂或课后需要布置习题练习,以及使用演示动画或知识点讲解视频来巩固学生的知识或提升趣味性,然而现有的单一资源推荐方法无法实现多类型组合资源的推荐,因此老师很难从海量的电子资源中获得需要的资源组合。针对上述现有技术中单一教学资源的推荐方法导致老师无法精准找到合适的教学资源的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种文件的处理方法及装置,以至少解决现有本文档来自技高网...

【技术保护点】
1.一种文件的处理方法,其特征在于,包括:/n获取多个资源文件,并构建每个所述资源文件的特征信息;/n基于每个所述资源文件的特征信息对所述多个资源文件进行聚类,生成多个资源簇;/n根据接收到的资源文件提取请求,从至少一个所述资源簇中抽取资源文件构成文件包,并返回所述文件包。/n

【技术特征摘要】
1.一种文件的处理方法,其特征在于,包括:
获取多个资源文件,并构建每个所述资源文件的特征信息;
基于每个所述资源文件的特征信息对所述多个资源文件进行聚类,生成多个资源簇;
根据接收到的资源文件提取请求,从至少一个所述资源簇中抽取资源文件构成文件包,并返回所述文件包。


2.根据权利要求1所述的方法,其特征在于,获取多个资源文件,并构建每个所述资源文件的特征信息,包括:
获取所述资源文件中的文本信息,并对所述文本信息进行分词;
通过停用词表对分词结果进行清洗;
基于清洗结果进行文本向量化处理,得到用于表示所述特征信息的文本向量。


3.根据权利要求2所述的方法,其特征在于,在所述资源文件为视频文件的情况下,获取所述资源文件中的文本信息,包括:
在所述视频文件包括字幕数据的情况下,获取所述字幕数据,得到所述视频文件中的文本信息;
在所述视频文件不包括所述字幕数据的情况下,提取所述视频文件中的语音信息,并将所述语音信息转换为文本信息。


4.根据权利要求2所述的方法,其特征在于,所述方法还包括:创建与资源文件的文件类型对应的停用词表,其中,创建与资源文件的文件类型对应的停用词表包括:
对资源库中的全量资源文件进行分词,其中,所述资源库包括多种类型的资源文件;
从所述全量资源文件的分词结果中筛选出每种类型的资源文件对应的停用词,其中,根据每种类型的资源文件中每个停用词出现的频率确定每种类型的资源文件对应的停用词;
根据每种类型的资源文件对应的停用词生成与文件类型对应的停用词表。


5.根据权利要求4所述的方法,其特征在于,通过停用词表对分词结果进行清洗,包括:通过所述资源文件的文件类型对应的停用词表对分词结果进行清洗。


6.根据权利要求2所述的方法,其特征在于,在基于清洗结果进行文本向量化处理,得到用于表示所述特征信息的文本向量之后,所述方法还包括如下一项或多项:
通过激活函数对所述文本向量进行放缩处理;
对所述文本向量进行降维处理。


7.根据权利要求1所述的方法,其特征在于,基于每个所述资源文件的特征信息对所述多个资源文件进行聚类,生成多个资源簇,包括:
通过K均值聚类算法基于每个所述资源文件的特征信息对多个所述资源文件进行聚类,生成所述多个资源簇。


8.根据权利要求1所述的方法,其特征在于,在基于每个所述资源文件的特征信息对所述多个资源文件进行聚类,生成多个资源簇之后,所述方法还包括:
接收新加入的新增资源文件,并构建所述新增资源文件的特征信息;
根据所述新增资源文件的特征信息和已存在的资源文件的特征信息,确定所述新增资源文件的近邻文件;
根据所述新增资源文件与所述近邻文件之间的距离关系,将所述新增资源划分至所述多个资源簇中的任意一个资源簇,或为所述新增资源重新生成一个资源簇。


9.根据权利要求8所述的方法,其特征在于,在所述近邻文件均属于同一个第一目标资源簇的情况下,根据所述新增资源文件与所述近邻文件之间的距离关系,将所述新增资源划分至所述多个资源簇中的任意一个资源簇,或为所述新增资源重新生成一个资源簇,包括:
获取所述新增资源文件与所述第一目标资源簇的质心的第一距离;
获取所述第一目标资源簇中与所述质心最远的资源文件与所述质心的第二距离;
获取所述第一目标资源簇中所有资源文件与所述质心的平均距离;
在所述第一距离与所述第二距离之差小于或等于所述平均距离的情况下,将所述新增资源划分至所述第一目标资...

【专利技术属性】
技术研发人员:陈静
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1