一种知识主题和资源文件的关联方法技术

技术编号:18732546 阅读:21 留言:0更新日期:2018-08-22 03:04
本发明专利技术公开了一种知识主题和资源文件的关联方法,首先检索指定格式资源文件;针对于各资源文件删除路径信息以及后缀名后的文件名称提取关键词,得到关键词集合;通各关键词与各资源文件的文件名称之间字符匹配算法建立关键词文件索引;当前获取到知识主题时,计算知识主题与关键词集合中各关键词的相似度以及计算作为节点的关键词与关键词集合中其他各关键词的相似度,根据相似度大小建立树形结构。在建立树形结构后,根据关键词文件索引以及相似度的计算,将各资源文件对应关联到树形结构的节点上。本发明专利技术方法能够帮助用户在不同知识主题下快速获取相关的教学资源信息,该方式可以大大提高用户对教学资源的检索效率,并减少资源文件的重复存储。

An approach to knowledge topic and resource file association

The invention discloses a method for associating knowledge subjects and resource files, which first retrieves resource files of specified format, extracts key words for deletion path information of resource files and file names after suffix names, and obtains a set of keywords; and matches characters between key words and file names of resource files. Keyword file index is established; when the current knowledge topic is obtained, the similarity between the knowledge topic and the keywords in the keyword set is calculated, and the similarity between the keywords as nodes and other keywords in the keyword set is calculated, and the tree structure is established according to the similarity. After establishing the tree structure, the resource files are related to the nodes of the tree structure according to the index of the keyword files and the calculation of similarity. The method of the invention can help users quickly obtain relevant information of teaching resources under different knowledge subjects. The method can greatly improve the retrieval efficiency of teaching resources and reduce the repeated storage of resource files.

【技术实现步骤摘要】
一种知识主题和资源文件的关联方法
本专利技术涉及一种信息化教育
,特别涉及一种知识主题和资源文件的关联方法及装置。
技术介绍
数字教学资源内容包括电子版的教材、课件、教案、试卷、参考书籍及其他多媒体辅助素材,其格式包括文本、视频、音频等文件。数字教学资源按照用户习惯以不同分类进行存储,如按时间分类、按类型分类,按知识主题分类等等。如按照知识主题分类,一般将知识主题设为文件系统的目录名,该知识主题下面的子知识主题设为子目录名,形成一个树状目录结构。每一个教学资源都与相关知识主题对应,一个知识主题包括多个教学资源,一个教学资源也可能对应多个知识主题。因此,同一专业领域的不同知识主题可以参考的教学资源集合之间包含的相同内容占有较大的比例。由于不同知识主题相关的教学资源可能重合,当知识主题彼此相近或相似,又或者在知识图谱上具有层次关系,它们相关的教学资源重合度也较大。如按照其他方式进行分类,用户较难定位主题对应的教学资源;如按照知识主题分类,需要将一份教学资源复制到多个目录,那么会包含大量的冗余信息,而且当涉及多主题的教学资源文件日益增加,频繁的复制操作繁琐且易忘。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种知识主题和资源文件的关联方法,该方法帮助用户在不同知识主题下快速获取相关的教学资源信息,该方式可以大大提高用户对教学资源的检索效率,并减少资源文件的重复存储。本专利技术的目的通过下述技术方案实现:一种知识主题和资源文件的关联方法,步骤如下:步骤S1、检索存储设备中指定格式的资源文件,获取检索到的各资源文件的全路径名称,同时为检索到的各资源文件赋予唯一编号;步骤S2、针对于步骤S1检索到的每一资源文件,去除该资源文件全路径名称中的路径信息以及后缀名,以获取到该资源文件的文件名称,然后提取出该资源文件的文件名称中的关键词;所有资源文件的文件名称的关键词并集后得到关键词集合;步骤S3、针对于关键词集合中的每个关键词,将该关键词分别与各资源文件的文件名称执行字符匹配算法,然后将其中命中的各资源文件的编号索引到该关键词上,从而建立关键词文件索引;步骤S4、当获取知识主题名称时,以知识主题名称为根节点建立树形结构,具体过程如下:步骤S4-1、首先以知识主题名称为根节点,计算知识主题名称与关键词集合中各关键词的相似度,将与知识主题名称相似度超过第一阈值的各关键词作为根节点的子节点,由根节点的各子节点形成了树形结构的第二层;进入步骤S4-2;步骤S4-2、针对于新建立的树形结构当前层中的每一节点,以该节点为父节点,计算该节点与关键词集合中除已经在树形结构节点的关键词以外的其他各关键词的相似度,将与该节点相似度大于等于第一阈值的各关键词作为该节点的子节点,从而形成树形结构的下一层;步骤S4-3、在树形结构下一层建立完成后,将该层作为新建立的树形结构当前层,然后重复执行步骤S4-2,直到新建立的树形结构当前层中的每一节点均满足以下条件:该节点与关键词集合中除已经在树形结构节点的关键词之外的其他各关键词的相似度均小于第一阈值则该节点为叶子节点,将新建立的树形结构当前层作为树形结构最后一层;步骤S5、针对于步骤S4中获取到的树形结构中的每个节点,根据步骤S3中得到的关键词文件索引,获取该节点关键词所对应的资源文件集合,然后分别计算该节点关键词与资源文件集合中每一资源文件的文件名称中各关键词之间的相似度,并且将计算得到的该节点关键词与上述各关键词的相似度进行相加,作为该节点关键词与资源文件集合中资源文件的相似度,按照与该节点关键词的相似度从高到低的排序将对应资源文件关联到该节点上。优选的,所述步骤S1中,指定格式的资源文件包括图片、文档、视频和音频格式的文件;所述步骤S1中,通过对存储设备进行遍历搜索的方式对存储设备中资源文件进行检索,包括搜索资源文件相关目录个数、目录下文件的个数以及目录和资源文件的修改时间;所述步骤S1中,对存储设备中资源文件进行检索的方式包括全检索和增量检索。优选的,所述步骤S2中,针对于资源文件的文件名称,采用结巴分词的方式提取出其中的关键词。优选的,所述步骤S3中,建立一个关键词文件矩阵,其中关键词文件矩阵中每一行的各元素分别对应为关键词集合中每个关键词所索引的各资源文件的编号。优选的,所述步骤S4中,在步骤S4-3后还包括对树形结构进行如下的重构步骤,具体为:步骤S4-4、设定第二阈值,从树形结构上层到下层的顺序,针对于步骤S4-3中得到的树形结构的每个节点,获取树形结构中得到该节点的树枝,然后获取到树枝上在该节点上层的所有节点,同时获取到上述所有节点中各节点作为父节点时与树枝上的其子节点之间的相似度;将上述获取到的所有相似度进行相乘,最后将相乘后得到的值与第二阈值进行比较,若小于第二阈值,则重构树形结构时,该节点及该节点下方由该节点延伸得到的其他所有节点均不布置在重构的树形结构中;所述步骤S5中所使用的树形结构为步骤S4-3得到的树形结构或步骤S4-4重构到的树形结构。更进一步的,所述第一阈值为0.6,所述第二阈值为0.1。优选的,所述步骤S4中,在步骤S4-3后还包括对树形结构进行如下的重构步骤,具体为:步骤S4-5、设定第三阈值a,获取树形结构第二层中各节点与根节点的相似度,从中选择一个最大的相似度a1,然后从树形结构第二层开始,为每一层划分相似度范围值,其中第二层相似度范围为[a1,a1-a),第三层相似度范围为[a1-a,a1-2a),依次类推,第n层相似度范围为[a1-(n-2)a,a1-(n-1)a);步骤S4-6、针对于树形结构的每一层中的每一节点,判断该层中该节点与根节点的相似度是否在该层相似度范围内,若否,则找到该节点与根节点的相似度所在的某层相似度范围,当重构树形结构时,将该层中该节点作为某层的节点;其中重构的树形结构每层从左到右的节点符合以下关系:各节点与根节点的相似度为从大到小;每个节点作为父节点时带规定数量的子节点,或者每个节点作为父节点时,根据子节点和父节点的个数自适应安排每个父节点带相应个数的子节点;所述步骤S5中所使用的树形结构为步骤S4-3得到的树形结构或步骤S4-6重构到的树形结构。更进一步的,所述第一阈值为0.6,第三阈值为0.1。优选的,还包括如下步骤:针对于步骤S4中获取到的树形结构中的每个节点,根据步骤S3中得到的关键词文件索引,获取该节点关键词所对应的资源文件集合,针对于树形结构所有节点所获取到的资源文件集合进行并集得到最终资源文件集合,针对于最终资源文件集合中的每一资源文件,计算该资源文件的文件名称中各关键词与根节点的相似度,然后相加后作为该资源文件与根节点的相似度,然后根据与根节点相似度从大到小的顺序,将每个资源文件依次关联到根节点上。优选的,采用word2vec计算相似度。本专利技术相对于现有技术具有如下的优点及效果:(1)本专利技术一种知识主题和资源文件的关联方法,首先检索存储设备中指定格式的资源文件;针对于各资源文件删除路径信息以及后缀名后的文件名称提取关键词,所有资源文件的文件名称中提取的关键词并集后得到关键词集合;通过关键词集合中各关键词与各资源文件的文件名称之间的字符匹配算法,将对应资源文件的编号索引到该关键词上,从而本文档来自技高网...

【技术保护点】
1.一种知识主题和资源文件的关联方法,其特征在于,步骤如下:步骤S1、检索存储设备中指定格式的资源文件,获取检索到的各资源文件的全路径名称,同时为检索到的各资源文件赋予唯一编号;步骤S2、针对于步骤S1检索到的每一资源文件,去除该资源文件全路径名称中的路径信息以及后缀名,以获取到该资源文件的文件名称,然后提取出该资源文件的文件名称中的关键词;所有资源文件的文件名称的关键词并集后得到关键词集合;步骤S3、针对于关键词集合中的每个关键词,将该关键词分别与各资源文件的文件名称执行字符匹配算法,然后将其中命中的各资源文件的编号索引到该关键词上,从而建立关键词文件索引;步骤S4、当获取知识主题名称时,以知识主题名称为根节点建立树形结构,具体过程如下:步骤S4‑1、首先以知识主题名称为根节点,计算知识主题名称与关键词集合中各关键词的相似度,将与知识主题名称相似度超过第一阈值的各关键词作为根节点的子节点,由根节点的各子节点形成了树形结构的第二层;进入步骤S4‑2;步骤S4‑2、针对于新建立的树形结构当前层中的每一节点,以该节点为父节点,计算该节点与关键词集合中除已经在树形结构节点的关键词以外的其他各关键词的相似度,将与该节点相似度大于等于第一阈值的各关键词作为该节点的子节点,从而形成树形结构的下一层;步骤S4‑3、在树形结构下一层建立完成后,将该层作为新建立的树形结构当前层,然后重复执行步骤S4‑2,直到新建立的树形结构当前层中的每一节点均满足以下条件:该节点与关键词集合中除已经在树形结构节点的关键词之外的其他各关键词的相似度均小于第一阈值,则该节点为叶子节点,将新建立的树形结构当前层作为树形结构最后一层;步骤S5、针对于步骤S4中获取到的树形结构中的每个节点,根据步骤S3中得到的关键词文件索引,获取该节点关键词所对应的资源文件集合,然后分别计算该节点关键词与资源文件集合中每一资源文件的文件名称中各关键词之间的相似度,并且将计算得到的该节点关键词与上述各关键词的相似度进行相加,作为该节点关键词与资源文件集合中资源文件的相似度,按照与该节点关键词的相似度从高到低的排序将对应资源文件关联到该节点上。...

【技术特征摘要】
1.一种知识主题和资源文件的关联方法,其特征在于,步骤如下:步骤S1、检索存储设备中指定格式的资源文件,获取检索到的各资源文件的全路径名称,同时为检索到的各资源文件赋予唯一编号;步骤S2、针对于步骤S1检索到的每一资源文件,去除该资源文件全路径名称中的路径信息以及后缀名,以获取到该资源文件的文件名称,然后提取出该资源文件的文件名称中的关键词;所有资源文件的文件名称的关键词并集后得到关键词集合;步骤S3、针对于关键词集合中的每个关键词,将该关键词分别与各资源文件的文件名称执行字符匹配算法,然后将其中命中的各资源文件的编号索引到该关键词上,从而建立关键词文件索引;步骤S4、当获取知识主题名称时,以知识主题名称为根节点建立树形结构,具体过程如下:步骤S4-1、首先以知识主题名称为根节点,计算知识主题名称与关键词集合中各关键词的相似度,将与知识主题名称相似度超过第一阈值的各关键词作为根节点的子节点,由根节点的各子节点形成了树形结构的第二层;进入步骤S4-2;步骤S4-2、针对于新建立的树形结构当前层中的每一节点,以该节点为父节点,计算该节点与关键词集合中除已经在树形结构节点的关键词以外的其他各关键词的相似度,将与该节点相似度大于等于第一阈值的各关键词作为该节点的子节点,从而形成树形结构的下一层;步骤S4-3、在树形结构下一层建立完成后,将该层作为新建立的树形结构当前层,然后重复执行步骤S4-2,直到新建立的树形结构当前层中的每一节点均满足以下条件:该节点与关键词集合中除已经在树形结构节点的关键词之外的其他各关键词的相似度均小于第一阈值,则该节点为叶子节点,将新建立的树形结构当前层作为树形结构最后一层;步骤S5、针对于步骤S4中获取到的树形结构中的每个节点,根据步骤S3中得到的关键词文件索引,获取该节点关键词所对应的资源文件集合,然后分别计算该节点关键词与资源文件集合中每一资源文件的文件名称中各关键词之间的相似度,并且将计算得到的该节点关键词与上述各关键词的相似度进行相加,作为该节点关键词与资源文件集合中资源文件的相似度,按照与该节点关键词的相似度从高到低的排序将对应资源文件关联到该节点上。2.根据权利要求1所述的知识主题和资源文件的关联方法,其特征在于,所述步骤S1中,指定格式的资源文件包括图片、文档、视频和音频格式的文件;所述步骤S1中,通过对存储设备进行遍历搜索的方式对存储设备中资源文件进行检索,包括搜索资源文件相关目录个数、目录下文件的个数以及目录和资源文件的修改时间;所述步骤S1中,对存储设备中资源文件进行检索的方式包括全检索和增量检索。3.根据权利要求1所述的知识主题和资源文件的关联方法,其特征在于,所述步骤S2中,针对于资源文件的文件名称,采用结巴分词的方式提取出其中的关键词。4.根据权利要求1所述的知识主题和资源文件的关联方法,其特征在于,所述步骤S3中,建立一个关键词文件矩阵,其中关键词文件矩阵中每一行的各元素分别对应为关键...

【专利技术属性】
技术研发人员:黄海晖任光杰张锐韩后林振潮许骏
申请(专利权)人:广州市创新互联网教育研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1