一种基于大数据的教育资源共享系统技术方案

技术编号:38318929 阅读:18 留言:0更新日期:2023-07-29 09:01
本发明专利技术涉及数据共享领域,尤其涉及一种基于大数据的教育资源共享系统,本发明专利技术设置数据存储模块、采集模块、生成模块以及共享模块,通过采集模块判定教学视频所属的方言类型,通过生成模块将教学视频中的语音数据转化为文字文本,并且,判定文字文本中的分词类别,将第一类分词直接添加在教学视频中形成字幕,确定第二类分词的语义词汇,将语义词汇作为注释添加至第二类分词一侧后在教学视频中形成字幕,通过上述过程,识别不同教学视频的方言类别以及存在于该方言类别中特有的特殊词汇,添加注释后形成字幕,减少不同方言类别中特殊词汇对观看者造成的困扰,提高教学资源的利用率。提高教学资源的利用率。提高教学资源的利用率。

【技术实现步骤摘要】
一种基于大数据的教育资源共享系统


[0001]本专利技术涉及数据共享领域,尤其涉及一种基于大数据的教育资源共享系统。

技术介绍

[0002]教育资源共享系统是指利用大数据技术和互联网技术,收集、整合、分析和共享海量的教育资源数据,为教育工作者提供更加智能化、个性化、多元化的教育资源服务的系统,使得教育资源得以高效利用和共享,从而提高教育教学的效率和质量。
[0003]中国专利公开号:CN112948636A,公开了如下内容,该专利技术公开了一种区域教育云资源共享系统及方法,所述共享系统包括区域教育云资源库、异常声纹数据库、上传检测模块、标识获取模块、第一处理模块和第二处理模块,所述区域教育云资源库用于存储可共享观看的教学视频,所述异常声纹数据库用于存储上传教学视频过程中检测到的异常声纹特征,所述上传检测模块用于检测是否存在上传者上传教学视频到区域教育云资源库,并在检测到上传教学视频的操作时令标识获取模块获取该上传者的用户标识,在用户标识上添加有限制标识时令第一处理模块工作,在用户标识上没有限制标识时令第二处理模块工作。
[0004]但是,现有技术中,还存在以下问题:现有技术中未考虑不同的用户端上传各类教学视频时,教学视频中的语音数据可能属于不同的方言类别,尤其是在方言中存在部分方言特有的词汇,对观看者造成了困扰。

技术实现思路

[0005]为解决上述问题,本专利技术提供一种基于大数据的教育资源共享系统,包括:数据存储模块,其包括若干方言数据库、字典数据库以及语音数据库,各所述方言数据库用以存储不同方言类型的方言关键词,所述字典数据库用以存储标准关键词,所述语音数据库用以存储若干预先构建的样本语音片段;采集模块,用以获取用户端上传的教学视频,从所述教学视频的语音数据中随机提取若干语音片段并获取各语音片段与样本语音片段的匹配结果,以判定各语音片段所属的方言类型,统计属于各方言类型的语音片段的数量计算比例表征值,基于比例表征值确定所述教学视频所属的方言类型;生成模块,其与所述采集模块以及数据存储模块连接,所述生成模块用以提取所述教学视频中的语音数据,将所述语音数据转化为文字文本,识别文字文本中各分词的分词类别,并且,将第一类分词直接添加在教学视频中形成字幕;将第二类分词与所述教学视频所属的方言类型对应的方言数据库中的数据进行匹配,以确定所述第二类分词的语义词汇,将所述语义词汇作为注释添加至所述第二类分词一侧后在教学视频中形成字幕;共享模块,其与所述生成模块连接,用以将所述生成模块添加字幕后的教学视频
上传至云端共享平台。
[0006]进一步地,所述采集模块从所述教学视频的语音数据中随机提取若干语音片段并获取各语音片段与样本语音片段的匹配结果,其中,所述采集模块判定所述语音片段的句子结构,从语音数据库中调用与所述句子结构相同的若干样本语音片段,并将样本语音片段的声学特征与语音片段的声学特征进行对比,获取样本重合度,若所述样本重合度大于预设的重合度对比阈值,则所述采集模块判定语音片段与样本语音片段匹配。
[0007]进一步地,所述语音数据库中的各样本语音片段预先与对应的方言类型建立有关联关系。
[0008]进一步地,所述采集模块判定各语音片段所属的方言类型,其中,所述采集模块判定语音片段所属的方言类型与所述语音片段匹配的样本语音片段关联的方言类型相同。
[0009]进一步地,所述采集模块统计属于各方言类型的语音片段的数量计算比例表征值,基于所述比例表征值确定所述教学视频所属的方言类型,其中,所述采集模块根据式(1)计算方言类型对应的比例表征值P,公式(1)中,q表示语音片段的数量,Q表示属于所述方言类型的语音片段的数量;所述采集模块确定各所述比例表征值中的最大比例表征值,将所述最大比例表征值对应的方言类型确定为所述教学视频所属的方言类型。
[0010]进一步地,所述生成模块中还设置有分词程序,用以对文字文本进行分词操作得到若干分词。
[0011]进一步地,所述生成模块根据所述教学视频所属的方言类型判定所述文字文本中各分词的分词类别,其中,所述生成模块将各分词与字典数据库中的标准关键词进行对比,在第一条件下,所述生成模块判定所述文字文本中各分词的分词类别为第一类分词;在第二条件下,所述生成模块判定所述文字文本中各分词的分词类别为第二类分词;其中,所述第一条件为所述分词与所述字典数据库中任一标准关键词相同,所述第二条件为分词与所述字典数据库中的标准关键词均不相同。
[0012]进一步地,各所述方言数据库中的方言关键词均与标准语义词汇建立有关联关系,所述标准语义词汇为所述字典数据库中的标准关键词。
[0013]进一步地,所述生成模块将第二类分词与所述教学视频所属的方言类型对应的方言数据库中的方言关键词进行匹配,确定第二类分词的语义词汇,其中,所述生成模块将第二类分词与所述方言数据库中的方言关键词进行对比,若所述第二类分词与所述方言数据库中的方言关键词相同,则判定所述第二类分词与所述方言关键词匹配,并确定所述第二类分词的语义词汇与所述关键词关联的标准语义词汇相同。
[0014]进一步地,所述字典数据库中的标准关键词为预先爬取开源字典数据库中的数据
所得。
[0015]与现有技术相比,本专利技术设置数据存储模块、采集模块、生成模块以及共享模块,通过采集模块判定教学视频所属的方言类型,通过生成模块将教学视频中的语音数据转化为文字文本,并且,判定文字文本中的分词类别,将第一类分词直接添加在教学视频中形成字幕,确定第二类分词的语义词汇,将语义词汇作为注释添加至第二类分词一侧后在教学视频中形成字幕,通过上述过程,识别不同教学视频的方言类别以及存在于该方言类别中特有的特殊词汇,添加注释后形成字幕,减少不同方言类别中特殊词汇对观看者造成的困扰,提高教学资源的利用率。
[0016]尤其,本专利技术的采集模块判定教学视频所属的方言类别,在实际情况中,教学视频中的语音数据可能属于不同的方言类别,在不同方言中,相同的句子结构下语调存在差异,本专利技术基于相同句子结构下语音片段以及样本语音片段中声学特征的样本重合度判定语音片段以及样本语音片段的匹配性,进而判定语音片段所属的方言类型,预先识别方言类型,便于后续调用对应的方言数据库对第二类分词的语义词汇进行识别,进而减少不同方言类别中特殊词汇对观看者造成的困扰,提高教学资源的利用率。
[0017]尤其,本专利技术的共享模块提取教学视频中的语音数据,将语音数据转化为文字文本识别文字文本中各分词的分词类别,在实际情况中,第一类分词表征了常规的词汇,其属于字典数据库中的标准关键词,第二类词汇表征了方言中存在的特殊词汇,其仅存在于该方言类别中,通过算法自动识别出属于不同方言类别的特殊词汇,便于后续对第二类词汇添加注释在教学视频中形成字幕,进而减少不同方言类别中特殊词汇对观看者造成的困扰,提高教学资源的利用率。
[0018]尤其,本专利技术的生成模块将第二类分词与采集模块识别的教学视频所属的方言类型对应的方言数据库中的数据进行匹配,识本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的教育资源共享系统,其特征在于,包括:数据存储模块,其包括若干方言数据库、字典数据库以及语音数据库,各所述方言数据库用以存储不同方言类型的方言关键词,所述字典数据库用以存储标准关键词,所述语音数据库用以存储若干预先构建的样本语音片段;采集模块,用以获取用户端上传的教学视频,从所述教学视频的语音数据中随机提取若干语音片段并获取各语音片段与样本语音片段的匹配结果,以判定各语音片段所属的方言类型,统计属于各方言类型的语音片段的数量计算比例表征值,基于比例表征值确定所述教学视频所属的方言类型;生成模块,其与所述采集模块以及数据存储模块连接,所述生成模块用以提取所述教学视频中的语音数据,将所述语音数据转化为文字文本,识别文字文本中各分词的分词类别,并且,将第一类分词直接添加在教学视频中形成字幕;将第二类分词与所述教学视频所属的方言类型对应的方言数据库中的数据进行匹配,以确定所述第二类分词的语义词汇,将所述语义词汇作为注释添加至所述第二类分词一侧后在教学视频中形成字幕;共享模块,其与所述生成模块连接,用以将所述生成模块添加字幕后的教学视频上传至云端共享平台。2.根据权利要求1所述的基于大数据的教育资源共享系统,其特征在于,所述采集模块从所述教学视频的语音数据中随机提取若干语音片段并获取各语音片段与样本语音片段的匹配结果,其中,所述采集模块判定所述语音片段的句子结构,从语音数据库中调用与所述句子结构相同的若干样本语音片段,并将样本语音片段的声学特征与语音片段的声学特征进行对比,获取样本重合度,若所述样本重合度大于预设的重合度对比阈值,则所述采集模块判定语音片段与样本语音片段匹配。3.根据权利要求2所述的基于大数据的教育资源共享系统,其特征在于,所述语音数据库中的各样本语音片段预先与对应的方言类型建立有关联关系。4.根据权利要求3所述的基于大数据的教育资源共享系统,其特征在于,所述采集模块判定各语音片段所属的方言类型,其中,所述采集模块判定语音片段所属的方言类型与所述语音片段匹配的样本语音片段关联的方言类型相同。5.根据权利要求4所述的基于大...

【专利技术属性】
技术研发人员:徐丹骆慧
申请(专利权)人:广州宏途数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1