The invention discloses a method for extracting keywords from a Mocha video file. The method comprises converting the voice of a Mocha video file into a text, segmenting the text into Chinese words, adding part-of-speech tagging and semantic tagging, and then calculating the text according to the position, part-of-speech and semantic features of each word, combined with the preset weight setting. In this paper, the first comprehensive weight of each word, combined with the graph model constructed by TextRank algorithm, calculates the second comprehensive weight of each word. Finally, according to the weight from large to small, iteratively output X keywords, complete the extraction of keywords. By adopting the embodiment of the invention, the accuracy of keyword extraction can be improved, and the requirement of individualized learning can be met.
【技术实现步骤摘要】
一种慕课的关键词提取方法
本专利技术涉及计算机
,尤其涉及一种慕课的关键词提取方法。
技术介绍
随着移动互联网的发展,在线学习(E-learning)作为一种新兴的教学模式在世界范围内得到了迅猛的发展。“慕课”英文全称是MassiveOpenOnlineCourse(大规模在线开放课程),简称MOOC。实际上是在线教育的新发展,是一种新型的在线开放教育形式,其实质是低成本、精品化、生成式、可广泛共享的在线微课程。与传统在线教育相比,它的一个显著特点是更加关注学生的“学”,学生在很大程度上可以通过MOOC实现自主个性化学习。现有的慕课主要采用“讲授型”教学方式,主要以视频形式讲授教学内容,辅之以测验、课后练习专题研讨,占课程资源比重达99.01%。由此可见,对慕课视频进行自动关键词提取,以及在海量的慕课资源中快速准确地查找所需资源具有深远的意义与研究价值。现有技术对于关键词自动提取的研究集中在无监督方法方面,即不需要标注训练语料集,主流方法有基于词频统计的TF-IDF模型、基于主题模型和基于词图模型的关键词抽取等。而基于词图模型关键词抽取的方法,不需要事先对文档集进行学习训练,仅利用单篇文档本身的信息即可进行关键词抽取,简单而有效,应用广泛,以TextRank算法为典型代表。但是现有的TextRank算法在关键词抽取时,仅利用单一文档进行关键词抽取且节点均匀加权的无权边图,而慕课语音文本具有独特的领域特征,除了要求抽取的关键词具有较高的准确率,还应该有较高的领域相关度,即该领域的核心术语。因此,亟需一种从词语性和领域性两个角度出发的关键词抽取方法。专利 ...
【技术保护点】
1.一种慕课的关键词提取方法,其特征在于,包括:获取待提取慕课的视频文件,将所述视频文件的语音转换为文本;对所述文本进行中文分词,识别每个词语的词性和语义特征,为所述每个词语添加词性标注和语义特征标注;根据所述每个词语的词语位置、词性和语义特征,结合预设的权重设置,计算所述文本中所述每个词语的第一综合权重;根据TextRank算法,构建所述文本的图模型,并根据所述图模型和所述每个词语的第一综合权重,计算所述每个词语的第二综合权重;根据所述每个词语的第二综合权重,按照权重由大到小,迭代输出X个关键词;X≥2。
【技术特征摘要】
1.一种慕课的关键词提取方法,其特征在于,包括:获取待提取慕课的视频文件,将所述视频文件的语音转换为文本;对所述文本进行中文分词,识别每个词语的词性和语义特征,为所述每个词语添加词性标注和语义特征标注;根据所述每个词语的词语位置、词性和语义特征,结合预设的权重设置,计算所述文本中所述每个词语的第一综合权重;根据TextRank算法,构建所述文本的图模型,并根据所述图模型和所述每个词语的第一综合权重,计算所述每个词语的第二综合权重;根据所述每个词语的第二综合权重,按照权重由大到小,迭代输出X个关键词;X≥2。2.根据权利要求1所述的慕课的关键词提取方法,其特征在于,所述预设的权重设置具体为:将预设的评价指标通过序关系法进行权重设置;所述评价指标包括:词语位置指标Q1、词性指标Q2、语义特征指标Q3、篇首指标Q11、篇尾指标Q12、名词指标Q21、动词指标Q22、形容词指标Q23、副词指标Q24、总结性特征词指标Q31和并列性特征词指标Q32;其中,Q1、Q2、Q3为一级指标;Q11、Q12、Q21、Q22、Q23、Q24、Q31和Q32为二级指标;根据预设序关系Q1>Q2>Q3,得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比,并分别对所述一级指标和二级指标进行权重设置。3.根据权利要求2所述的慕课的关键词提取方法,其特征在于,所述根据预设序关系Q1>Q2>Q3,得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比,并分别对所述一级指标和二级指标进行权重设置,具体为:目标Qk和相邻目标Qk-1的重要程度比:rk=wk-1/wk,k=m,m-1,m-2,…3,2;m为评价指标的总个数;且根据所述序关系Q1>Q2>Q3,rk-1和rk需满足:rk-1>rk,k=m,m-1,m-2,…3,2;对各重要程度比进行赋值后,通...
【专利技术属性】
技术研发人员:马震远,黄丽霞,张露娟,戴玉珠,林智勇,刘少鹏,
申请(专利权)人:广东技术师范学院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。