一种慕课的关键词提取方法技术

技术编号:18972330 阅读:77 留言:0更新日期:2018-09-19 03:36
本发明专利技术公开了一种慕课的关键词提取方法,该方法包括:先将慕课视频文件的语音转换为文本,并对文本进行中文分词、添加词性标注和语义标注,再根据每个词语的词语位置、词性和语义特征,结合预设的权重设置,计算文本中每个词语的第一综合权重,结合TextRank算法构建的图模型,计算每个词语的第二综合权重,最后按照权重由大到小,迭代输出X个关键词,完成关键词的提取。采用本发明专利技术实施例,能提高关键词提取的精确性,满足慕课个性化学习的需求。

A keyword extraction method for Mogao class

The invention discloses a method for extracting keywords from a Mocha video file. The method comprises converting the voice of a Mocha video file into a text, segmenting the text into Chinese words, adding part-of-speech tagging and semantic tagging, and then calculating the text according to the position, part-of-speech and semantic features of each word, combined with the preset weight setting. In this paper, the first comprehensive weight of each word, combined with the graph model constructed by TextRank algorithm, calculates the second comprehensive weight of each word. Finally, according to the weight from large to small, iteratively output X keywords, complete the extraction of keywords. By adopting the embodiment of the invention, the accuracy of keyword extraction can be improved, and the requirement of individualized learning can be met.

【技术实现步骤摘要】
一种慕课的关键词提取方法
本专利技术涉及计算机
,尤其涉及一种慕课的关键词提取方法。
技术介绍
随着移动互联网的发展,在线学习(E-learning)作为一种新兴的教学模式在世界范围内得到了迅猛的发展。“慕课”英文全称是MassiveOpenOnlineCourse(大规模在线开放课程),简称MOOC。实际上是在线教育的新发展,是一种新型的在线开放教育形式,其实质是低成本、精品化、生成式、可广泛共享的在线微课程。与传统在线教育相比,它的一个显著特点是更加关注学生的“学”,学生在很大程度上可以通过MOOC实现自主个性化学习。现有的慕课主要采用“讲授型”教学方式,主要以视频形式讲授教学内容,辅之以测验、课后练习专题研讨,占课程资源比重达99.01%。由此可见,对慕课视频进行自动关键词提取,以及在海量的慕课资源中快速准确地查找所需资源具有深远的意义与研究价值。现有技术对于关键词自动提取的研究集中在无监督方法方面,即不需要标注训练语料集,主流方法有基于词频统计的TF-IDF模型、基于主题模型和基于词图模型的关键词抽取等。而基于词图模型关键词抽取的方法,不需要事先对文档集进行学习训练,仅利用单篇文档本身的信息即可进行关键词抽取,简单而有效,应用广泛,以TextRank算法为典型代表。但是现有的TextRank算法在关键词抽取时,仅利用单一文档进行关键词抽取且节点均匀加权的无权边图,而慕课语音文本具有独特的领域特征,除了要求抽取的关键词具有较高的准确率,还应该有较高的领域相关度,即该领域的核心术语。因此,亟需一种从词语性和领域性两个角度出发的关键词抽取方法。专利
技术实现思路
本专利技术实施例提出一种慕课的关键词提取方法,考虑了慕课语音文本的词语性和领域性,提高关键词提取的精确性,满足慕课个性化学习的需求。本专利技术实施例提供慕课的关键词提取方法,包括:获取待提取慕课的视频文件,将所述视频文件的语音转换为文本;对所述文本进行中文分词,识别每个词语的词性和语义特征,为所述每个词语添加词性标注和语义特征标注;根据所述每个词语的词语位置、词性和语义特征,结合预设的权重设置,计算所述文本中所述每个词语的第一综合权重;根据TextRank算法,构建所述文本的图模型,并根据所述图模型和所述每个词语的第一综合权重,计算所述每个词语的第二综合权重;根据所述每个词语的第二综合权重,按照权重由大到小,迭代输出X个关键词;X≥2。进一步的,所述预设的权重设置具体为:将预设的评价指标通过序关系法进行权重设置;所述评价指标包括:词语位置指标Q1、词性指标Q2、语义特征指标Q3、篇首指标Q11、篇尾指标Q12、名词指标Q21、动词指标Q22、形容词指标Q23、副词指标Q24、总结性特征词指标Q31和并列性特征词指标Q32;其中,Q1、Q2、Q3为一级指标;Q11、Q12、Q21、Q22、Q23、Q24、Q31和Q32为二级指标;根据预设序关系Q1>Q2>Q3,得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比,并分别对所述一级指标和二级指标进行权重设置。进一步的,所述根据预设序关系Q1>Q2>Q3,得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比,并分别对所述一级指标和二级指标进行权重设置,具体为:目标Qk和相邻目标Qk-1的重要程度比:rk=wk-1/wk,k=m,m-1,m-2,…3,2;m为评价指标的总个数;且根据所述序关系Q1>Q2>Q3,rk-1和rk需满足:rk-1>rk,k=m,m-1,m-2,…3,2;对各重要程度比进行赋值后,通过以下公式计算各一级指标和二级指标的权重系数,并根据所述权重系数进行权重设置:其中,wk-1=rkwk,k=m,m-1,m-2…,3,2。进一步的,所述计算所述文本中所述每个词语的第一综合权重,具体为:通过以下公式计算每个词语w的第一综合权重:其中,q1、q2和q3分别为Q1、Q2、Q3的一级指标权重;和分别为(Q11、Q12)、(Q21、Q22、Q23、Q24)和(Q31、Q32)的二级指标权重。进一步的,所述根据TextRank算法,构建所述文本的图模型,并根据所述图模型和所述每个词语的第一综合权重,计算所述每个词语的第二综合权重,具体为:设G(V,E)为所述文本的词汇构成的图,则根据TextRank算法的图模型的权重迭代公式为:其中,d为阻尼系数,In(vi)表示指向节点Vi的所有节点集合;Out(vj)表示节点Vj指向所有节点的集合;wji表示节点Vj到节点Vi的边的权重;根据所述图模型的权重迭代公式和所述第一综合权重,按照以下公式计算第二综合权重;进一步的,所述的慕课的关键词提取方法还包括:按照以下公式,计算所述每个词语在预设文档集中的平均信息熵;其中,fwk表示词语w在文档k中的频率,nw表示词语w在整个文档集中的频率,N表示文档的总数。进一步的,在所述计算所述每个词语在预设文档集中的平均信息熵之后,还包括:过滤掉所述X个关键词中平均信息熵大于预设阈值的关键词,并输出剩余的关键词,其中2≤X≤10。进一步的,在所述将所述视频文件的语音转换为文本之后,还包括:对所述文本进行预处理,校正所述文本的错别字。实施本专利技术实施例,具有如下有益效果:本专利技术实施例提供的慕课的关键词提取方法,先将慕课视频文件的语音转换为文本,并对文本进行中文分词、添加词性标注和语义标注,再根据每个词语的词语位置、词性和语义特征,结合预设的权重设置,计算文本中每个词语的第一综合权重,结合TextRank算法构建的图模型,计算每个词语的第二综合权重,最后按照权重由大到小,迭代输出X个关键词,完成关键词的提取。相比于现有技术的节点均匀加权的无权边图,本专利技术技术方案针对慕课语音文本的非规范性,从词语性的角度进行关键词提取,提高了关键词提取的精确性。进一步的,本专利技术技术方案通过平均信息熵衡量词语的领域性,并通过平均信息熵来过滤掉得出的X个关键词,从词语性和领域性两个角度进行关键词提取,进一步提高了关键词提取的精确性,满足慕课个性化学习的需求。附图说明图1是本专利技术提供的慕课的关键词提取方法的一种实施例的流程示意图;图2是本专利技术提供的关键词提取影响因素权重指标体系的一种实施例的结构示意图;图3是本专利技术提供的慕课的关键词提取方法的一种实施例的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参见图1,是本专利技术提供的慕课的关键词提取方法的一种实施例的流程示意图,该方法步骤101至步骤105,各步骤具体如下:步骤101:获取待提取慕课的视频文件,将视频文件的语音转换为文本。在本实施例中,通过语音分析系统将语音转换为文本,该内容为现有技术,在此不在赘述。作为本实施例的一种举例,在步骤101之后,还包括:对文本进行预处理,校正文本的错别字,以提高关键词提取的准确率。步骤102:对文本进行中文分词,识别每个词语的词性和语义特征,为每个词语添加词性标注和语义特征标注。在本实施例中,本专利技术针对词语性本文档来自技高网
...

【技术保护点】
1.一种慕课的关键词提取方法,其特征在于,包括:获取待提取慕课的视频文件,将所述视频文件的语音转换为文本;对所述文本进行中文分词,识别每个词语的词性和语义特征,为所述每个词语添加词性标注和语义特征标注;根据所述每个词语的词语位置、词性和语义特征,结合预设的权重设置,计算所述文本中所述每个词语的第一综合权重;根据TextRank算法,构建所述文本的图模型,并根据所述图模型和所述每个词语的第一综合权重,计算所述每个词语的第二综合权重;根据所述每个词语的第二综合权重,按照权重由大到小,迭代输出X个关键词;X≥2。

【技术特征摘要】
1.一种慕课的关键词提取方法,其特征在于,包括:获取待提取慕课的视频文件,将所述视频文件的语音转换为文本;对所述文本进行中文分词,识别每个词语的词性和语义特征,为所述每个词语添加词性标注和语义特征标注;根据所述每个词语的词语位置、词性和语义特征,结合预设的权重设置,计算所述文本中所述每个词语的第一综合权重;根据TextRank算法,构建所述文本的图模型,并根据所述图模型和所述每个词语的第一综合权重,计算所述每个词语的第二综合权重;根据所述每个词语的第二综合权重,按照权重由大到小,迭代输出X个关键词;X≥2。2.根据权利要求1所述的慕课的关键词提取方法,其特征在于,所述预设的权重设置具体为:将预设的评价指标通过序关系法进行权重设置;所述评价指标包括:词语位置指标Q1、词性指标Q2、语义特征指标Q3、篇首指标Q11、篇尾指标Q12、名词指标Q21、动词指标Q22、形容词指标Q23、副词指标Q24、总结性特征词指标Q31和并列性特征词指标Q32;其中,Q1、Q2、Q3为一级指标;Q11、Q12、Q21、Q22、Q23、Q24、Q31和Q32为二级指标;根据预设序关系Q1>Q2>Q3,得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比,并分别对所述一级指标和二级指标进行权重设置。3.根据权利要求2所述的慕课的关键词提取方法,其特征在于,所述根据预设序关系Q1>Q2>Q3,得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比,并分别对所述一级指标和二级指标进行权重设置,具体为:目标Qk和相邻目标Qk-1的重要程度比:rk=wk-1/wk,k=m,m-1,m-2,…3,2;m为评价指标的总个数;且根据所述序关系Q1>Q2>Q3,rk-1和rk需满足:rk-1>rk,k=m,m-1,m-2,…3,2;对各重要程度比进行赋值后,通...

【专利技术属性】
技术研发人员:马震远黄丽霞张露娟戴玉珠林智勇刘少鹏
申请(专利权)人:广东技术师范学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1