关键内容提取方法技术

技术编号:26597789 阅读:17 留言:0更新日期:2020-12-04 21:20
本发明专利技术公开了一种关键内容提取方法,通过获取待提取关键内容的学科信息,根据所述学科信息,生成对应的学科知识库;从所述学科知识库提取原始文本,对原始文本进行数据处理,得到对应的目标文本;对所述目标文本进行分词处理和聚类分析,并按照预设分析方法获得所述目标文本中的关键内容,所述关键内容包括知识点和/或关键词。该技术方案达到了在学科对应的文本中自动提取关键内容的目的,提高了关键内容的提取效率和提取准确率,相较于人工标注习题进行手动提取的方式,本发明专利技术关键内容的提取方式提高了工作效率,同时也节约了大量的人力。

【技术实现步骤摘要】
关键内容提取方法
本专利技术涉及数据处理
,特别涉及一种关键内容提取方法。
技术介绍
随着计算机技术和互联网技术的不断发展进步、以及智能电子产品的逐步普及,考虑到电子产品学习的智能性以及便捷性,学生的学习也逐渐开始借助电子产品来完成。因此,在对学生的教学过程中,也存在着大量的电子化的习题。目前,这类习题基本上采用人工标注的形式进行知识点和对应的关键词的确认,工作效率低且工作量大。
技术实现思路
本专利技术提供一种关键内容提取方法,旨在实现电子化习题对应的关键内容的自动提取。本专利技术提供了一种关键内容提取方法,所述方法包括:获取待提取关键内容的学科信息,根据所述学科信息,生成对应的学科知识库;从所述学科知识库提取原始文本,对原始文本进行数据处理,得到对应的目标文本;对所述目标文本进行分词处理和聚类分析,并按照预设分析方法获得所述目标文本中的关键内容,所述关键内容包括知识点和/或关键词。进一步地,所述获取待提取关键内容的的学科信息,根据所述学科信息,生成对应的学科知识库,包括:对所述学科信息进行解析,获取所述学科信息对应的已知学科知识点和已知学科关键词;根据获取的所述已知学科知识点和已知学科关键词,生成包含所述已知学科知识点和已知学科关键词的学科知识库。进一步地,所述根据获取的所述已知学科知识点和已知学科关键词,生成包含所述已知学科知识点和已知学科关键词的学科知识库,包括:根据获取的所述已知学科知识点和已知学科关键词,对所述已知学科知识点和已知学科关键词进行标注,并将标注后的已知学科知识点和已知学科关键词作为标签样本,生成包含所述标签样本的学科知识库。进一步地,所述获取待提取关键内容的学科信息,根据所述学科信息,生成对应的学科知识库,包括:获取待提取关键内容的学科信息,对所述学科信息进行解析,获取所述学科信息对应的学科类型和学科特征;根据所述学科类型和学科特征,获取所述学科类型和学科特征对应的专业的学科词汇和高频词汇;对所述学科词汇和高频词汇进行标注,并将标注后的学科词汇和高频词汇作为标签样本,生成包含所述标签样本的学科知识库。进一步地,所述获取待提取关键内容的学科信息,根据所述学科信息,生成对应的学科知识库,包括:获取待提取关键内容的学科信息,从所述学科信息中收集已知学科知识点和已知学科关键词;根据收集的所述已知学科知识点和已知学科关键词,生成学科知识图谱对应的学科知识库。进一步地,所述对原始文本进行数据处理,得到对应的目标文本,包括:根据所述学科知识库,对所述原始文本进行数据预处理,剔除所述原始文本中包含空格的无关的字符,得到对应的目标文本。进一步地,所述对所述目标文本进行分词处理和聚类分析,并按照预设分析方法获得所述目标文本中的关键内容,包括:对所述目标文本进行分词处理,得到对应的若干个分词词汇,计算每个分词词汇的当前热度值;对所述若干个分词词汇进行聚类分析,得到各类分词词汇各自对应的分词词汇集合;按照预设的N种词汇提取方式对每个分词词汇集合中的目标词汇进行提取,获得每个分词词汇集合各自对应的多个提取词汇集合,每个提取词汇集合中包括相应的目标词汇;根据所述目标词汇的所述当前热度值,确定每个提取词汇集合各自对应的综合有效值;将所述综合有效值由大到小进行排序,得到排列在前n个的提取词汇集合;对所述前n个提取词汇集合中每个提取词汇集合的关键内容进行提取,获得所述目标文本中的关键内容。进一步地,所述计算每个分词词汇的当前热度值,包括:利用公式(1),计算每个分词词汇的当前热度值:公式(1)中,Sk表示第k个分词词汇的当前热度值;βk表示第k个分词词汇的词汇属性值,为预设值,取值范围为[1,5];n表示预设的总时间段中所包括的单位时间段的数量;χki表示所述第k个分词词汇在第i个单位时间段的关注度;χk′表示所述第k个分词词汇在总时间段的平均关注度;χkmax表示所述第k个分词词汇在总时间段内的所有单位时间段内的最大关注度;其中,所述χki的计算方式如下公式(2):其中,pki表示所述第k个分词词汇在第i个单位时间段内的搜索频次;P1i表示在第i个单位时间段内的搜索不同分词词汇的总频次。进一步地,所述根据所述目标词汇的所述当前热度值,确定每个提取词汇集合各自对应的综合有效值,包括:利用公式(3)和公式(4),计算每个提取词汇集合各自对应的综合有效值,则有:其中,Za表示第a个提取词汇集合的综合有效值;m表示用所述N种词汇提取方式分别对所述第a个提取词汇集合中的目标词汇进行提取时,最终被提取出的所有词汇的总数目;Saj表示被提取出的第j个词汇的当前热度值;pamax表示用所述N种词汇提取方式分别对所述第a个提取词汇集合中的目标词汇进行提取时,在被提取出的词汇中,被提取次数最多的词汇对应的被提取概率;pamin表示用所述N种词汇提取方式分别对所述第a个提取词汇集合中的目标词汇进行提取时,在被提取出的词汇中,被提取次数最少的词汇对应的被提取概率;daj表示被提取出的第j个词汇在采用N种词汇提取方式提取过程出现的总次数;kad表示采用第d种词汇提取方式提取所述第a个提取词汇集合的过程中,提取的词汇个数。本专利技术关键内容提取方法,通过获取待提取关键内容的学科信息,根据所述学科信息,生成对应的学科知识库;从所述学科知识库提取原始文本,对原始文本进行数据处理,得到对应的目标文本;对所述目标文本进行分词处理和聚类分析,并按照预设分析方法获得所述目标文本中的关键内容,所述关键内容包括知识点和/或关键词;达到了电子化习题对应知识点和关键词的自动提取的目的,提高了知识点和关键词的提取效率和提取准确率,相较于人工标注习题进行手动提取的方式,本专利技术知识点和关键词的提取方式提高了工作效率,降低了出错率,同时也节约了大量的人力。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所指出的内容来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1是本专利技术关键内容提取方法的一种实施方式的工作流程示意图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。本专利技术提供了一种关键内容提取方法,解决了人工标注习题工作效率低和工作量大的问题,达到了电子化习题对应知识点和关键词的自动提取的目的。如图1所示,图1是本专利技术关键内容提取方法的一种本文档来自技高网...

【技术保护点】
1.一种关键内容提取方法,其特征在于,所述方法包括:/n获取待提取关键内容的学科信息,根据所述学科信息,生成对应的学科知识库;/n从所述学科知识库提取原始文本,对原始文本进行数据处理,得到对应的目标文本;/n对所述目标文本进行分词处理和聚类分析,并按照预设分析方法获得所述目标文本中的关键内容,所述关键内容包括知识点和/或关键词。/n

【技术特征摘要】
1.一种关键内容提取方法,其特征在于,所述方法包括:
获取待提取关键内容的学科信息,根据所述学科信息,生成对应的学科知识库;
从所述学科知识库提取原始文本,对原始文本进行数据处理,得到对应的目标文本;
对所述目标文本进行分词处理和聚类分析,并按照预设分析方法获得所述目标文本中的关键内容,所述关键内容包括知识点和/或关键词。


2.如权利要求1所述的关键内容提取方法,其特征在于,所述获取待提取关键内容的学科信息,根据所述学科信息,生成对应的学科知识库,包括:
对所述学科信息进行解析,获取所述学科信息对应的已知学科知识点和已知学科关键词;
根据获取的所述已知学科知识点和已知学科关键词,生成包含所述已知学科知识点和已知学科关键词的学科知识库。


3.如权利要求2所述的关键内容提取方法,其特征在于,所述根据获取的所述已知学科知识点和已知学科关键词,生成包含所述已知学科知识点和已知学科关键词的学科知识库,包括:
根据获取的所述已知学科知识点和已知学科关键词,对所述已知学科知识点和已知学科关键词进行标注,并将标注后的已知学科知识点和已知学科关键词作为标签样本,生成包含所述标签样本的学科知识库。


4.如权利要求1所述的关键内容提取方法,其特征在于,所述获取待提取关键内容的学科信息,根据所述学科信息,生成对应的学科知识库,包括:
获取待提取关键内容的学科信息,对所述学科信息进行解析,获取所述学科信息对应的学科类型和学科特征;
根据所述学科类型和学科特征,获取所述学科类型和学科特征对应的专业的学科词汇和高频词汇;
对所述学科词汇和高频词汇进行标注,并将标注后的学科词汇和高频词汇作为标签样本,生成包含所述标签样本的学科知识库。


5.如权利要求1所述的关键内容提取方法,其特征在于,所述获取待提取关键内容的学科信息,根据所述学科信息,生成对应的学科知识库,包括:
获取待提取关键内容的学科信息,从所述学科信息中收集已知学科知识点和已知学科关键词;
根据收集的所述已知学科知识点和已知学科关键词,生成学科知识图谱对应的学科知识库。


6.如权利要求1至5任一项所述的关键内容提取方法,其特征在于,所述对原始文本进行数据处理,得到对应的目标文本,包括:
根据所述学科知识库,对所述原始文本进行数据预处理,剔除所述原始文本中包含空格的无关的字符,得到对应的目标文本。


7.如权利要求1至5任一项所述的关键内容提取方法,其特征在于,所述对所述目标文本进行分词处理和聚类分析,并按照预设分析方法获得所述目标文本中的关键内容,包...

【专利技术属性】
技术研发人员:王鑫
申请(专利权)人:上海松鼠课堂人工智能科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1