关键内容提取方法技术

技术编号:26597789 阅读:29 留言:0更新日期:2020-12-04 21:20
本发明专利技术公开了一种关键内容提取方法,通过获取待提取关键内容的学科信息,根据所述学科信息,生成对应的学科知识库;从所述学科知识库提取原始文本,对原始文本进行数据处理,得到对应的目标文本;对所述目标文本进行分词处理和聚类分析,并按照预设分析方法获得所述目标文本中的关键内容,所述关键内容包括知识点和/或关键词。该技术方案达到了在学科对应的文本中自动提取关键内容的目的,提高了关键内容的提取效率和提取准确率,相较于人工标注习题进行手动提取的方式,本发明专利技术关键内容的提取方式提高了工作效率,同时也节约了大量的人力。

【技术实现步骤摘要】
关键内容提取方法
本专利技术涉及数据处理
,特别涉及一种关键内容提取方法。
技术介绍
随着计算机技术和互联网技术的不断发展进步、以及智能电子产品的逐步普及,考虑到电子产品学习的智能性以及便捷性,学生的学习也逐渐开始借助电子产品来完成。因此,在对学生的教学过程中,也存在着大量的电子化的习题。目前,这类习题基本上采用人工标注的形式进行知识点和对应的关键词的确认,工作效率低且工作量大。
技术实现思路
本专利技术提供一种关键内容提取方法,旨在实现电子化习题对应的关键内容的自动提取。本专利技术提供了一种关键内容提取方法,所述方法包括:获取待提取关键内容的学科信息,根据所述学科信息,生成对应的学科知识库;从所述学科知识库提取原始文本,对原始文本进行数据处理,得到对应的目标文本;对所述目标文本进行分词处理和聚类分析,并按照预设分析方法获得所述目标文本中的关键内容,所述关键内容包括知识点和/或关键词。进一步地,所述获取待提取关键内容的的学科信息,根据所述学科信息,生成对应的学科知识库,包括:...

【技术保护点】
1.一种关键内容提取方法,其特征在于,所述方法包括:/n获取待提取关键内容的学科信息,根据所述学科信息,生成对应的学科知识库;/n从所述学科知识库提取原始文本,对原始文本进行数据处理,得到对应的目标文本;/n对所述目标文本进行分词处理和聚类分析,并按照预设分析方法获得所述目标文本中的关键内容,所述关键内容包括知识点和/或关键词。/n

【技术特征摘要】
1.一种关键内容提取方法,其特征在于,所述方法包括:
获取待提取关键内容的学科信息,根据所述学科信息,生成对应的学科知识库;
从所述学科知识库提取原始文本,对原始文本进行数据处理,得到对应的目标文本;
对所述目标文本进行分词处理和聚类分析,并按照预设分析方法获得所述目标文本中的关键内容,所述关键内容包括知识点和/或关键词。


2.如权利要求1所述的关键内容提取方法,其特征在于,所述获取待提取关键内容的学科信息,根据所述学科信息,生成对应的学科知识库,包括:
对所述学科信息进行解析,获取所述学科信息对应的已知学科知识点和已知学科关键词;
根据获取的所述已知学科知识点和已知学科关键词,生成包含所述已知学科知识点和已知学科关键词的学科知识库。


3.如权利要求2所述的关键内容提取方法,其特征在于,所述根据获取的所述已知学科知识点和已知学科关键词,生成包含所述已知学科知识点和已知学科关键词的学科知识库,包括:
根据获取的所述已知学科知识点和已知学科关键词,对所述已知学科知识点和已知学科关键词进行标注,并将标注后的已知学科知识点和已知学科关键词作为标签样本,生成包含所述标签样本的学科知识库。


4.如权利要求1所述的关键内容提取方法,其特征在于,所述获取待提取关键内容的学科信息,根据所述学科信息,生成对应的学科知识库,包括:
获取待提取关键内容的学科信息,对所述学科信息进行解析,获取所述学科信息对应的学科类型和学科特征;
根据所述学科类型和学科特征,获取所述学科类型和学科特征对应的专业的学科词汇和高频词汇;
对所述学科词汇和高频词汇进行标注,并将标注后的学科词汇和高频词汇作为标签样本,生成包含所述标签样本的学科知识库。


5.如权利要求1所述的关键内容提取方法,其特征在于,所述获取待提取关键内容的学科信息,根据所述学科信息,生成对应的学科知识库,包括:
获取待提取关键内容的学科信息,从所述学科信息中收集已知学科知识点和已知学科关键词;
根据收集的所述已知学科知识点和已知学科关键词,生成学科知识图谱对应的学科知识库。


6.如权利要求1至5任一项所述的关键内容提取方法,其特征在于,所述对原始文本进行数据处理,得到对应的目标文本,包括:
根据所述学科知识库,对所述原始文本进行数据预处理,剔除所述原始文本中包含空格的无关的字符,得到对应的目标文本。


7.如权利要求1至5任一项所述的关键内容提取方法,其特征在于,所述对所述目标文本进行分词处理和聚类分析,并按照预设分析方法获得所述目标文本中的关键内容,包...

【专利技术属性】
技术研发人员:王鑫
申请(专利权)人:上海松鼠课堂人工智能科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1