一种文本关键内容提取方法、装置及服务器制造方法及图纸

技术编号:34341747 阅读:121 留言:0更新日期:2022-07-31 04:02
本发明专利技术涉及计算机技术领域,尤其涉及一种文本关键内容提取方法、装置及服务器,文本关键内容提取方法包括获取文本集;划分单元并提取单元候选关键词及单元关键词频率信息;根据单元关键词频率信息提取文本候选关键词及文本关键词频率信息;根据文本关键词频率信息获得文本关键词并将文本与同关键词文本进行对比从而确定文本关键词。本发明专利技术的一种文本关键内容提取方法通过将文本集划分为若干单元,然后对各个单元进行关键词获取,再从单元关键词中获取文本关键词,最后与同类型文本进行关键词对比,确定文本关键词,将文本集划分为多个单元再提取关键词能够避免关键词遗漏以及无效关键词的问题,使得关键词提取更加准确。使得关键词提取更加准确。使得关键词提取更加准确。

【技术实现步骤摘要】
一种文本关键内容提取方法、装置及服务器


[0001]本专利技术涉及计算机
,尤其涉及一种文本关键内容提取方法、装置及服务器。

技术介绍

[0002]随着计算机技术和互联网技术的不断发展进步、以及智能电子产品的逐步普及,考虑到电子产品学习的智能性以及便捷性,学生的学习也逐渐开始借助电子产品来完成。文本查找是学习中十分重要的一环,高效率的查找文本能够让学习更高效,因此对文本的关键内容进行提取是非常必要的。现有的文本关键内容提取的方法大多是根据文本标题及文中多次出现的词语进行主要内容的判别,但这种提取方式准确度较低。

技术实现思路

[0003]本专利技术的目的在于提供一种文本关键内容提取方法、装置及服务器,旨在解决现有文本关键内容提取方法不够准确的问题。
[0004]为实现上述目的,本专利技术提供了一种文本关键内容提取方法,包括:
[0005]获取文本集;
[0006]划分单元并提取单元候选关键词;
[0007]根据所述单元候选关键词出现频率获取单元关键词频率信息;
[0008]根据所述单本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本关键内容提取方法,其特征在于,包括获取文本集;根据所述文本集划分单元并提取单元候选关键词;根据所述单元候选关键词出现频率获取单元关键词频率信息;根据所述单元关键词频率信息提取文本候选关键词;根据所述文本候选关键词出现频率获取文本关键词频率信息;根据所述文本关键词频率信息获得文本关键词;根据获得的所述文本关键词将文本集与同关键词文本进行对比从而确定文本关键词。2.如权利要求1所述的一种文本关键内容提取方法,其特征在于,所述划分单元的具体方法为将文本根据自然段落划分为若干个单元。3.如权利要求1所述的一种文本关键内容提取方法,其特征在于,所述提取单元候选关键词的具体方法为提取单元中出现次数多于预设次数的词语及衍生词。4.如权利要求1所述的一种文本关键内容提取方法,其特征在于,所述获取单元关键词频率信息的具体步骤为:根据提取的所述单元候选关键词与主题进行比较获取主题相关信息;根据所述单元候选关键词出现的频率获取单元频率子信息;基于所述候选关键词的词语长度,获取所述候选关键词对应的词语长度信息;将所述主题相关信息、所述单元频率子信息以及所述词...

【专利技术属性】
技术研发人员:万源星吴安其叶涵
申请(专利权)人:浙江工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1