【技术实现步骤摘要】
关键词提取方法及系统
[0001]本专利技术属于文档处理
,具体涉及关键词提取方法及系统。
技术介绍
[0002]计算机在理解文档的基础上,对文档进行自动处理。常见的典型形式包括:文档的自动或半自动生成、文档的自动理解、文档的一致性分析、文档的自动纠错、文档与业务流程的整合、文档的语义检索、复合出版、文档的协同、文档的自动评价、文档的审计等等。
[0003]现有技术存在以下问题:
[0004]目前文档关键词提取均基于已有的训练模型进行提取,在提取时无法针对个人习惯进行提取,易导致提取内容不精确,分类错误,主题杂乱无章的情况,且目前网络语言流行,旧训练模型无法对新型词汇进行分类,影响关键词提取的效率,降低分类的准确性。
技术实现思路
[0005]为解决上述
技术介绍
中提出的问题。本专利技术提供了关键词提取方法及系统,具有实时更新,分类精确的特点。
[0006]本专利技术还提供了关键词提取方法及系统。
[0007]为实现上述目的,本专利技术提供如下技术方案:一种关键词提取方法, ...
【技术保护点】
【技术特征摘要】
1.一种关键词提取方法,其特征在于:所述关键词提取方法包括:获取待提取关键词的目标文档;将目标文档输入训练好的文档关键词生成模型中,提取目标文档中每段的主关键词及候选关键词,并添加基于个人主观的用于分类的标签词;根据主关键词及候选关键词与标签词的类别进行对比,使得主关键词及候选关键词综合进行分类,并对主关键词特别标记,与现有标签词类别无关的关键词统一分类至一起等待集中处理;对分类后的标签集按个人查找顺序进行排列,同时根据实时信息增添或修改标签词,并未分类关键词重新进行分类操作;计算主关键词及候选关键词与标签词的相似度,并设定关键词的取用阈值;确定每篇文档中与标签相似度最高的关键词进行记录提取。2.根据权利要求1所述的关键词提取方法,其特征在于:所述针对目标文档中每一段提取的关键词,可根据个人设定提取数量。3.根据权利要求1所述的关键词提取方法,其特征在于:所述标签词基于网络初步生成,并结合生活、科学、专业名词进行细化分类。4.根据权利要求1所述的关键词提取方法,其特征在于:所述关键词可根据衍生词义同时归类于多个标签词下,并对重复的归类的关键词特殊标记。5.根据权利要求1所述的关键词提取方法,其特征在于:所述关键词在归类完成后可设定排列顺序进行快速查找。6.根据权利要求1所述的关键词提取方法,其特征在于:所述顺序排列操作可根据用户设定对常用标签词...
【专利技术属性】
技术研发人员:符甜,李柏潍,
申请(专利权)人:火星语盟深圳科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。