基于关键词的专利文本分类方法、系统及存储介质技术方案

技术编号:38819902 阅读:21 留言:0更新日期:2023-09-15 19:59
本申请公开了一种基于关键词的专利文本分类方法、系统及存储介质,其涉及文本分类技术领域,该方法包括如下步骤:获取目标专利文本;根据所述目标专利文本的专利领域从预设的专利数据库中调取相同专利领域的多个历史专利文本;分别对各个所述历史专利文本进行分词处理,得到多个分词集合;从所述分词集合中提取出关键词集合;基于所述关键词集合生成专利特征图;构建初始专利分类模型;将所述专利特征图代入所述初始专利分类模型中进行训练,得到专利分类模型;通过所述专利分类模型对所述目标专利文本进行分析,得到所述目标专利文本的分类结果。本申请具有企业专利分类不需要耗费大量人力和时间的效果。费大量人力和时间的效果。费大量人力和时间的效果。

【技术实现步骤摘要】
基于关键词的专利文本分类方法、系统及存储介质


[0001]本申请涉及文本分类
,尤其是涉及一种基于关键词的专利文本分类方法、系统及存储介质。

技术介绍

[0002]对于企业的专利管理者而言,难以直接按照国际通用的专利分类号进行分类管理,原因在于国际通用的这些分类号的分类方式与企业实际管理过程中期望的分类情况不符。若想合理的进行企业专利分类,需要按照企业中各个技术部门建立的技术体系来对已有专利进行归类,或按照企业主营业务的不同进行专利分类。因此专利管理者需要先筛选出同一专利分类号下的所有企业专利,再逐一根据专利内容将企业专利归类至更细分的企业技术体系类别下,最终完成企业所有专利的专利分类,有利于后续各个技术部门新专利的申请管理工作和任意技术部门相关专利的调取工作。
[0003]针对上述中的相关技术,专利技术人认为存在有以下缺陷:若企业专利数量较为庞大时,专利管理者需要花费大量的时间逐一查看所有专利的专利内容并分类,需要消耗大量的人力和时间。

技术实现思路

[0004]为了改善企业专利分类需要消耗大量人力和时间的缺陷,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于关键词的专利文本分类方法,其特征在于,包括如下步骤:获取目标专利文本;根据所述目标专利文本的专利领域从预设的专利数据库中调取相同专利领域的多个历史专利文本;分别对各个所述历史专利文本进行分词处理,得到多个分词集合;从所述分词集合中提取出关键词集合;基于所述关键词集合生成专利特征图;构建初始专利分类模型;将所述专利特征图代入所述初始专利分类模型中进行训练,得到专利分类模型;通过所述专利分类模型对所述目标专利文本进行分析,得到所述目标专利文本的分类结果。2.根据权利要求1所述的一种基于关键词的专利文本分类方法,其特征在于,在所述分别对各个所述历史专利文本进行分词处理,得到多个分词集合之前还包括如下步骤:分别统计所有所述历史专利文本的文本字符数;分别判断所述文本字符数是否超出预设的字符数阈值;若所述文本字符数未超出所述字符数阈值,则滤除对应的所述历史专利文本;若所述文本字符数超出所述字符数阈值,则通过正则表达式清洗对应的所述历史专利文本的文本数据。3.根据权利要求1所述的基于关键词的专利文本分类方法,其特征在于,所述从所述分词集合中提取出关键词集合包括如下步骤:统计所述分词集合中各个分词的出现频率;根据所述分词在对应的所述历史专利文本中的文本位置为所有所述分词赋予得分权重;结合所述出现频率和所述得分权重计算所有所述分词的关键分值;判断所述关键分值是否超出预设的分数阈值;若所述关键分值超出所述分数阈值,则提取出对应的所述分词作为关键词;汇总所有所述关键词生成关键词集合。4.根据权利要求3所述的基于关键词的专利文本分类方法,其特征...

【专利技术属性】
技术研发人员:张永旗石明霞贾现永
申请(专利权)人:企知道科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1