一种基于图文多模态双曲嵌入的专利IPC分类方法及系统技术方案

技术编号:40513718 阅读:109 留言:0更新日期:2024-03-01 13:30
本发明专利技术公开了一种基于图文多模态双曲嵌入的专利IPC分类方法及系统,该方法包括专利图文多模态双曲嵌入的处理及IPC多标签分类的处理:专利图文多模态双曲模型训练数据集构建,利图文多模态双曲模型训练,应用所述专利图文多模态双曲模型对待加工专利文献进行处理,得到待加工专利的附图双曲嵌入表示和文本双曲嵌入表示;构建IPC多标签分类模型训练数据集构建,进行IPC多标签分类模型训练;利用所述IPC多标签分类模型对待加工专利文献进行IPC多标签分类。本发明专利技术采用的专利图文多模态不仅表征了文本的语义特征,还挖掘出附图的语义特征,综合利用附图文本的整体语义特征对专利进行分类,提高了IPC分类效率和准确率。

【技术实现步骤摘要】

本专利技术涉及文本图形分类处理,具体涉及一种基于图文多模态双曲嵌入的专利ipc分类方法及系统。


技术介绍

1、专利文献申请时需要依据其
技术实现思路
进行国际专利分类划分。人工方式划分给专利审查员带来了巨大的工作量。一种基于sbert的中文专利ipc分类方法(公开号为cn115758244a的中国专利公开文本)采用具有孪生结构的sbert作为中文专利自动分类的框架,将专利文本和ipc分类表中的分类术语描述为两路数据输入sbert,通过bert实现对两路文本的向量化编码,然后由得到的两路向量相近程度来判断真实专利的类别,还能够给出多个ipc分类号。一种专利文本多标签分类方法(公开号为cn113849655b的中国专利公开文本),首先将ipc标签文本描述向量化来表示ipc标签向量,将训练集中的ipc标签共现关系矩阵作为标签之间的关联矩阵,再基于上述矩阵得到融合标签关联关系的ipc标签表示矩阵,最后将专利文本的不同角度的特征表示融合后得到文本特征矩阵与ipc标签矩阵相乘得到标签分数矩阵,通过激活层归一化得到各个标签的概率。一种基于知识图谱的专利ipc分类号推荐方法及装置本文档来自技高网...

【技术保护点】

1.一种基于图文多模态双曲嵌入的专利IPC分类方法,其特征在于,包括专利图文多模态双曲嵌入的处理阶段及IPC多标签分类的处理阶段;

2.如权利要求1所述的专利IPC分类方法,其特征在于,所述应用所述专利图文多模态双曲模型对待加工专利文献进行处理,得到待加工专利的附图双曲嵌入表示和文本双曲嵌入表示,具体包括:

3.如权利要求1所述的专利IPC分类方法,其特征在于,所述IPC多标签分类模型训练数据集构建步骤,具体包括:

4.如权利要求1所述的专利IPC分类方法,其特征在于,所述利用IPC多标签分类模型训练数据集进行IPC多标签分类模型训练,具体包括:...

【技术特征摘要】

1.一种基于图文多模态双曲嵌入的专利ipc分类方法,其特征在于,包括专利图文多模态双曲嵌入的处理阶段及ipc多标签分类的处理阶段;

2.如权利要求1所述的专利ipc分类方法,其特征在于,所述应用所述专利图文多模态双曲模型对待加工专利文献进行处理,得到待加工专利的附图双曲嵌入表示和文本双曲嵌入表示,具体包括:

3.如权利要求1所述的专利ipc分类方法,其特征在于,所述ipc多标签分类模型训练数据集构建步骤,具体包括:

4.如权利要求1所述的专利ipc分类方法,其特征在于,所述利用ipc多标签分类模型训练数据集进行ipc多标签分类模型训练,具体包括:

5....

【专利技术属性】
技术研发人员:冯好国范娥媚徐青伟严长春裴非
申请(专利权)人:知呱呱天津大数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1