【技术实现步骤摘要】
提高多层级专利文本分类效果的方法、设备及存储介质
[0001]本申请涉及人工智能
,具体涉及一种基于BERT
‑
ALMG模型提高多层级专利文本分类效果的方法、电子设备及存储介质。
技术介绍
[0002]专利分类问题具有多层级的特点,目前专利分类体系主要有国际专利分类体系(International Patent Classification,IPC)和联合专利分类(Cooperative Patent Classification,CPC)。IPC专利是国际上通用的专利分类方法,诸多国家使用该标准根据专利
对专利技术专利和技术专利进行分类,CPC分类体系源于IPC,但在条目划分上更仔细,IPC分类包含部
‑
类
‑
亚类
‑
组四个层级。对于专利多层级分类问题,专利文本所属的分类号对应每个层级的结点,并组织成树形结构的层级结构,整个问题可以视为层级多标签文本分类问题(Hierarchical Multi
‑
label Text C ...
【技术保护点】
【技术特征摘要】
1.一种基于BERT
‑
ALMG模型提高多层级专利文本分类效果的方法,其特征在于,包括:构建专利分类所对应的标签集合,并针对每一个标签建立标签特征向量;获取待分类的专利文本;对所述专利文本进行分析,得到所述专利文本的文本特征向量;分析所述文本特征向量和所述标签特征向量之间的关系,得到所述专利文本的标签文本向量;对所述标签文本向量进行多粒度特征卷积操作,以对所述专利文本进行分类。2.如权利要求1所述的方法,其特征在于,所述对所述专利文本进行分析,得到所述专利文本的文本特征向量包括:采用BERT预训练模型的文本特征表示层分析专利文本上下文的句法语义特征,得到所述专利文本的文本特征向量。3.如权利要求2所述的方法,其特征在于,BERT预训练模型包含两个预训练任务:掩码语言模型和下一个句子预测;所述掩码语言模型将输入的词语部分进行掩码,通过双向深层的Transformer模型还原被掩码的词语,学习上下文敏感的文本表示;下一个句子预测任务通过判断句子之间是否相邻,学习不同句子之间的蕴含关系,从而得到专利文本上下文的句法语义特征。4.如权利要求1所述的方法,其特征在于,所述分析所述文本特征向量和所述标签特征向量之间的关系,得到所述专利文本的标签文本向量包括:将所述文本特征向量与所述标签特征向量通过桥接向量映射到用一个空间维度中,得到标签力注意力矩阵;将所述文本特征向量与所述标签力注意力矩阵经激活函数处理后得到对应的局部文本向量;上层局部文本向量与标签特征向量进行归一化操作,再与本层局部文本向量进行矩阵点乘操作,得到标签文本向量。5.如权利要求4所述的方法,其特征在于,将...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。