专利文本分类方法、电子设备及计算机存储介质技术

技术编号：29673555 阅读：12 留言：0更新日期：2021-08-13 21:55

本发明专利技术提供了一种专利文本分类方法、电子设备及计算机存储介质，其中，该方法包括：获取专利文本的字向量表示；利用卷积神经网络提取字向量表示中的短语特征；利用长短时记忆网络提取字向量表示中的上下文特征；利用注意力层为长短时记忆网络输出的隐层特征向量添加不同权重，以突出区分度较大部分并降低文本结构和重复度较高结构权重，得到第一注意力层的输出；利用全连接层将第一注意力层的输出压缩为与短语特征的维度匹配的特征向量；将专利文本的短语特征和上下文特征连接得到输入向量，利用第二注意力层为输入向量添加注意力权重，以减少融合过程信息损失，得到融合特征向量，用于对专利文本分类。通过上述方案能够提高专利文本分类准确性。

全部详细技术资料下载

【技术实现步骤摘要】
专利文本分类方法、电子设备及计算机存储介质
本专利技术涉及人工智能
，尤其涉及一种专利文本分类方法、电子设备及计算机存储介质。
技术介绍
随着科技的快速发展，技术迭代速度也不断加快，知识产权资源的数量呈现爆炸式增长。通过专利分析可以揭示技术的关系、技术发展的趋势等有价值的信息。良好的专利分类可以有效提高利用和管理海量专利文献中的关键信息的效率。现阶段专利分类主要依靠专利审查员完成，需要大量的人力和时间成本，因此需要对专利文本进行自动化分类，帮助加快专利的分类与审查。专利文献中包含了大量专业词汇，对专利分析人员的专业背景要求较高，非专业人员很难理解专利中的内容。专利文本有规范的写作格式，语言精准且语义信息较为复杂，同时部分类别间的相似度较高，需要较为精确的特征表达。随着人工智能技术的发展，深度学习模型在文本分类中得到了广泛的应用，主要包括循环神经网络（RNN）、卷积神经网络（CNN）。目前已有自动化的专利文本分类方法，主要分为利用词频等统计信息的分类方法和深度学习（如CNN、BERT）分类方法两类。然而，目前的深度学习分类方法往往缺少或不能很好地捕捉上下文信息，导致不能很好的提取到高区分度的专利文本全局信息，进而导致专利文本分类的准确性不高。
技术实现思路
有鉴于此，本专利技术实施例提供了一种专利文本分类方法、电子设备及计算机存储介质，以提升专利文本分类的准确性。为了达到上述目的，本专利技术采用以下方案实现：根据本专利技术实施例的一个方面，提供了一种专利文本分类...

【技术保护点】
1.一种专利文本分类方法，其特征在于，包括：/n获取专利文本的字向量表示；/n利用卷积神经网络提取所述字向量表示中的短语特征，得到专利文本的短语特征；/n利用长短时记忆网络提取所述字向量表示中的上下文特征，得到长短时记忆网络输出的隐层特征向量；/n利用第一注意力层为长短时记忆网络输出的隐层特征向量添加不同的注意力权重，以突出不同专利文本之间区分度较大的部分，并降低专利文本的文本结构的权重和在不同专利中重复度较高的结构的权重，得到第一注意力层的输出；/n利用全连接层将第一注意力层的输出压缩并优化为其长度与短语特征的维度匹配的特征向量，得到专利文本的上下文特征；/n将专利文本的短语特征和专利文本的上下文特征连接起来，得到输入向量，利用第二注意力层为该输入向量添加注意力权重，以减少融合过程中的信息损失，得到融合特征向量；/n利用融合特征向量对专利文本进行分类。/n

【技术特征摘要】
1.一种专利文本分类方法，其特征在于，包括：
获取专利文本的字向量表示；
利用卷积神经网络提取所述字向量表示中的短语特征，得到专利文本的短语特征；
利用长短时记忆网络提取所述字向量表示中的上下文特征，得到长短时记忆网络输出的隐层特征向量；
利用第一注意力层为长短时记忆网络输出的隐层特征向量添加不同的注意力权重，以突出不同专利文本之间区分度较大的部分，并降低专利文本的文本结构的权重和在不同专利中重复度较高的结构的权重，得到第一注意力层的输出；
利用全连接层将第一注意力层的输出压缩并优化为其长度与短语特征的维度匹配的特征向量，得到专利文本的上下文特征；
将专利文本的短语特征和专利文本的上下文特征连接起来，得到输入向量，利用第二注意力层为该输入向量添加注意力权重，以减少融合过程中的信息损失，得到融合特征向量；
利用融合特征向量对专利文本进行分类。

2.如权利要求1所述的专利文本分类方法，其特征在于，获取专利文本的字向量表示，包括：
利用预训练语言模型将专利文本转化为专利文本的字向量表示。

3.如权利要求1所述的专利文本分类方法，其特征在于，利用卷积神经网络提取所述字向量表示中的短语特征，得到专利文本的短语特征，包括：
利用卷积神经网络中多个大小不同的卷积核分别提取所述字向量表示中的短语特征，得到各卷积核对应输出的短语特征；其中，卷积核的大小根据设...

【专利技术属性】
技术研发人员：杜军平，王宇晖，邵蓥侠，李昂，徐欣，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人