基于双通道特征融合的专利分类方法、系统及存储介质技术方案

技术编号:20075330 阅读:35 留言:0更新日期:2019-01-15 00:42
本发明专利技术实施方式提供一种基于双通道特征融合的专利分类方法、系统及存储介质,属于专利文档分类技术领域。所述专利分类方法包括:读取需要被分类的专利文档,将所述专利文档中的说明书摘要的词句映射成word2vec词向量和POS词性向量,以生成word2vec词向量序列和POS词性向量序列;对所述word2vec词向量序列和所述POS词性向量序列进行处理以生成第一句向量;采用全连接层将所述第一句向量映射为第二句向量,其中,所述专利文档的类别的数量、所述全连接层的节点的数量和所述第二句向量的维度相等;采用softmaxt分类层对所述第二句向量进行归一化处理。

Patent classification method, system and storage media based on two-channel feature fusion

The embodiment of the invention provides a patent classification method, system and storage medium based on dual channel feature fusion, which belongs to the technical field of patent document classification. The patent classification method includes: reading the patent documents that need to be classified, mapping the words and sentences of the description abstract in the patent documents into word2vec word vector and POS part-of-speech vector, generating word2vec word vector sequence and POS part-of-speech vector sequence, processing the word2vec word vector sequence and the POS part-of-speech vector sequence to generate the first sentence vector, and adopting the full connection layer. The first sentence vectors are mapped to the second sentence vectors, in which the number of categories of the patent documents, the number of nodes in the full connection layer and the dimension of the second sentence vectors are equal; the second sentence vectors are normalized by using the soft map classification layer.

【技术实现步骤摘要】
基于双通道特征融合的专利分类方法、系统及存储介质
本专利技术涉及专利文档分类
,具体地涉及一种基于双通道特征融合的专利分类方法、系统及存储介质。
技术介绍
近年来,科技创新越来越引起人们的重视,而专利作为创新的重要记录载体,也呈现出爆炸增长的态势。面对如此海量的专利数据,通过人工分类需要巨大的人力成本,处理效率无法满足实际需要。因此,专利的自动分类方法研究的重要性日渐突显,已成为现阶段一个重要的研究热点问题。目前,专利分类研究多采用IPC分类体系,IPC分类是一种层次结构分类体系,包括部、大类、小类、组等层次,是世界上使用较多普遍认可的一种分类体系。目前,相关研究者通过机器学习来处理专利自动分类问题,通过进行文本分析,提取文本中关键的特征词,并结合机器学习分类器完成分类,取得不错的效果。最近几年,深度学习在自然语言处理领域取得了很好的效果,且端到端的处理流程更能满足专利自动分类的需要,使用深度学习模型实现专利的自动分类是一种较好的解决思路.李生珍等对文本进行分词并提取特征词,将专利文本映射成特征向量,并使用BP神经网络构建分类器,马芳等使用径向基函数神经网络构建分类模型,并设计了专利自动分类系统。相比于普通文本,专利文本具有其自身的殊性,有针对的构建分类器,更能适应专利自动分类的需要。屈鹏等认为专利文本有较明显的专业特征,使用专业术语构建特征能提高专利分类的效果。基于向量空间模型的分类方法,忽略了词语间的语义信息,廖列法等认为用主题代替传统的向量空间模型,在构建分类器时考虑到了语义信息。深度学习近些年的飞速发展,为自然语言处理很多问题提供了新的解决思路,尤其在文本分类问题上表现出良好的性能。一些学者通过自动编码机来处理特征,提取出文本中深层次的信息,受此启发,马双刚将自动编码机应用在专利自动分类中,并取得了不错的效果。目前相关研究者对专利自动分类的研究多集中在特征提取和处理上,而端到端和深度神经网络可以摆脱特征工程的束缚,更适合大量专利数据自动分类的需要。在深度学习模型中,首先要进行word2vec词向量训练,将词映射成一个低维的向量,解决了传统词袋模型词向量维度过大的难题,且word2vec向量的训练过程结合了词的上下文内容,包含了词的语义信息,在深度学习研究中应用较多。Kim等使用卷积神经网络构建文本分类器,提取文本深层次的特征,不需要人工干预,相比于传统人工提特征的方法,更高效快捷,在分类效果上也更优于传统方法。一些研究者认为,卷积神经网络有着局部联接的特点,所以在提取特征的过程中,会忽略文本的结构特征,而LSTM(LongShort-TermMemory,长短期记忆网络)和GRU(GatedRecurrentUnit)等循环神经网络模型是一种序列模型,更适合文本特征的提取。王树恒等使用双向的LSTM模型对文本情感进行分类,通过实验LSTM获得了比CNN更好的分类准确率。李雪莲等通过对比实验分析了LSTM和GRU模型结构和性能,并指出GRU模型继承了LSTM自动学习的功能,但其结构更为简单,大大缩短了模型训练时间,更适合大量文本数据的研究应用。深度学习方法应用在舆情发现、情感分析等方面取得了很好的成绩,而鲜有研究者将深度学习方法用于专利自动分类领域。
技术实现思路
本专利技术实施方式的目的是提供一种基于双通道特征融合的专利分类方法、系统及存储介质,该专利分类方法、系统及存储介质通过提出双通道特征融合的方式来对专利文档进行分类,提高了专利文档的分类效率。为了实现上述目的,本专利技术实施方式提供一种基于双通道特征融合的专利分类方法,该专利分类方法可以包括:读取需要被分类的专利文档,将所述专利文档中的说明书摘要的词句映射成word2vec词向量和POS(PartofSpeech)词性向量,以生成word2vec词向量序列和POS词性向量序列;对所述word2vec词向量序列和所述POS词性向量序列进行处理以生成第一句向量;采用全连接层将所述第一句向量映射为第二句向量,其中,所述专利文档的类别的数量、所述全连接层的节点的数量和所述第二句向量的维度相等;采用softmaxt分类层对所述第二句向量进行归一化处理。可选地,所述对所述word2vec词向量序列和所述POS词性向量序列进行处理以生成第一句向量包括:根据词序分别将所述word2vec词向量序列和所述POS词性向量序列输入GRU序列层中,以使得所述GRU序列层分别对所述word2vec词向量序列和所述POS词性向量序列进行语义计算;对经过语义计算后的所述word2vec词向量序列和所述POS词性向量序列进行拼接以生成第一句向量。可选地,所述对所述word2vec词向量序列和所述POS词性向量序列进行处理以生成第一句向量包括:根据词序将所述word2vec词向量序列和所述POS词性向量序列进行拼接以生成第一词向量序列;采用GRU序列层对所述第一词向量序列进行语义计算以生成第一句向量。本专利技术的另一方面还提供一种基于双通道特征融合的专利分类系统,所述专利分类系统包括:映射层,用于读取需要被分类的专利文档,将所述专利文档中的说明书摘要的词句映射成word2vec词向量和POS词性向量,以生成word2vec词向量序列和POS词性向量序列;处理层,用于对所述word2vec词向量序列和所述POS词性向量序列进行处理以生成第一句向量;全连接层,用于将所述第一句向量映射为第二句向量,其中,所述专利文档的类别的数量、所述全连接层的节点的数量和所述第二句向量的维度相等;softmaxt分类层,用于对所述第二句向量进行归一化处理。可选地,所述处理层包括:GRU序列层,用于对所述word2vec词向量序列和所述POS词性向量序列进行语义计算;融合层,用于对经过语义计算后的所述word2vec词向量序列和所述POS词性向量序列进行拼接以生成所述第一句向量。可选地,所述处理层包括:融合层,用于根据词序将所述word2vec词向量序列和所述POS词性向量序列进行拼接以生成第一词向量序列;GRU序列层,用于对所述第一词向量序列进行语义计算以生成所述第一句向量。本专利技术的再一方面还提供一种存储介质,所述存储介质存储有指令,所述指令用于被计算机读取以使得所述计算机执行上述所述的专利分类方法。通过上述技术方案,本专利技术提供的基于双通道特征融合的专利分类方法、系统及存储介质将专利文档的说明书摘要的词句映射为word2vec词向量和POS词性向量,并进一步采用GRU序列层、融合层将该word2vec词向量和POS词性向量进行处理和拼接,从而生成第一句向量;最后采用全连接层对该第一句向量进行进一步处理以生成第二句向量,并采用softmaxt分类层对该第二句向量进行进一步地归一化计算,从而生成指示专利文档类别和概率的词向量,解决了现有技术中专利分类方法分类效率不高的问题,提高了专利分类的精准度和效率。本专利技术实施方式的其它特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本专利技术实施方式的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本专利技术实施方式,但并不构成对本专利技术实施方式的限制。在附图中:图1是根据本专利技术的一个实施方式的基于双通道特征融合的专利分类本文档来自技高网
...

【技术保护点】
1.一种基于双通道特征融合的专利分类方法,其特征在于,所述专利分类方法包括:读取需要被分类的专利文档,将所述专利文档中的说明书摘要的词句映射成word2vec词向量和POS词性向量,以生成word2vec词向量序列和POS词性向量序列;对所述word2vec词向量序列和所述POS词性向量序列进行处理以生成第一句向量;采用全连接层将所述第一句向量映射为第二句向量,其中,所述专利文档的类别的数量、所述全连接层的节点的数量和所述第二句向量的维度相等;采用softmaxt分类层对所述第二句向量进行归一化处理。

【技术特征摘要】
1.一种基于双通道特征融合的专利分类方法,其特征在于,所述专利分类方法包括:读取需要被分类的专利文档,将所述专利文档中的说明书摘要的词句映射成word2vec词向量和POS词性向量,以生成word2vec词向量序列和POS词性向量序列;对所述word2vec词向量序列和所述POS词性向量序列进行处理以生成第一句向量;采用全连接层将所述第一句向量映射为第二句向量,其中,所述专利文档的类别的数量、所述全连接层的节点的数量和所述第二句向量的维度相等;采用softmaxt分类层对所述第二句向量进行归一化处理。2.根据权利要求1所述的专利分类方法,其特征在于,所述对所述word2vec词向量序列和所述POS词性向量序列进行处理以生成第一句向量包括:根据词序分别将所述word2vec词向量序列和所述POS词性向量序列输入GRU序列层中,以使得所述GRU序列层分别对所述word2vec词向量序列和所述POS词性向量序列进行语义计算;对经过语义计算后的所述word2vec词向量序列和所述POS词性向量序列进行拼接以生成第一句向量。3.根据权利要求1所述的专利分类方法,其特征在于,所述对所述word2vec词向量序列和所述POS词性向量序列进行处理以生成第一句向量包括:根据词序将所述word2vec词向量序列和所述POS词性向量序列进行拼接以生成第一词向量序列;采用GRU序列层对所述第一词向量序列进行语义...

【专利技术属性】
技术研发人员:余本功张培行贺铃岚曹雨蒙范招娣张宏梅
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1