The embodiment of the invention provides a patent classification method, system and storage medium based on dual channel feature fusion, which belongs to the technical field of patent document classification. The patent classification method includes: reading the patent documents that need to be classified, mapping the words and sentences of the description abstract in the patent documents into word2vec word vector and POS part-of-speech vector, generating word2vec word vector sequence and POS part-of-speech vector sequence, processing the word2vec word vector sequence and the POS part-of-speech vector sequence to generate the first sentence vector, and adopting the full connection layer. The first sentence vectors are mapped to the second sentence vectors, in which the number of categories of the patent documents, the number of nodes in the full connection layer and the dimension of the second sentence vectors are equal; the second sentence vectors are normalized by using the soft map classification layer.
【技术实现步骤摘要】
基于双通道特征融合的专利分类方法、系统及存储介质
本专利技术涉及专利文档分类
,具体地涉及一种基于双通道特征融合的专利分类方法、系统及存储介质。
技术介绍
近年来,科技创新越来越引起人们的重视,而专利作为创新的重要记录载体,也呈现出爆炸增长的态势。面对如此海量的专利数据,通过人工分类需要巨大的人力成本,处理效率无法满足实际需要。因此,专利的自动分类方法研究的重要性日渐突显,已成为现阶段一个重要的研究热点问题。目前,专利分类研究多采用IPC分类体系,IPC分类是一种层次结构分类体系,包括部、大类、小类、组等层次,是世界上使用较多普遍认可的一种分类体系。目前,相关研究者通过机器学习来处理专利自动分类问题,通过进行文本分析,提取文本中关键的特征词,并结合机器学习分类器完成分类,取得不错的效果。最近几年,深度学习在自然语言处理领域取得了很好的效果,且端到端的处理流程更能满足专利自动分类的需要,使用深度学习模型实现专利的自动分类是一种较好的解决思路.李生珍等对文本进行分词并提取特征词,将专利文本映射成特征向量,并使用BP神经网络构建分类器,马芳等使用径向基函数神经网络构建分类模型,并设计了专利自动分类系统。相比于普通文本,专利文本具有其自身的殊性,有针对的构建分类器,更能适应专利自动分类的需要。屈鹏等认为专利文本有较明显的专业特征,使用专业术语构建特征能提高专利分类的效果。基于向量空间模型的分类方法,忽略了词语间的语义信息,廖列法等认为用主题代替传统的向量空间模型,在构建分类器时考虑到了语义信息。深度学习近些年的飞速发展,为自然语言处理很多问题提供了新的解决思 ...
【技术保护点】
1.一种基于双通道特征融合的专利分类方法,其特征在于,所述专利分类方法包括:读取需要被分类的专利文档,将所述专利文档中的说明书摘要的词句映射成word2vec词向量和POS词性向量,以生成word2vec词向量序列和POS词性向量序列;对所述word2vec词向量序列和所述POS词性向量序列进行处理以生成第一句向量;采用全连接层将所述第一句向量映射为第二句向量,其中,所述专利文档的类别的数量、所述全连接层的节点的数量和所述第二句向量的维度相等;采用softmaxt分类层对所述第二句向量进行归一化处理。
【技术特征摘要】
1.一种基于双通道特征融合的专利分类方法,其特征在于,所述专利分类方法包括:读取需要被分类的专利文档,将所述专利文档中的说明书摘要的词句映射成word2vec词向量和POS词性向量,以生成word2vec词向量序列和POS词性向量序列;对所述word2vec词向量序列和所述POS词性向量序列进行处理以生成第一句向量;采用全连接层将所述第一句向量映射为第二句向量,其中,所述专利文档的类别的数量、所述全连接层的节点的数量和所述第二句向量的维度相等;采用softmaxt分类层对所述第二句向量进行归一化处理。2.根据权利要求1所述的专利分类方法,其特征在于,所述对所述word2vec词向量序列和所述POS词性向量序列进行处理以生成第一句向量包括:根据词序分别将所述word2vec词向量序列和所述POS词性向量序列输入GRU序列层中,以使得所述GRU序列层分别对所述word2vec词向量序列和所述POS词性向量序列进行语义计算;对经过语义计算后的所述word2vec词向量序列和所述POS词性向量序列进行拼接以生成第一句向量。3.根据权利要求1所述的专利分类方法,其特征在于,所述对所述word2vec词向量序列和所述POS词性向量序列进行处理以生成第一句向量包括:根据词序将所述word2vec词向量序列和所述POS词性向量序列进行拼接以生成第一词向量序列;采用GRU序列层对所述第一词向量序列进行语义...
【专利技术属性】
技术研发人员:余本功,张培行,贺铃岚,曹雨蒙,范招娣,张宏梅,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。