一种基于“切片-排序”操作的序列分类方法技术

技术编号:40437251 阅读:26 留言:0更新日期:2024-02-22 23:01
本发明专利技术实现了一种基于“切片‑排序”操作的序列分类方法。首先输入一段由n个符号组成的序列,通过嵌入矩阵转变为被高效压缩且信息密集的表征,在这种表征中,相似的符号将具有相似的编码;经过嵌入矩阵后经过位置编码结果,利用类似Transformer架构的模型,加入关于序列中符号的相对或绝对位置的信息;而后采用多个相同的包含“切片‑排序”操作或“最大值交换”操作或“顺序交错”操作的注意力层的神经网络层,所述注意力层将输入线性的投影到隐空间中并且对每个特征维度排序;最后通过输出头结构,以一个全连接前馈层MLP(·),将输入的表征矩阵投影到输出维度上,得到预测分类。本发明专利技术的时间和空间复杂度都远远低于多头注意力机制,并能够实现更大的模型容量。

【技术实现步骤摘要】

本专利技术涉及的是一种深度机器学习中自然语言处理领域的序列分类方法,具体是一种基于“切片-排序”操作的序列分类方法


技术介绍

1、在自然语言处理领域中,序列分类(sequence classification),又称自动序列分类(automatic sequence categorization),是一个经典任务。这个任务是指计算机将载有信息的一段序列映射到预先给定的某一类别或某几类别主题的过程。这一任务的最初解决方案是专家规则(pattern),利用知识工程建立专家系统来进行分类,优点是较为直观且可解释性强,缺点是需要大量人力资源,且覆盖范围,准确率和泛化性都很难保证。后来伴随着统计机器学习方法的发展,特别是90年代后互联网在线文本数量增长和机器学习学科的兴起,逐渐形成了一套解决大规模序列分类问题的方法,即特征工程+机器学习模型。其中机器学习模型又分为传统机器学习方法和深度学习文本分类方法。

2、近年来,基于多头注意力机制的transformer在序列分类领域中越来越占据主导地位。它作为许多基础模型的骨干模块,在各种应用场景中都取得了优异的本文档来自技高网...

【技术保护点】

1.一种基于“切片-排序”操作的序列分类方法,其特征在于:首先输入一段由n个符号组成的文本序列,通过嵌入矩阵转变为被高效压缩且信息密集的表征,在这种表征中,相似的符号将具有相似的编码;经过嵌入矩阵后经过位置编码,利用类似Transformer架构的模型,加入关于序列中符号的相对或绝对位置的信息;而后采用多个相同的包含“切片-排序”操作或“最大值交换”操作或“顺序交错”操作的注意力层的神经网络层,所述注意力层将输入线性的投影到隐空间中并且对每个特征维度排序;最后通过输出头结构,以一个全连接前馈层MLP(·),将输入的表征矩阵投影到输出维度上,得到该文本的预测分类。>

2.如权利要...

【技术特征摘要】

1.一种基于“切片-排序”操作的序列分类方法,其特征在于:首先输入一段由n个符号组成的文本序列,通过嵌入矩阵转变为被高效压缩且信息密集的表征,在这种表征中,相似的符号将具有相似的编码;经过嵌入矩阵后经过位置编码,利用类似transformer架构的模型,加入关于序列中符号的相对或绝对位置的信息;而后采用多个相同的包含“切片-排序”操作或“最大值交换”操作或“顺序交错”操作的注意力层的神经网络层,所述注意力层将输入线性的投影到隐空间中并且对每个特征维度排序;最后通过输出头结构,以一个全连接前馈层mlp(·),将输入的表征矩阵投影到输出维度上,得到该文本的预测分类。

2.如权利要求1所述的一种基于“切片-排序”操作的序列分类方法,首先我们给出这个方法所要解决的任务:给定一个由n个符号组成的文本序列t={t1,t2,...,tn},预测其分类假定词汇表为它的大小为包含了全部的可能的输入符号种类。

3.如权利要求1所述的一种基于“切片-排序”操作的序列分类方法,其特征在于:所述嵌入矩阵它可以将输入符号转变为被高效压缩且信息密集的表征,同时这个嵌入矩阵是可学习的。在这种表征中,相似的符号将具有相似的编码。输入表征x的计算过程为

【专利技术属性】
技术研发人员:许洪腾袁深
申请(专利权)人:中国人民大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1