System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种文本分类方法、装置、设备及介质制造方法及图纸_技高网

一种文本分类方法、装置、设备及介质制造方法及图纸

技术编号:39960925 阅读:6 留言:0更新日期:2024-01-09 00:02
本发明专利技术提出一种文本分类方法、装置、设备及介质。一种文本分类方法,包括:分别对文本和标签进行词向量初始化,得到文本表示集合和标签表示集合;将文本表示集合和所述标签表示集合的数据同时输入到浅层匹配通道、深层单向交互通道以及深层双向交互通道进行训练,得到对应的相关性表示集合;将浅层匹配通道、深层单向交互通道以及深层双向交互通道各自对应的相关性表示集合进行聚合,得到显式和隐式交互关系以及单向和双向交互关系对于文本表示和标签表示双向交互的权重模型;将权重模型输入到对文本进行分类的分类层,以预测待分类文本中的文本表示所匹配的标签表示。本发明专利技术公开的方案提高了文本分类的准确性。

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域,尤其涉及一种文本分类方法、装置、设备及介质


技术介绍

1、标签对于文本分类任务起着重要的作用,利用分类标签信息来构建文本序列是经常使用的方法,比如标签嵌入,其中,文本表示是对文本分类过程中的核心步骤,常见的文本表示的方法包括:启发式的文本表示方法、基于词向量的文本表示方法以及基于神经网络的文本表示方法。

2、在对文本分类的相关技术中,一般只利用标签到文本的单向通道,即只计算文本层面的注意力,这种方式文本和标签的交互层面单一、忽略了文本和标签在不同语义级别上具有的不同交互关系,不利于对文本特征更加准确的分类。


技术实现思路

1、有鉴于此,本专利技术提出了一种文本分类方法、装置、设备及介质,至少解决了上述在对文本分类的相关技术中,一般只利用标签到文本的单向通道,即只计算文本层面的注意力,文本和标签的交互层面单一、忽略了文本和标签在不同语义级别上具有的不同交互关系,不利于对文本特征更加准确地分类的问题。

2、基于以上目的,本专利技术的实施例的一个方面提供了一种数据交换的方法,包括:分别对文本和标签进行词向量初始化,得到文本表示集合和标签表示集合;将所述文本表示集合和所述标签表示集合的数据同时输入到浅层匹配通道、深层单向交互通道以及深层双向交互通道进行训练,得到对应的相关性表示集合,其中,通过所述浅层匹配通道学习文本表示和标签表示的显式交互关系,通过所述深层单向交互通道学习文本表示和标签表示的隐式交互关系,通过所述深层双向交互通道获取标签表示和文本表示的隐式双向语义信息交互关系;将所述浅层匹配通道、深层单向交互通道以及深层双向交互通道各自对应的相关性表示集合进行聚合,得到显式和隐式交互关系以及单向和双向交互关系对于文本表示和标签表示双向交互的权重模型;将所述权重模型输入到对文本进行分类的分类层,以预测待分类文本中的文本表示所匹配的标签表示。

3、在一些实施例中,所述分别对文本和标签进行词向量初始化,得到文本表示集合和标签表示集合的步骤包括:通过对文本进行分词以及去除停用词对所述文本进行预处理;将预处理后的文本和标签分别进行同一词向量映射得到对应的所述文本表示集合和所述标签表示集合。

4、在一些实施例中,所述将所述文本表示集合和所述标签表示集合的数据同时输入到浅层匹配通道、深层单向交互通道以及深层双向交互通道进行训练,得到对应的相关性表示集合的步骤包括:响应于将所述文本表示集合和所述标签表示集合的数据输入到所述深层双向交互通道进行训练,通过注意力机制构建文本到标签的第一注意力权重矩阵和标签到文本的第二注意力权重矩阵;根据所述第一注意力权重矩阵和所述第二注意力权重矩阵分别训练所述文本表示集合中每个文本表示对单个标签的第一权重值以及所述标签表示集合中每个标签表示对单个文本表示的第二权重值,得到第一相关性表示集合,以用于获取标签表示和文本表示的隐式双向语义信息交互关系。

5、在一些实施例中,所述将所述文本表示集合和所述标签表示集合的数据同时输入到浅层匹配通道、深层单向交互通道以及深层双向交互通道进行训练,得到对应的相关性表示集合的步骤还包括:响应于将所述文本表示集合和所述标签表示集合的数据输入到所述深层单向交互通道进行训练,通过多头自注意力机制构建通过所述标签表示集合查询所述文本表示集合具体值的参数矩阵;通过将所述标签表示集合输入到所述参数矩阵进行查询并将所述文本表示集合对应的文本表示的具体值输出来进行训练,得到第二相关性表示集合,以学习文本表示和标签表示的隐式交互关系。

6、在一些实施例中,所述将所述文本表示集合和所述标签表示集合的数据同时输入到浅层匹配通道、深层单向交互通道以及深层双向交互通道进行训练,得到对应的相关性表示集合的步骤还包括:响应于将所述文本表示集合和所述标签表示集合的数据输入到所述浅层匹配通道进行训练,计算所述文本表示集合的每个文本表示和所述标签表示集合的每个标签表示的余弦相似度;根据所述余弦相似度判断所述每个文本表示和所述每个标签表示是否有显式相关性,得到第三相关性表示集合,以学习文本表示和标签表示的显式交互关系。

7、在一些实施例中,所述将所述浅层匹配通道、深层单向交互通道以及深层双向交互通道各自对应的相关性表示集合进行聚合的步骤包括:通过残差门控制机制将所述浅层匹配通道、深层单向交互通道以及深层双向交互通道各自对应的相关性表示集合进行保存并按照每个通道所占的权重值进行聚合。

8、在一些实施例中,所述将所述权重模型输入到对文本进行分类的分类层的步骤包括:通过将所述权重模型的维度转换为所述标签表示集合的维度建立所述权重模型到所述标签表示集合的数值映射后输入到对文本进行分类的分类层。

9、本专利技术实施例的另一方面,还提供文本分类装置,包括:第一模块,用于分别对文本和标签进行词向量初始化,得到文本表示集合和标签表示集合;第二模块,用于将所述文本表示集合和所述标签表示集合的数据同时输入到浅层匹配通道、深层单向交互通道以及深层双向交互通道进行训练,得到对应的相关性表示集合,其中,通过所述浅层匹配通道学习文本表示和标签表示的显式交互关系,通过所述深层单向交互通道学习文本表示和标签表示的隐式交互关系,通过所述深层双向交互通道获取标签表示和文本表示的隐式双向语义信息交互关系;第三模块,用于将所述浅层匹配通道、深层单向交互通道以及深层双向交互通道各自对应的相关性表示集合进行聚合,得到显式和隐式交互关系以及单向和双向交互关系对于文本表示和标签表示双向交互的权重模型;以及第四模块,用于将所述权重模型输入到对文本进行分类的分类层,以预测待分类文本中的文本表示所匹配的标签表示。

10、本专利技术实施例的另一方面,还提供了一种计算机设备,包括至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行时实现上述方法的步骤。

11、本专利技术实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上述方法步骤的计算机程序。

12、本专利技术至少具有以下有益效果:本专利技术提出的一种文本分类方法采用双向多通道的交互方式,将文本和标签之间在不同语义级别上的显式和隐式交互关系结合起来,可以利用标签来更好地解释文本,并借助文本来理解标签的含义,可以充分利用标签信息以及更好地利用标签信息对文本特征进行更加准确的提取,提高了文本分类的准确性。

本文档来自技高网...

【技术保护点】

1.一种文本分类方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述分别对文本和标签进行词向量初始化,得到文本表示集合和标签表示集合的步骤包括:

3.根据权利要求1所述的方法,其特征在于,所述将所述文本表示集合和所述标签表示集合的数据同时输入到浅层匹配通道、深层单向交互通道以及深层双向交互通道进行训练,得到对应的相关性表示集合的步骤包括:

4.根据权利要求1所述的方法,其特征在于,所述将所述文本表示集合和所述标签表示集合的数据同时输入到浅层匹配通道、深层单向交互通道以及深层双向交互通道进行训练,得到对应的相关性表示集合的步骤还包括:

5.根据权利要求1所述的方法,其特征在于,所述将所述文本表示集合和所述标签表示集合的数据同时输入到浅层匹配通道、深层单向交互通道以及深层双向交互通道进行训练,得到对应的相关性表示集合的步骤还包括:

6.根据权利要求1所述的方法,其特征在于,所述将所述浅层匹配通道、深层单向交互通道以及深层双向交互通道各自对应的相关性表示集合进行聚合的步骤包括:

7.根据权利要求6所述的方法,其特征在于,所述将所述权重模型输入到对文本进行分类的分类层的步骤包括:

8.一种文本分类装置,其特征在于,包括:

9.一种计算机设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有被处理器执行时实现权利要求1-7任意一项所述方法的步骤的计算机程序。

...

【技术特征摘要】

1.一种文本分类方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述分别对文本和标签进行词向量初始化,得到文本表示集合和标签表示集合的步骤包括:

3.根据权利要求1所述的方法,其特征在于,所述将所述文本表示集合和所述标签表示集合的数据同时输入到浅层匹配通道、深层单向交互通道以及深层双向交互通道进行训练,得到对应的相关性表示集合的步骤包括:

4.根据权利要求1所述的方法,其特征在于,所述将所述文本表示集合和所述标签表示集合的数据同时输入到浅层匹配通道、深层单向交互通道以及深层双向交互通道进行训练,得到对应的相关性表示集合的步骤还包括:

5.根据权利要求1所述的方法,其特征在于,所述将所述文本表示...

【专利技术属性】
技术研发人员:刘岩
申请(专利权)人:山东云海国创云计算装备产业创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1