【技术实现步骤摘要】
一种基于类别稠密向量表示的通用文本分类方法及系统
本专利技术涉及文本分类
,并特别涉及一种基于类别稠密向量表示的通用文本分类方法及系统。
技术介绍
基于深度神经网络的文本分类方法可以分为单词特征提取、文本特征提取和非线性分类器三个部分,其中单词特征提取和文本特征提取由编码器完成,非线性分类由分类器完成。如图1所示,其中单词特征提取阶段得到每个词的词向量;文本特征提取是指利用文本中每个词的词向量得到文本的向量表示;非线性分类器是指利用全连接神经网络和Softmax层得到类别的概率分布。现有的处理文本分类的思路虽然在一些应用领域取得了实际的效果,但是这种处理模式存在以下的不足之处:第一,所有的监督信号都来自于模型最尾端的分类器,在特征提取阶段没有显著的监督信息存在,使得整个分类模型成为一个“黑盒”。第二,最尾端的分类器得到了输入文本属于每个类别的概率分布,但是在整个模型中并没有显式地指出每个类别的语义表示,不具有可解释性。在现有技术中,虽然也有利用类别稠密向量表示处理文本分类问题的技术,其利用类别稠密向量表示增强文 ...
【技术保护点】
1.一种基于类别稠密向量表示的通用文本分类方法,其特征在于,包括:/n步骤1、获取包括以标记类别文本的训练数据,使用全连接网络处理该训练数据,得到各类别的类别稠密向量;/n步骤2、将待分类文本输入至深度神经网络,得到该待分类文本中每个词的词稠密向量,并集合该词稠密向量得到该待分类文本的文本稠密向量;/n步骤3、将该文本稠密向量和该类别稠密向量输入至匹配度测量模型,得到该待分类文本属于各类别的概率分布,将该待分类文本与该概率分布中概率最大的类别相匹配,作为该待分类文本的分类结果。/n
【技术特征摘要】 【专利技术属性】
1.一种基于类别稠密向量表示的通用文本分类方法,其特征在于,包括:
步骤1、获取包括以标记类别文本的训练数据,使用全连接网络处理该训练数据,得到各类别的类别稠密向量;
步骤2、将待分类文本输入至深度神经网络,得到该待分类文本中每个词的词稠密向量,并集合该词稠密向量得到该待分类文本的文本稠密向量;
步骤3、将该文本稠密向量和该类别稠密向量输入至匹配度测量模型,得到该待分类文本属于各类别的概率分布,将该待分类文本与该概率分布中概率最大的类别相匹配,作为该待分类文本的分类结果。
2.如权利要求1所述的基于类别稠密向量表示的通用文本分类方法,其特征在于,该步骤1包括:在生成类别稠密向量时,对该训练数据中所有属于同一类别的文本中的词的词向量表示取平均值,作为初始化的类别稠密向量。
3.如权利要求1所述的基于类别稠密向量表示的通用文本分类方法,其特征在于,该步骤1包括:
对于训练数据Xn=[x1,…,xm],xi∈X,yn∈Y,其中X为词典,Y为类别集合,[x1,…,xm]为词序列,m为输入文本长度,N为数据集规模,利用全连接网络获得词向量V=f1(Xn),其中P为文本特征空间的维度;通过对训练数据聚集得到类别的稠密向量表示C=[c1,…,cK],其中K为类别的数量。
4.如权利要求3所述的基于类别稠密向量表示的通用文本分类方法,其特征在于,步骤3中该匹配度测量模型,用于通过下式得到各类该类别稠密向和该文本稠密向量的匹配特征,得到该匹配特征的过程具体包括:通过下式得到该类别稠密向和该文本稠密向量中每个词的余弦相似度、双向线性和元素乘;
Mbi-linear=CWbi-linearVT,
之后将相似度结果拼接,得到类别表示和每个词的匹配特征,再通过深度神经网络得到各类别和整个待分类文本的匹配特征。
5.如权利要求4所述的基于类别稠密向量表示的通用文本分类方法,其特征在于,该步骤3包括:在得到该匹配特征后,通过全连接层得到待分类文本和每个类别之间的匹配得分,再经过softmax层得到待分类文本属于每个类别的概率分布。
技术研发人员:郭嘉丰,范意兴,袁浩达,程学旗,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。