一种利用单词信息聚类的句子编码方法技术

技术编号:23315200 阅读:68 留言:0更新日期:2020-02-11 17:50
本发明专利技术提供的一种利用单词信息聚类的句子编码方法。在一个实施例中,将特定长度句子序列中的各个单词映射到词向量空间中,并获取各个单词的词向量;获取各个词向量的编码向量并将各个编码向量经过非线性挤压作为一个胶囊;获取多个胶囊形成原始胶囊层,利用胶囊协议算法从原始胶囊层中抽出具有特定语义特征的单词的语义信息,形成第一目标胶囊层;对第一目标胶囊层中的第一目标胶囊利用胶囊协议算法进行信息转化形成具有分类个数的第二目标胶囊层。通过采用胶囊协议算法,根据目标胶囊对于原始胶囊的不同要求,进行信息的传递,能够获取更长的句子特征,并能有效提高句子分类的准确性。

A sentence coding method based on word information clustering

【技术实现步骤摘要】
一种利用单词信息聚类的句子编码方法
本专利技术涉及信息聚类
,尤其涉及一种利用单词信息聚类的句子编码方法。
技术介绍
深度学习在自然语言领域取得了较大的突破,其通过对文本进行深层次的语义建模,然而,如何学习到高质量的特征表示一直是一个很大的挑战,从利用n-garm卷积提取句子局部序列特征,利用最大池化层提取出局部序列中的重要特征,再到RNN对于文本的序列建模,卷积相比于RNN,更注重于局部序列特征的提取,但其受n-gram的影响,不易于捕获更长的句子特征,而RNN,虽能够捕获更长的句子特征,但其对句子的特征提取并不如卷积。
技术实现思路
有鉴于此,本申请实施例提供了一种利用单词信息聚类的句子编码方法。第一方面本专利技术申请提供的一种利用单词信息聚类的句子编码方法,包括:将特定长度句子序列中的各个单词映射到词向量空间中,并获取各个单词的词向量;获取各个词向量的编码向量并将各个编码向量经过非线性挤压作为一个胶囊;获取多个胶囊形成原始胶囊层,利用胶囊协议算法从原始胶囊层抽出具有特定语义特征的单词的语义信息,形成第一目标胶囊层;对第一目标胶囊层中的第一目标胶囊利用胶囊协议算法进行信息转化形成具有分类个数的第二目标胶囊层。可选地,所述在词向量空间中获取各个单词的编码向量包括:将各个单词的词向量输入bi-directionalLSTM(biLSTM)模型中,分别获取其向前传播的句子序列信息和后向传播序列信息然后将这两个向量进行拼接,形成所需要的编码向量hi:因此,经过BiLSTM编码形成的向量输出为:H=[h1,h2,…hL]。可选地,所述获取多个胶囊形成原始胶囊层包括:P=[p1,p2…pL]si=σ(wspi+bs)ki=tanh(wkpi+bk)ui=si·ki其中P表示通过编码层形成的原始胶囊集合,pi表示原始胶囊层的第i个胶囊,ws表示供献矩阵参数,bs偏置参数,σ表示sigmod激活函数,经过公式s=σ(wspi+bs)形成原始胶囊i的供献门,wk表示原始胶囊的有效值矩阵,bk表示偏置值,经过公式k=tanh(wkpi+bk)获得原始胶囊i的有效值,经过公式u=s·k形成胶囊i的可贡献值u。可选地,所述第一目标胶囊包括:Y=[y1,y2…ym]nj=σ(wnyj+bn)cj=tanh(wcyj+bc)vj=nj·cj其中Y表示第一目标胶囊集合,yj表示第一目标胶囊层中第j个胶囊,wn表示需求矩阵参数,bn偏置参数,σ表示sigmod激活函数,经过公式n=σ(wnyj+bn)形成第一目标胶囊j的需求门,wc表式状态矩阵参数,bc偏置参数,经过c=tanh(wcyj+bc)形成第一目标胶囊i的当前状态值,经过公式v=n·c形成胶囊j处于当前状态下所需求的内容值,即v。可选地,所述将初始化胶囊层作为原始胶囊层利用胶囊协议算法从中抽出具有特定语义特征的单词的语义信息,形成第一目标胶囊层包括:fij=ui·vjfij=ui·vj表示计算原始胶囊i所能供献的信息和第一目标胶囊j所需要的信息之间的相似关系,利用表示其所计算的相似度大小,将Fij进行softmax函数归一化后形成aij,表示原始胶囊i到第一目标胶囊j之间所转化的信息量大小;将第一目标胶囊j的初始化状态值cj和从原始胶囊层中各个胶囊所吸收的值aij相加形成新的第一目标胶囊状态值。可选地,所述方法还包括:用各个第二目标胶囊的向量长度表示其表征的内容出现的概率;采用L2范数计算各个第二目标胶囊的向量长度;根据各个第二目标胶囊的向量长度确定各个第二目标胶囊最终所属的类别。可选地,所述方法还包括:采用间隔损失函数对分类层胶囊的原文损失进行计算。可选地,所述采用间隔损失函数对分类层胶囊的原文损失进行计算包括:Le=Temax(0,m+-||ve||)2+λ(1-Te)max(0,||ve||-m-)2Le是分类层第e个胶囊的损失值,Te为指示函数,值为1或者0,当为第e类时候,Te为1,否则为0,m+=0.9,λ=0.5,m-=0.1,m+为上界,m-为下界。总损失为分类层各个胶囊的损失之和。本申请实施例提供的一种利用单词信息聚类的句子编码方法,在一个实施例中,利用BILSTM网络进行基于序列的方式进行对单词编码,并利用胶囊协议算法,根据目标胶囊对于原始胶囊的不同要求,进行信息的传递,即根据每个单词胶囊所能提供的特征,形成高层句子胶囊的特征。有效提高了句子分类的准确性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本专利技术申请一种利用单词信息聚类的句子编码方法的流程示意图。具体实施方式下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。受胶囊网络的启发,提出高层胶囊网络,对低层胶囊网络的信息传递具有指导作用的算法,利用BILSTM网络进行基于序列的方式进行对单词编码,在此后利用所提出的胶囊协议算法,根据高层胶囊对于低层胶囊的不同要求,进行信息的传递,即根据每个单词胶囊所能提供的特征,形成高层句子胶囊的特征。图1为本专利技术申请一种利用单词信息聚类的句子编码方法的流程示意图。如图1所示包括步骤:步骤S101:将特定长度句子序列中的各个单词映射到词向量空间中,并获取各个单词的词向量;在词向量嵌入层,对于给定的特定长度句子序列:S=w1,w2,w3…wL,每一个wi都是一个符号,采用one-hot表示,不能计算单词与单词直接的关系,也不能直接应用到神经网络模型中,所以,第一步是将每一个单词映射到d维词向量空间中,既使得单词与单词之间拥有了关系,也使得单词能够作为神经网络模型的输入:X=[x1,x2,x3,…,xL](1)词向量空间的词向量是通过随机初始化产生的。步骤S102:在词向量空间中,获取各个词向量的编码向量并将各个编码向量经过非线性挤压作为一个胶囊;在词向量空间中,每一个xi相对于句子X中的其他的单词也是独立,通常对于一个句子的语义理解,需要句子X中各个单词所呈现出来的依赖关系,为了获得句子中单词与单词之间的依赖关系,采用bi-directionalLSTM(biLSTM),将句子X中每一个单词xi输入,分别获得其前向传播的句子序列信息和后向传播序列信息然后将这2个向量进行拼接,在编码层中形成所需要的编码向量hi因此,经过BiLSTM编码形成的向量输出为:H=[h1,h2,…hL](5)步骤S103:获取多个胶囊形成原本文档来自技高网...

【技术保护点】
1.一种利用单词信息聚类的句子编码方法,包括:/n将特定长度句子序列中的各个单词映射到词向量空间中,并获取各个单词的词向量;/n获取各个词向量的编码向量并将各个编码向量经过非线性挤压作为一个胶囊;/n获取多个胶囊形成原始胶囊层,利用胶囊协议算法从原始胶囊层中抽出具有特定语义特征的单词的语义信息,形成第一目标胶囊层;/n对第一目标胶囊层中的第一目标胶囊利用胶囊协议算法进行信息转化形成具有分类个数的第二目标胶囊层。/n

【技术特征摘要】
1.一种利用单词信息聚类的句子编码方法,包括:
将特定长度句子序列中的各个单词映射到词向量空间中,并获取各个单词的词向量;
获取各个词向量的编码向量并将各个编码向量经过非线性挤压作为一个胶囊;
获取多个胶囊形成原始胶囊层,利用胶囊协议算法从原始胶囊层中抽出具有特定语义特征的单词的语义信息,形成第一目标胶囊层;
对第一目标胶囊层中的第一目标胶囊利用胶囊协议算法进行信息转化形成具有分类个数的第二目标胶囊层。


2.根据权利要求1所述的方法,其特征在于,所述在词向量空间中获取各个单词的编码向量包括:将各个单词的词向量输入bi-directionalLSTM(biLSTM)模型中,分别获取其向前传播的句子序列信息和后向传播序列信息然后将这两个向量进行拼接,形成所需要的编码向量hi:









因此,经过BiLSTM编码形成的向量输出为:
H=[h1,h2,…hL]。


3.根据权利要求1所述的方法,其特征在于,所述获取多个胶囊形成原始胶囊层包括:
P=[p1,p2…pL]
si=σ(wspi+bs)
ki=tanh(wkpi+bk)
ui=si·ki
其中P表示通过编码层形成的原始胶囊集合,pi表示原始胶囊层的第i个胶囊,ws表示供献矩阵参数,bs偏置参数,σ表示sigmod激活函数,经过公式s=σ(wspi+bs)形成原始胶囊i的供献门,wk表示原始胶囊的有效值矩阵,bk表示偏置值,经过公式k=tanh(wkpi+bk)获得原始胶囊i的有效值,经过公式u=s·k形成胶囊i的可贡献值u。


4.根据权利要求1所述的方法,其特征在于,所述第一目标胶囊包括:
Y=[y1,y2…ym]
nj=σ(wnyj+bn)
cj=tanh(wcyj+bc)
vj=nj·cj
其中Y表示第一目标...

【专利技术属性】
技术研发人员:曹杰郭翔王有权申冬琴李秀怡
申请(专利权)人:云境商务智能研究院南京有限公司南京财经大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1