一种利用单词信息聚类的句子编码方法技术

技术编号：23315200 阅读：68 留言：0更新日期：2020-02-11 17:50

本发明专利技术提供的一种利用单词信息聚类的句子编码方法。在一个实施例中，将特定长度句子序列中的各个单词映射到词向量空间中，并获取各个单词的词向量；获取各个词向量的编码向量并将各个编码向量经过非线性挤压作为一个胶囊；获取多个胶囊形成原始胶囊层，利用胶囊协议算法从原始胶囊层中抽出具有特定语义特征的单词的语义信息，形成第一目标胶囊层；对第一目标胶囊层中的第一目标胶囊利用胶囊协议算法进行信息转化形成具有分类个数的第二目标胶囊层。通过采用胶囊协议算法，根据目标胶囊对于原始胶囊的不同要求，进行信息的传递，能够获取更长的句子特征，并能有效提高句子分类的准确性。

A sentence coding method based on word information clustering

全部详细技术资料下载

【技术实现步骤摘要】
一种利用单词信息聚类的句子编码方法
本专利技术涉及信息聚类
,尤其涉及一种利用单词信息聚类的句子编码方法。
技术介绍
深度学习在自然语言领域取得了较大的突破，其通过对文本进行深层次的语义建模，然而，如何学习到高质量的特征表示一直是一个很大的挑战，从利用n-garm卷积提取句子局部序列特征，利用最大池化层提取出局部序列中的重要特征，再到RNN对于文本的序列建模，卷积相比于RNN，更注重于局部序列特征的提取，但其受n-gram的影响，不易于捕获更长的句子特征，而RNN,虽能够捕获更长的句子特征，但其对句子的特征提取并不如卷积。
技术实现思路
有鉴于此，本申请实施例提供了一种利用单词信息聚类的句子编码方法。第一方面本专利技术申请提供的一种利用单词信息聚类的句子编码方法，包括：将特定长度句子序列中的各个单词映射到词向量空间中，并获取各个单词的词向量；获取各个词向量的编码向量并将各个编码向量经过非线性挤压作为一个胶囊；获取多个胶囊形成原始胶囊层，利用胶囊协议算法从原始胶囊层抽出具有特定语义特征的单词的语义信息，形成第一目标胶囊层；对第一目标胶囊层中的第一目标胶囊利用胶囊协议算法进行信息转化形成具有分类个数的第二目标胶囊层。可选地，所述在词向量空间中获取各个单词的编码向量包括：将各个单词的词向量输入bi-directionalLSTM(biLSTM)模型中，分别获取其向前传播的句子序列信息和后向传播序列信息然后将这两个向量进行拼接，形成所需要的编码向量hi...

【技术保护点】
1.一种利用单词信息聚类的句子编码方法，包括：/n将特定长度句子序列中的各个单词映射到词向量空间中，并获取各个单词的词向量；/n获取各个词向量的编码向量并将各个编码向量经过非线性挤压作为一个胶囊；/n获取多个胶囊形成原始胶囊层，利用胶囊协议算法从原始胶囊层中抽出具有特定语义特征的单词的语义信息，形成第一目标胶囊层；/n对第一目标胶囊层中的第一目标胶囊利用胶囊协议算法进行信息转化形成具有分类个数的第二目标胶囊层。/n

【技术特征摘要】
1.一种利用单词信息聚类的句子编码方法，包括：
将特定长度句子序列中的各个单词映射到词向量空间中，并获取各个单词的词向量；
获取各个词向量的编码向量并将各个编码向量经过非线性挤压作为一个胶囊；
获取多个胶囊形成原始胶囊层，利用胶囊协议算法从原始胶囊层中抽出具有特定语义特征的单词的语义信息，形成第一目标胶囊层；
对第一目标胶囊层中的第一目标胶囊利用胶囊协议算法进行信息转化形成具有分类个数的第二目标胶囊层。

2.根据权利要求1所述的方法，其特征在于，所述在词向量空间中获取各个单词的编码向量包括：将各个单词的词向量输入bi-directionalLSTM(biLSTM)模型中，分别获取其向前传播的句子序列信息和后向传播序列信息然后将这两个向量进行拼接，形成所需要的编码向量hi：

因此，经过BiLSTM编码形成的向量输出为：
H＝[h1,h2,…hL]。

3.根据权利要求1所述的方法，其特征在于，所述获取多个胶囊形成原始胶囊层包括：
P＝[p1,p2…pL]
si＝σ(wspi+bs)
ki＝tanh(wkpi+bk)
ui＝si·ki
其中P表示通过编码层形成的原始胶囊集合，pi表示原始胶囊层的第i个胶囊，ws表示供献矩阵参数，bs偏置参数，σ表示sigmod激活函数，经过公式s＝σ(wspi+bs)形成原始胶囊i的供献门，wk表示原始胶囊的有效值矩阵，bk表示偏置值，经过公式k＝tanh(wkpi+bk)获得原始胶囊i的有效值，经过公式u＝s·k形成胶囊i的可贡献值u。

4.根据权利要求1所述的方法，其特征在于，所述第一目标胶囊包括：
Y＝[y1,y2…ym]
nj＝σ(wnyj+bn)
cj＝tanh(wcyj+bc)
vj＝nj·cj
其中Y表示第一目标...

【专利技术属性】
技术研发人员：曹杰，郭翔，王有权，申冬琴，李秀怡，
申请(专利权)人：云境商务智能研究院南京有限公司，南京财经大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人