【技术实现步骤摘要】
一种短文本相似度计算系统及其训练方法
本申请涉及文本挖掘和深度学习
,尤其涉及一种短文本相似度计算系统及其训练方法。
技术介绍
短文本相似度计算广泛应用于问答系统、文本分类、文本聚类。常见的文本相似度计算方法有:以词为文本的基本单元计算Levenshtein编辑距离、把文本当作字词的集合并基于词义或词向量来计算文本的相似度、使用深度神经网络得到文本整体的编码并基于文本级编码向量来计算相似度。上述基于字词的方法忽视了字词在不同上下文的多义性,而基于文本级编码的方法存在语义信息损失的问题。
技术实现思路
本申请的目的是提供一种短文本相似度计算系统,对需要计算相似度的两个文本的词语序列以及文本整体进行编码,使用注意力机制计算第一文本词语序列编码对第二文本整体编码的注意力,归一化注意力得到相似度的值。为实现上述目的,本申请采取以下技术方案:根据本申请的第一个方面,提供了一种短文本相似度计算系统,包含以下模块:文本切分模块;文本编码器;文本相似度计算神经网络模块。 >以上模块的详细描述本文档来自技高网...
【技术保护点】
1.一种短文本相似度计算系统,其特征在于,包含以下模块:文本切分模块、文本编码器、文本相似度计算神经网络模块。/n
【技术特征摘要】
1.一种短文本相似度计算系统,其特征在于,包含以下模块:文本切分模块、文本编码器、文本相似度计算神经网络模块。
2.根据权利要求1所述的系统,其特征在于,
所述文本切分模块,用于将文本切分为token的序列;并在序列的开头处拼接上[BOS]标记、结尾处拼接上[EOS]标记,其中[BOS]表示文本开头,[EOS]表示文本结尾。
3.根据权利要求1或2所述的系统,其特征在于,
所述文本编码器,用于将文本编码为token序列的向量表示。
4.根据权利要求3所述的系统,其特征在于,
所述文本相似度计算神经网络模块,通过计算第一文本编码对第二文本编码的注意力,将注意力归一化得到两个文本的相似度。
5.根据权利要求4所述的系统,其特征在于,
所述相似度的计算方法如下:
S(text1,text2)=attention(text1,text2)
其中S(text1,text2)表示两个文本的相似度,attention(text1,text2)表示第一文本编码对第二文本编码的注意力,text1表示第一文本,text2表示第二文本。
6.根据权利要求4或5所述的系统,其特征在于,
所述第一文本编码对第二文本编码的注意力为第一文本中所有token对第二文本的注意力归一化后的平均:
attention(text1,text2)=sum(sigmoid(attention(token,text2)))/length(text1)
其中attention(token,text2)为第一文本经编码得到与上下文语境相关的token向量对第二文本向量的注意力,length(text1)为第一文本中token的个数。
7.根据权利要求4或5所述的系统,其特征在于,
所述文本相似度计算神经网络模块包括:
第一两层前馈网络,将第一文本token的向量矩阵变换为注意力机制的query,其中第一层神经元使用relu作为激活函数,第二层不使用激活函数;
第二两层前馈网络,将第二文本的向量矩阵变换为注意力机制...
【专利技术属性】
技术研发人员:王丙栋,游世学,
申请(专利权)人:铜陵中科汇联科技有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。