【技术实现步骤摘要】
一种文本匹配方法及装置
本申请涉及自然语言处理
,尤其涉及一种文本匹配方法及装置。
技术介绍
文本匹配是自然语言处理
一项核心技术,用于获取两篇文本的相关性,并根据两篇文本的相关性抽取文本的语义信息,在信息检索、信息抽取和自动问答等领域都有重要意义和广泛应用。随着深度学习技术的发展,现有技术中出现了CNN(ConvolutionalNeuralNetworks,卷积神经网络)、以及RNN(RecurrentneuralNetwork,循环神经网络)结合LSTM(LongShort-TermMemory)的可用于计算文本相似度的神经网络模型。其中,CNN通过对文本的词向量序列进行卷积处理,得到文本的局部信息向量,但是,CNN对文本的词向量的卷积处理过程会导致文本的序列信息(序列信息指文本中字或词的顺序关系)丢失,例如,文本中的“我爱你”和“你爱我”表示不同的语义,但是,它们经过CNN的卷积处理后得到的局部信息向量可能是相同的,即CNN认为这两个局部文本的语义相同,从而导致文本匹配的准确率下降。此外,RNN网络通过建立一条单项的链式神经网络,能够将序列化数 ...
【技术保护点】
1.一种文本匹配方法,其特征在于,包括:获取待匹配文本的包含位置编码信息的局部信息向量;所述待匹配文本包括第一待匹配文本和第二待匹配文本,所述局部信息向量包括从第一待匹配文本中获取的第一局部信息向量,以及,从第二待匹配文本中获取的第二局部信息向量;根据所述第一局部信息向量和所述第二局部信息向量生成第一待匹配文本和第二待匹配文本的注意力,并根据所述注意力对所述第一局部信息向量进行加权;对所述第一局部信息向量的加权结果进行正则处理,生成正则矩阵;根据所述正则矩阵获取第一待匹配文本和第二待匹配文本的相似概率。
【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括:获取待匹配文本的包含位置编码信息的局部信息向量;所述待匹配文本包括第一待匹配文本和第二待匹配文本,所述局部信息向量包括从第一待匹配文本中获取的第一局部信息向量,以及,从第二待匹配文本中获取的第二局部信息向量;根据所述第一局部信息向量和所述第二局部信息向量生成第一待匹配文本和第二待匹配文本的注意力,并根据所述注意力对所述第一局部信息向量进行加权;对所述第一局部信息向量的加权结果进行正则处理,生成正则矩阵;根据所述正则矩阵获取第一待匹配文本和第二待匹配文本的相似概率。2.根据权利要求1所述的方法,其特征在于,所述获取待匹配文本的包含位置编码信息的局部信息向量,包括:获取待匹配文本的词向量矩阵;对待匹配文本进行位置编码,以获取待匹配文本的位置编码矩阵;将所述词向量矩阵和所述位置编码矩阵相加得到卷积神经网络的输入矩阵;使用卷积神经网络从所述输入矩阵中提取所述局部信息向量。3.根据权利要求1所述的方法,其特征在于,所述根据第一局部信息向量和所述第二局部信息向量生成第一待匹配文本和第二待匹配文本的注意力,包括:计算所述第一局部信息向量和所述第二局部信息向量的点积;对所述点积的计算结果进行去除标准差的尺度化处理,得到所述注意力;根据所述注意力对所述第一局部信息向量进行加权,并使用归一化指数函数对加权结果进行归一化处理。4.根据权利要求1所述的方法,其特征在于,所述对第一局部信息向量的加权结果进行正则处理,生成正则矩阵,使用以下公式:其中,y为正则处理的输入向量,由第一局部信息向量的加权结果与第一局部信息向量相加获得;mean(y)表示所有输入向量的平均值;variance表示y的方差;LN表示输入向量y的正则输出向量。5.根据权利要求1所述的方法,其特征在于,所述根据所述正则矩阵获取第一待匹配文本和第二待匹配文本的相似概率,使用以下公式:P=softmax(L×W+B)其中,P表示...
【专利技术属性】
技术研发人员:杨凯程,赵红红,李健铨,蒋宏飞,晋耀红,
申请(专利权)人:北京神州泰岳软件股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。