一种相似句对的检索方法及装置制造方法及图纸

技术编号：25637010 阅读：52 留言：0更新日期：2020-09-15 21:29

本发明专利技术提供了一种相似句对的检索方法及装置，该方法包括获取到待检索的查询句对后，将查询句对输入至预置NMT模型的encoder编码器，采用encoder编码器对查询句进行分词，以生成各分词对应的特征向量，然后，按照预设时间间隔依次将各分词的特征向量输入至NMT模型的decoder解码器，并采用decoder解码器依据依次接收到的各分词的特征向量对查询句对进行翻译，得到查询句对的相似句对的特征向量，最后，将相似句对的特征向量解码成对应的相似句对。由此，本发明专利技术实施例不同于现有的判别式模型直接计算两个特征向量是否相似，本发明专利技术采用NMT模型结合查询句对的上下文语义翻译出相似句对，从而有效地得到与查询句对语义更加相近的相似句对。

全部详细技术资料下载

【技术实现步骤摘要】
一种相似句对的检索方法及装置
本专利技术涉及计算机
，特别是涉及一种相似句对的检索方法及装置。
技术介绍
现有技术中，在进行语句的检索过程中，通常会涉及到计算句对之间的相似性问题，而目前计算相似句对之间的相似性有很多种方式，比如采用深度结构化语义模型(DeepStructuredSemanticModels，DSSM)计算文本特征之间的点积得到句对的相似性分值。但是，现有的深度结构化语义模型本质上属于判别式模型，这种模型不能很好的利用语言模型的上下文关系，也无法生成句对之间词与词的映射关系。
技术实现思路
鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的相似句对的检索方法及装置。依据本专利技术一方面，提供了一种相似句对的检索方法，包括：获取待检索的查询句对，将所述查询句对输入至预置NMT模型的encoder编码器；采用encoder编码器对所述查询句对进行分词，生成各分词对应的特征向量；按照预设时间间隔依次将各分词的特...

【技术保护点】
1.一种相似句对的检索方法，包括：/n获取待检索的查询句对，将所述查询句对输入至预置NMT模型的encoder编码器；/n采用encoder编码器对所述查询句对进行分词，生成各分词对应的特征向量；/n按照预设时间间隔依次将各分词的特征向量输入至所述NMT模型的decoder解码器；/n采用decoder解码器依据依次接收到的各分词的特征向量对查询句对进行翻译，得到所述查询句对的相似句对的特征向量，将所述相似句对的特征向量解码成对应的相似句对。/n

【技术特征摘要】
1.一种相似句对的检索方法，包括：
获取待检索的查询句对，将所述查询句对输入至预置NMT模型的encoder编码器；
采用encoder编码器对所述查询句对进行分词，生成各分词对应的特征向量；
按照预设时间间隔依次将各分词的特征向量输入至所述NMT模型的decoder解码器；
采用decoder解码器依据依次接收到的各分词的特征向量对查询句对进行翻译，得到所述查询句对的相似句对的特征向量，将所述相似句对的特征向量解码成对应的相似句对。

2.根据权利要求1所述的方法，其中，采用decoder解码器依据依次接收到的各分词的特征向量对查询句对进行翻译，包括：
将所述查询句对的分词的特征向量首次输入decoder解码器后，采用decoder解码器对接收到的所述分词的特征向量进行相似句对的翻译，得到翻译结果；
按照预置算法从所述翻译结果中选取指定数量的符合预设条件的相似句对的特征向量；
将本次选取的相似句对的特征向量和所述预设时间后输入的下一个分词的特征向量作为decoder解码器的下一次输入，采用decoder解码器对接收到的输入内容进行翻译得到翻译结果，并按照预置算法从所述翻译结果中选取指定数量的符合预设条件的相似句对的特征向量，如此循环，直到对所述查询文本的最后一个分词的特征向量翻译完成为止。

3.根据权利要求2所述的方法，其中，所述符合预设条件的相似句对的特征向量，包括：
与输入至decoder解码器的特征向量的相关度分值大于指定分值的相似句对的特征向量。

4.根据权利要求2或3所述的方法，其中，所述预置算法包括beamsearch算法。

5.根据权利要求4所述的方法，其中，将所述查询句对输入至预置NMT模型的encoder编码器之前，还包括：
获取...

【专利技术属性】
技术研发人员：田伟伟，董健，颜水成，卢禹锟，
申请(专利权)人：北京奇虎科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人