长文本语义相似度匹配方法、装置、电子设备及存储介质制造方法及图纸

技术编号：26971355 阅读：34 留言：0更新日期：2021-01-06 00:02

本申请实施例提供了一种长文本语义相似度匹配方法、装置、电子设备及存储介质。方法包括：分别对长文本和基准文本进行预处理，以得到长文本的多个句子分别对应的多个第一词向量和基准文本的一个句子对应的多个第二词向量；分别对多个第一词向量和多个第二词向量进行池化处理，以得到长文本的多个句子分别对应的多个第一语义向量，以及第二文本的一个句子对应的一个第二语义向量；将多个第一语义向量输入预设的实体识别模型，以确定长文本包括的段落的段落类型；根据段落类型确定每个段落中的第一语义向量对应的权重；基于第一语义向量、第一语义向量对应的权重以及第二语义向量，计算得到长文本相对基准文本的相似度。

全部详细技术资料下载

【技术实现步骤摘要】
长文本语义相似度匹配方法、装置、电子设备及存储介质
本申请涉及自然语言处理
，具体而言，本申请涉及一种长文本语义相似度匹配方法、装置、电子设备及存储介质。
技术介绍
自然语言处理(NatureLanguageprocessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。在自然语言处理时，有时需要对不同的文本之间进行语义的相似度匹配。现有的语义匹配，是短文本和短文本之间的语义匹配，现有的方案并没有一种能实现长文本和短文本之间进行语义匹配的方案。
技术实现思路
本申请的目的旨在至少能解决上述的技术缺陷之一，特提出以下技术方案：第一方面，提供了一种长文本语义相似度匹配的方法，该方法包括：分别对长文本和基准文本进行预处理，以得到长文本的多个句子分别对应的多个第一...

【技术保护点】
1.一种长文本语义相似度匹配方法，其特征在于，所述方法包括：/n分别对长文本和基准文本进行预处理，以得到长文本的多个句子分别对应的多个第一词向量和基准文本的一个句子对应的多个第二词向量，所述长文本包括多个句子，所述基准文本包括一个句子；/n分别对所述多个第一词向量和所述多个第二词向量进行池化处理，以得到所述长文本的多个句子分别对应的多个第一语义向量，以及所述第二文本的一个句子对应的一个第二语义向量；/n将所述多个第一语义向量输入预设的实体识别模型，以确定所述长文本包括的段落的段落类型；/n根据所述段落类型确定每个段落中的第一语义向量对应的权重；/n基于所述第一语义向量、所述第一语义向量对应的权...

【技术特征摘要】
1.一种长文本语义相似度匹配方法，其特征在于，所述方法包括：
分别对长文本和基准文本进行预处理，以得到长文本的多个句子分别对应的多个第一词向量和基准文本的一个句子对应的多个第二词向量，所述长文本包括多个句子，所述基准文本包括一个句子；
分别对所述多个第一词向量和所述多个第二词向量进行池化处理，以得到所述长文本的多个句子分别对应的多个第一语义向量，以及所述第二文本的一个句子对应的一个第二语义向量；
将所述多个第一语义向量输入预设的实体识别模型，以确定所述长文本包括的段落的段落类型；
根据所述段落类型确定每个段落中的第一语义向量对应的权重；
基于所述第一语义向量、所述第一语义向量对应的权重以及第二语义向量，计算得到所述长文本相对所述基准文本的相似度。

2.根据权利要求1所述的长文本语义相似度匹配方法，其特征在于，所述实体识别模型，包括以下任一种模型：
长短时记忆LSTM-条件随机场CRF模型；或
双向长短时记忆BiLSTM-条件随机场CRF模型。

3.根据权利要求1所述的长文本语义相似度匹配方法，其特征在于，所述根据所述段落类型确定每个段落中的第一语义向量对应的权重，包括：
根据预设的类型权重对应表和所述段落类型确定每个段落中的第一语义向量对应的权重，所述类型权重对应表包括所述段落类型与权重的映射关系。

4.根据权利要求1所述的长文本语义相似度匹配方法，其特征在于，依据下式，基于所述第一语义向量、所述第一语义向量对应的权重以及第二语义向量，计算得到所述长文本相对所述基准文本的相似度：

其中，所述N为所述基准文本的第二语义向量，所述M为所述长文本的多个第一语义向量，所述L为所述长文本的句子数量，所述mi为所述长文本中的第i个句子的第一语义向量，所述λmi为所述长文本中的第i个句子的第一语义向量对应的权重；
其中，基于下式计算cos<N，m>，

其中，k为向量的维度，所述Nj为所述第二语义向量的在第j维度的投影向量，所述mj为所述第一语义向量在所述第j维度的投影向量。

5.根据权利要求1所述的长文本语义相似度匹配方法，其特征在于，所述分别对所述多个第一词向量和所述多个第二词向量进行池化处...

【专利技术属性】
技术研发人员：徐晨兴，张雷，
申请(专利权)人：亚信科技中国有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人