【技术实现步骤摘要】
语义匹配方法、装置、设备及存储介质
本申请涉及计算机
,特别涉及一种语义匹配方法、装置、设备及存储介质。
技术介绍
随着计算机技术和自然语言处理技术的发展,计算机设备可以通过对两个自然语言的文本进行语义匹配,得到两个文本的语义匹配度,从而根据语义匹配度判断两个文本的语义是否相同或相近。关于语义匹配的具体过程,以文本A和文本B为例,可以对文本A进行分词,得到文本A中的多个词语,对每个词语分别进行特征提取,得到每个词语的词向量,按照句子中词语的排列顺序,对多个词向量进行组合,作为文本A的语义向量,通过同样的步骤可以得到文本B的语义向量,根据文本A的语义向量以及文本B的语义向量,可以计算两个语义向量之间的相似度,作为文本A和文本B之间的语义相似度。从上述举例可以看出,文本的语义向量仅是描述出了文本包含的所有词语本身的语义,而没有描述出词语与词语之间的联系以及文本整体的语义结构,导致无法精确地反映文本整体的语义,进而导致根据语义向量得到的语义匹配度的精确度较差。
技术实现思路
本申请实施例提 ...
【技术保护点】
1.一种语义匹配方法,其特征在于,所述方法包括:/n获取第一文本的第一抽象语义表示AMR图以及第二文本的第二AMR图,每个AMR图中的每个节点为向量;/n基于所述第一AMR图的至少一个第一节点的向量对应的潜在语义分析LSA信息以及所述第二AMR图的至少一个第二节点的向量对应的LSA信息,对所述第一AMR图与所述第二AMR图进行匹配,得到所述第一AMR图与所述第二AMR图之间的图匹配度;/n将所述图匹配度,作为所述第一文本与所述第二文本之间的语义匹配度。/n
【技术特征摘要】
1.一种语义匹配方法,其特征在于,所述方法包括:
获取第一文本的第一抽象语义表示AMR图以及第二文本的第二AMR图,每个AMR图中的每个节点为向量;
基于所述第一AMR图的至少一个第一节点的向量对应的潜在语义分析LSA信息以及所述第二AMR图的至少一个第二节点的向量对应的LSA信息,对所述第一AMR图与所述第二AMR图进行匹配,得到所述第一AMR图与所述第二AMR图之间的图匹配度;
将所述图匹配度,作为所述第一文本与所述第二文本之间的语义匹配度。
2.根据权利要求1所述的方法,其特征在于,AMR图的获取过程,包括:
对文本进行解析,得到初始AMR图,所述初始AMR图中的每个节点为概念标签;
将所述初始AMR图输入LSA模型,输出AMR图,所述LSA模型用于根据节点的概念标签,预测节点的向量。
3.根据权利要求2所述的方法,其特征在于,所述LSA模型的训练过程,包括:
基于多个样本句子,获取每个样本句子中每个概念的重要度;
基于所述每个样本句子中每个概念的重要度,构建句子概念矩阵,所述句子概念矩阵的每一行对应一个样本句子,每一列对应一个概念,任一行任一列的元素为所述列对应的概念在所述行对应的样本句子中的重要度;
对所述句子概念矩阵进行奇异值分解,得到每个概念对应的向量。
4.根据权利要求3所述的方法,其特征在于,所述基于多个样本句子,获取每个样本句子中每个概念的重要度,包括:
对所述多个样本句子的AMR图进行合并,得到第三AMR图;
采用网页排名算法,对所述AMR图进行运算,得到所述第三AMR图的每个第三节点的网页排名PR值;
对于任一个样本句子中的任一个概念,基于所述概念对应的第三节点的PR值以及所述样本句子中所述概念的出现次数,获取所述样本句子中所述概念的重要度,所述重要度与所述PR值和所述出现次数正相关。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一AMR图的至少一个第一节点的向量对应的潜在语义分析LSA信息以及所述第二AMR图的至少一个第二节点的向量对应的LSA信息之前,所述方法还包括:
对于所述至少一个第一节点以及所述至少一个第二节点中的每个节点,将所述节点的向量作为所述节点的LSA信息。
6.根据权利要求1所述的方法,其特征在于,所述基于所述第一AMR图的至少一个第一节点的向量对应的LSA信息以及所述第二AMR图的至少一个第二节点的向量对应的LSA信息,对所述第一AMR图与所述第二AMR图进行匹配,得到所述第一AMR图与所述第二AMR图之间的图匹配度,包括:
对于任一第一节点以及任一第二节点,基于所述第一节点的向量对应的LSA信息以及所述第二节点的向量对应的LSA信息,获取所述第一节点与所述第二节点之间的节点匹配度;和/或,对于任一第一边与任一第二边,基于所述第一边连接的两个第一节点的向量对应的LSA信息以及所述第二边连接的两个第二节点的向量对应的LSA信息,获取所述第一边与所述第二边之间的边匹配度;
基于所述至少一个节点匹配度以及所述至少一个边匹配度,获取所述图匹配度。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第一边连接的两个第一节点的向量对应的LSA信息以及所述第二边连接的两个第二节点的向量对应的LSA信息,获取所述第一边与所述第二边之间的边匹配度,包括:
基于所述第一边的第一起点的LSA信息、所述第二边的第二起点的LSA信息,获取所述第一起点与所述第二起点的节点匹配度,得到第一节点匹配度,所述第一起点属于所述第一边连接的两个第一节点,所述第二起点属于所述第二边连接的两个第二节点;
基于所述第一边的第一终点的LSA信息、所述第二边的第二终点的LSA信息,获取所述第一终点与所述第二终点的节点匹配度,得到第二节点匹配度,所述第一终点属于所述第一边连接的两个第一节点,所述第二终点属于所述第二边连接的两个第二节点;
基于所述第一节点匹配度以及所述第二节点匹配度,获取所述边匹配度。
8.根据权利要求6所述的方法,其特征在于,所述基于所述至少一个节点匹配度以及所述至少一个边匹配度,获取所述第一AMR图与所述第二AMR图的图匹配度,包括:
获取所述第一AMR图的第一统计值以及所述第二AMR图的第二统计值,所述第一统计值与所述第一AMR图的节点总数量和边总数量中的至少一项正相关,所述第二统计值与所述第二AMR图的节点总数量和边总数量中的至少一项正相关;
基于所述至少一个节点匹配度、所述至少一个边匹配度、所述第一统计值以及所述第二统计值,获取所述图匹配度,所述图匹配度与所述至少一个节点匹配度以及所述至少一个边匹配度正相关,且所述图匹配度与所述第一统计值以及所述第二统计值负相关。
9.根据权利要求1所述的方法,其特征在于,所述基于所述第一AMR图的至少一个第一节点的向量对应的LSA信息以及所述第二AMR图的至少一个第二节点的向量对应的LSA信息,对所述第一AMR图与所述第二AMR图进行匹配,包括:
对所述第一AMR图和所述第二AMR图进行对齐处理,得到至少一对匹配节点,每对匹配节点包括属于同一种概念的第一节点和第二节点;
基于所述至少一对匹配节点的向量对应的LSA信息,对所述第一AMR图与所述第二AMR图进行匹配,得到所述第一AMR图与所述第二AMR图之间的图匹配度。
10.根据权利要求9所述的方法,其特征在于,所述对所述第一AMR图和所述第二AMR图进行对齐处理,得到至少一对匹配节点,包括:
对所述第一AMR图和第二AMR图进行初始化,得到至少一对初始匹配节点;
基于所述至少一对初始匹配节点对应的初始图匹配度,对所述至少一对初始匹配节点进行迭代优化,得到所述至少一对匹配节点。
11.根据权利要求10所述的方法,其特征在于,所述对所述第一AMR图和第二AMR图进行初始化,得到至少一对初始匹配节点,包括:
获取每个第一节点与每个第二节点之间的相似度,得到多个相似度;
基于所述多个相似度,从所述至少一个第一节点和所述至少一个第二节点中,选择相似度最高的第一节点与第二节点,作为一对初始匹配节点;
从所述相似度最高的第一节点与第二节点以外的第一节点和第二节点中,继续执行选择初始匹配节点的步骤,直至剩余的第一节点与第二节点的相似度均小于相似度阈值,得到至少一对初始匹配...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。