确定语义匹配度的方法和装置制造方法及图纸

技术编号:13495926 阅读:151 留言:0更新日期:2016-08-07 20:28
本发明专利技术提供一种确定语义匹配度的方法和装置,该方法包括:获取第一语句和第二语句;将第一语句和第二语句分别划分成x和y个语句片段;将第一语句的每一语句片段中的词向量与第二语句的每一语句片段中的词向量进行卷积运算,得到三维张量;将x行y列一维向量中的相邻向量进行综合和/或筛选,直到将三维张量合并成一维的目标向量;根据目标向量,确定第一语句和第二语句的语义匹配度。本发明专利技术实施例中,按照语序将待匹配的语句划分成以词向量为单位的语句片段,两个语句中的语句片段之间两两求卷积,得到三维张量,该三维张量包含各语句之间的语句片段的局部匹配信息,基于该三维张量得到的语义匹配结果更准确。

【技术实现步骤摘要】

本专利技术涉及语义匹配领域,更为具体地,涉及一种确定语义匹配度的方法和装置
技术介绍
语义匹配技术已经成为自然语言处理的核心技术之一,而且已经在多个商业系统中扮演了重要角色,例如,语音助手(如Siri, GoogleNow),机器翻译(MachineTranslat1n),以及聊天机器人(如微软小冰)等。现有技术中,通常把待匹配的各语句分解成多个词向量,每个词向量具有固定的维数。在此基础上,待匹配的语句通过其所含词向量的线性叠加表示。两个语句的语义匹配度被描述成表示该两个语句的向量之间的内积。上述语义匹配方式虽然将语句分解成词向量,但分解成词向量的目的是求解整个语句对应的向量,最终仍是从整体上衡量两个语句的语义匹配度。这种语句整体匹配的方式将语句的所有信息通过一个向量表示,往往忽略了语句间局部语段的匹配程度对最终语义匹配结果的影响,导致匹配结果不准确。
技术实现思路
本专利技术实施例提供一种确定语义匹配度的方法和装置,以提高语义匹配的准确度。第一方面,提供一种确定语义匹配度的方法,包括:获取第一语句和第二语句,其中,所述第一语句和所述第二语句为待匹配的语句,所述第一语句包括a个词向量,所述第二语句包括b个词向量;以所述第一语句中的相邻的k个词向量为单位,将所述第一语句划分成X个语句片段,其中,所述X个语句片段中的第i语句片段包括所述第一语句中的第i个词向量至第i+k-Ι个词向量,其中X = a-k+Ι ;以所述第二语句中的相邻的t个词向量为单位,将所述第二语句划分成I个语句片段,其中,所述I个语句片段中的第j语句片段包括所述第二语句中的第j个词向量至第j+t-Ι个词向量,其中y = b-t+Ι ;将所述第一语句的每一语句片段中的词向量与所述第二语句的每一语句片段中的词向量进行卷积运算,得到三维张量,其中,所述三维张量包括X行y列一维向量,所述X行y列一维向量中的第i行第j列一维向量是所述第一语句的第i语句片段中的词向量和所述第二语句的第j语句片段中的词向量经过所述卷积运算后得到的结果;将所述X行I列一维向量中的相邻向量进行至少一次综合和/或至少一次筛选,不断缩减所述三维张量所包含的一维向量的个数,直到将所述三维张量合并成一维的目标向量;根据所述目标向量,确定所述第一语句和所述第二语句的语义匹配度。结合第一方面,在第一方面的一种实现方式中,所述将所述第一语句的每一语句片段中的词向量与所述第二语句的每一语句片段中的词向量进行卷积运算,得到三维张量,包括:将所述第一语句的每一语句片段中的k个词向量中的元素和所述第二语句的每一语句片段中的t个词向量中的元素首尾相连,得到Q个一维的组合向量,其中Q = xXy ;分别对所述Q个一维的组合向量进行所述卷积运算,得到所述三维张量,其中,所述三维张量中的第i行第j列一维向量是所述Q个一维的组合向量中的组合向量Tu经过所述卷积运算后得到的结果,其中,所述组合向量Tu由所述第一语句的第i语句片段中的词向量和所述第二语句的第j语句片段中的词向量组合而成。结合第一方面或其上述实现方式的任一种,在第一方面的另一种实现方式中,所述将所述X行y列一维向量中的相邻向量进行至少一次综合和/或至少一次筛选,不断缩减所述三维张量所包含的一维向量的个数,直到将所述三维张量合并成一维的目标向量,包括:将所述X行y列一维向量中的相邻向量进行交替地综合和筛选,不断缩减所述三维张量所包含的一维向量的个数,直到将所述三维张量合并成所述目标向量。结合第一方面或其上述实现方式的任一种,在第一方面的另一种实现方式中,所述将所述X行y列一维向量中的相邻向量进行至少一次综合和/或至少一次筛选,不断缩减所述三维张量所包含的一维向量的个数,直到将所述三维张量合并成一维的目标向量,包括:将所述X行y列一维向量中的相邻向量进行交替地综合和筛选,不断缩减所述三维张量所包含的一维向量的个数,直到将所述三维张量合并成目标张量;将所述目标张量包含的一维向量中的元素首尾相连,得到所述目标向量。结合第一方面或其上述实现方式的任一种,在第一方面的另一种实现方式中,所述综合为卷积运算,所述筛选为池化运算。结合第一方面或其上述实现方式的任一种,在第一方面的另一种实现方式中,所述将所述X行y列一维向量中的相邻向量进行至少一次综合和/或至少一次筛选,不断缩减所述三维张量所包含的一维向量的个数,直到将所述三维张量合并成一维的目标向量,包括:将所述X行y列一维向量中的每相邻的mXn个一维向量进行所述至少一次综合和/或至少一次筛选,不断缩减所述三维张量所包含的一维向量的个数,直到将所述三维张量合并成所述目标向量,其中,m ^ X, n ^ y0结合第一方面或其上述实现方式的任一种,在第一方面的另一种实现方式中,所述根据所述目标向量,确定所述第一语句和所述第二语句的语义匹配度,包括:根据所述目标向量,通过神经网络模型,确定所述第一语句和所述第二语句的语义匹配度。结合第一方面或其上述实现方式的任一种,在第一方面的另一种实现方式中,所述根据所述目标向量,通过神经网络模型,确定所述第一语句和所述第二语句的语义匹配度,包括:根据所述目标向量,通过多层感知机MLP模型,得到所述第一语句和所述第二语句的语义匹配度。结合第一方面或其上述实现方式的任一种,在第一方面的另一种实现方式中,所述根据所述目标向量,确定所述第一语句和所述第二语句的语义匹配度,包括:根据所述目标向量中各元素的权重,对所述目标向量中的各元素进行加权求和,得到所述第一语句和所述第二语句的语义匹配度。第二方面,提供一种确定语义匹配度的装置,包括:获取单元,用于获取第一语句和第二语句,其中,所述第一语句和所述第二语句为待匹配的语句,所述第一语句包括a个词向量,所述第二语句包括b个词向量;第一划分单元,用于以所述第一语句中的相邻的k个词向量为单位,将所述第一语句划分成X个语句片段,其中,所述X个语句片段中的第i语句片段包括所述第一语句中的第i个词向量至第i+k-Ι个词向量,其中X = a-k+Ι ;第二划分单元,用于以所述第二语句中的相邻的t个词向量为单位,将所述第二语句划分成y个语句片段,其中,所述y个语句片段中的第j语句片段包括所述第二语句中的第j个词向量至第j+t-Ι个词向量,其中I = b-t+Ι ;运算单元,用于将所述第一语句的每一语句片段中的词向量与所述第二语句的每一语句片段中的词向量进行卷积运算,得到三维张量,其中,所述三维张量包括X行y列一维向量,所述X行y列一维向量中的第i行第j列一维向量是所述第一语句的第i语句片段中的词向量和所述第二语句的第j语句片段中的词向量经过所述卷积运算后得到的结果;合并单元,用于将所述X行I列一维向量中的相邻向量进行至少一次综合和/或至少一次筛选,不断缩减所述三维张量所包含的一维向量的个数,直到将所述三维张量合并成一维的目标向量;确定单元,用于根据所述目标向量,确定所述第一语句和所述第二语句的语义匹配度。结合第二方面,在第二方面的一种实现方式中,所述运算单元具体用于将所述第一语句的每一语句片段中的k个词向量中的元素和所述第二语句的每一语句片段中的t个词向量中的元素首尾相连,得到Q个一维的组合向量,其中Q = xXy ;分别对所述Q个一维的本文档来自技高网...

【技术保护点】
一种确定语义匹配度的方法,其特征在于,包括:获取第一语句和第二语句,其中,所述第一语句和所述第二语句为待匹配的语句,所述第一语句包括a个词向量,所述第二语句包括b个词向量;以所述第一语句中的相邻的k个词向量为单位,将所述第一语句划分成x个语句片段,其中,所述x个语句片段中的第i语句片段包括所述第一语句中的第i个词向量至第i+k‑1个词向量,其中x=a‑k+1;以所述第二语句中的相邻的t个词向量为单位,将所述第二语句划分成y个语句片段,其中,所述y个语句片段中的第j语句片段包括所述第二语句中的第j个词向量至第j+t‑1个词向量,其中y=b‑t+1;将所述第一语句的每一语句片段中的词向量与所述第二语句的每一语句片段中的词向量进行卷积运算,得到三维张量,其中,所述三维张量包括x行y列一维向量,所述x行y列一维向量中的第i行第j列一维向量是所述第一语句的第i语句片段中的词向量和所述第二语句的第j语句片段中的词向量经过所述卷积运算后得到的结果;将所述x行y列一维向量中的相邻向量进行至少一次综合和/或至少一次筛选,不断缩减所述三维张量所包含的一维向量的个数,直到将所述三维张量合并成一维的目标向量;根据所述目标向量,确定所述第一语句和所述第二语句的语义匹配度。...

【技术特征摘要】

【专利技术属性】
技术研发人员:吕正东李航
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1