基于匹配模型的短文本匹配方法、存储介质及电子装置制造方法及图纸

技术编号:35471665 阅读:16 留言:0更新日期:2022-11-05 16:17
本申请公开了一种基于匹配模型的短文本匹配方法、存储介质及电子装置,涉及智能家居/智慧家庭技术领域,方法包括:通过对文本进行分词,分别提取两个文本的关键词向量和权重向量,进而计算带权重的关键词相似度矩阵,优化原始Keyword

【技术实现步骤摘要】
基于匹配模型的短文本匹配方法、存储介质及电子装置


[0001]本申请涉及自然语言处理领域,具体而言,涉及一种基于匹配模型的短文本匹配方法、存储介质及电子装置。

技术介绍

[0002]在自然语言处理领域中通常会涉及短文本匹配任务,比如相似问题判断,问答系统等等。短文本匹配的任务难点有两个,一个是短,上下文等可以利用的信息较少,需要借助一些外部的知识来帮助机器理解。第二个难点是语言表达形式的多样性,导致问题对关键词信息比较敏感。现有的识别算法可对两个文本之间的关键词信息进行注意力机制的运算,以增强他们之间的互信息。但是,在匹配模型的训练过程中,通常需要引入新的训练任务以实现先验知识的融入,提升互信息,导致训练过程较复杂,且匹配准确率不高。
[0003]需要一种基于匹配模型的短文本匹配方法,以简化短文本匹配模型的训练过程,并提升短文本匹配的准确率。

技术实现思路

[0004]本申请提供一种基于匹配模型的短文本匹配方法、存储介质及电子装置,以简化短文本匹配模型的训练过程,并提升短文本匹配的准确率
[0005]第一方面,本申请提供一种基于匹配模型的短文本匹配方法,包括:
[0006]获取第一文本的第一关键词向量、第一词性向量以及第一权重向量;以及,获取第二文本的第二关键词向量、第二词性向量以及第二权重向量;
[0007]分别对所述第一权重向量和所述第二权重向量进行归一化处理,并针对归一化处理后的第一权重向量和第二权重向量,计算两者的关联度获得关键词相关性矩阵;以及,通过计算所述第一关键词向量和所述第二关键词向量的相似度,获得关键词相似度矩阵;
[0008]将所述关键词相关性矩阵和所述关键词相似度矩阵进行点乘计算,获得带权重的关键词相似度矩阵;
[0009]将所述第一文本和所述第二文本输入匹配模型,基于所述带权重的关键词相似度矩阵,获得所述匹配模型输出的所述第一文本和所述第二文本的短文本匹配结果。
[0010]可选的,所述匹配模型为关键词基于转换器的双向编码表征Keyword

BERT网络模型;所述匹配模型的嵌入层用于:根据所述第一关键词向量和所述第二关键词向量,获得数值形式的第三关键词向量;
[0011]所述匹配模型的首个注意力机制层用于:
[0012]根据所述第三关键词向量,获得查询矩阵、键矩阵和值矩阵;以及,根据所述查询矩阵和所述键矩阵,生成原始打分函数矩阵;
[0013]通过计算所述原始打分函数矩阵和所述带权重的关键词相似度矩阵的点乘结果,获得优化后的打分函数矩阵;
[0014]对所述优化后的打分函数矩阵和掩膜矩阵进行归一化计算,输出所述归一化计算
的结果与所述值矩阵的乘积结果。
[0015]可选的,所述针对归一化处理后的第一权重向量和第二权重向量,计算两者的关联度获得关键词相关性矩阵,包括:
[0016]基于转置策略,对归一化处理后的第一权重向量或归一化处理后的第二权重向量进行转置处理;其中所述转置策略包括若归一化处理后的第一权重向量和第二权重向量均为行向量,则将所述归一化处理后的第一权重向量进行转置;若所述归一化处理后的第一权重向量和第二权重向量均为列向量,则将所述归一化处理后的第二权重向量进行转置;
[0017]将所述转置处理获得的第一权重向量与第二权重向量进行矩阵乘法,获得所述关键词相关性矩阵。
[0018]可选的,所述通过计算所述第一关键词向量和所述第二关键词向量的相似度,获得关键词相似度矩阵,包括:
[0019]若所述第一关键词向量和所述第二关键词向量中,各元素均为中文,则利用word2vec工具,计算所述第一关键词向量中的各关键词和所述第二关键词向量中的各关键词之间的相似度,获得所述关键词相似度矩阵;
[0020]若所述第一关键词向量和所述第二关键词向量中,各元素均为英文,则利用Hownet工具,计算所述第一关键词向量中的各关键词和所述第二关键词向量中的各关键词之间的相似度,获得所述关键词相似度矩阵。
[0021]可选的,所述第一相似度计算模块,还用于:
[0022]若所述第一关键词向量中的关键词与所述第二关键词向量中的关键词为同义词或同音词,则将同义词或同音词对应的元素的相似度设置为1。
[0023]第二方面,本申请提供一种基于匹配模型的短文本匹配装置,包括:
[0024]分词模块,用于获取第一文本的第一关键词向量、第一词性向量以及第一权重向量;以及,获取第二文本的第二关键词向量、第二词性向量以及第二权重向量;
[0025]第一相似度计算模块,用于分别对所述第一权重向量和所述第二权重向量进行归一化处理,并针对归一化处理后的第一权重向量和第二权重向量,计算两者的关联度获得关键词相关性矩阵;以及,通过计算所述第一关键词向量和所述第二关键词向量的相似度,获得关键词相似度矩阵;
[0026]第二相似度计算模块,用于将所述关键词相关性矩阵和所述关键词相似度矩阵进行点乘计算,获得带权重的关键词相似度矩阵;
[0027]匹配模块,用于将所述第一文本和所述第二文本输入匹配模型,基于所述带权重的关键词相似度矩阵,获得所述匹配模型输出的所述第一文本和所述第二文本的短文本匹配结果。
[0028]可选的,所述匹配模型为关键词基于转换器的双向编码表征Keyword

BERT网络模型;所述匹配模型的嵌入层用于:根据所述第一关键词向量和所述第二关键词向量,获得数值形式的第三关键词向量;
[0029]所述匹配模型的首个注意力机制层用于:
[0030]根据所述第三关键词向量,获得查询矩阵、键矩阵和值矩阵;以及,根据所述查询矩阵和所述键矩阵,生成原始打分函数矩阵;
[0031]通过计算所述原始打分函数矩阵和所述带权重的关键词相似度矩阵的点乘结果,
获得优化后的打分函数矩阵;
[0032]对所述优化后的打分函数矩阵和掩膜矩阵进行归一化计算,输出所述归一化计算的结果与所述值矩阵的乘积结果。
[0033]可选的,所述第一相似度计算模块,用于:
[0034]基于转置策略,对归一化处理后的第一权重向量或归一化处理后的第二权重向量进行转置处理;其中所述转置策略包括若归一化处理后的第一权重向量和第二权重向量均为行向量,则将所述归一化处理后的第一权重向量进行转置;若所述归一化处理后的第一权重向量和第二权重向量均为列向量,则将所述归一化处理后的第二权重向量进行转置;
[0035]将所述转置处理获得的第一权重向量与第二权重向量进行矩阵乘法,获得所述关键词相关性矩阵。
[0036]可选的,所述第一相似度计算模块,用于:
[0037]若所述第一关键词向量和所述第二关键词向量中,各元素均为中文,则利用word2vec工具,计算所述第一关键词向量中的各关键词和所述第二关键词向量中的各关键词之间的相似度,获得所述关键词相似度矩阵;
[0038]若所述第一关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于匹配模型的短文本匹配方法,其特征在于,包括:获取第一文本的第一关键词向量、第一词性向量以及第一权重向量;以及,获取第二文本的第二关键词向量、第二词性向量以及第二权重向量;分别对所述第一权重向量和所述第二权重向量进行归一化处理,并针对归一化处理后的第一权重向量和第二权重向量,计算两者的关联度获得关键词相关性矩阵;以及,通过计算所述第一关键词向量和所述第二关键词向量的相似度,获得关键词相似度矩阵;将所述关键词相关性矩阵和所述关键词相似度矩阵进行点乘计算,获得带权重的关键词相似度矩阵;将所述第一文本和所述第二文本输入匹配模型,基于所述带权重的关键词相似度矩阵,获得所述匹配模型输出的所述第一文本和所述第二文本的短文本匹配结果。2.根据权利要求1所述的方法,其特征在于,所述匹配模型为关键词基于转换器的双向编码表征Keyword

BERT网络模型;所述匹配模型的嵌入层用于:根据所述第一关键词向量和所述第二关键词向量,获得数值形式的第三关键词向量;所述匹配模型的首个注意力机制层用于:根据所述第三关键词向量,获得查询矩阵、键矩阵和值矩阵;以及,根据所述查询矩阵和所述键矩阵,生成原始打分函数矩阵;通过计算所述原始打分函数矩阵和所述带权重的关键词相似度矩阵的点乘结果,获得优化后的打分函数矩阵;对所述优化后的打分函数矩阵和掩膜矩阵进行归一化计算,输出所述归一化计算的结果与所述值矩阵的乘积结果。3.根据权利要求1所述的方法,其特征在于,所述针对归一化处理后的第一权重向量和第二权重向量,计算两者的关联度获得关键词相关性矩阵,包括:基于转置策略,对归一化处理后的第一权重向量或归一化处理后的第二权重向量进行转置处理;其中所述转置策略包括若归一化处理后的第一权重向量和第二权重向量均为行向量,则将所述归一化处理后的第一权重向量进行转置;若所述归一化处理后的第一权重向量和第二权重向量均为列向量,则将所述归一化处理后的第二权重向量进行转置;将所述转置处理获得的第一权重向量与第二权重向量进行矩阵乘法,获得所述关键词相关性矩阵。4.根据权利要求1

3任一项所述的方法,其特征在于,所述通过计算所述第一关键词向量和所述第二关键词向量的相似度,获得关键词相似度矩阵,包括:若所述第一关键词向量和所述第二关键词向量中,各元素均为中文,则利用word2ve...

【专利技术属性】
技术研发人员:孙树兵苑春明
申请(专利权)人:海尔智家股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1