一种语义匹配方法及装置制造方法及图纸

技术编号:25637854 阅读:14 留言:0更新日期:2020-09-15 21:30
本申请涉及语义匹配技术领域,尤其涉及一种语义匹配方法及装置,获取待匹配问题语句;基于已训练的第一语义匹配模型,以待匹配问题语句和各个目标答案语句为输入参数,分别确定待匹配问题语句的第一待匹配问题语义概率分布,以及各个目标答案语句的答案语义概率分布;根据确定出的第一待匹配问题语义概率分布,以及确定出的各个答案语义概率分布,分别确定待匹配问题语句与各个目标答案语句之间的第一语义相似度;根据确定出的各个第一语义相似度,从各个目标答案语句中确定出与待匹配问题语句匹配的目标答案语句,这样,通过概率分布来表示待匹配问题语句和目标答案语句的语义,进而实现语义匹配,能够提高语义匹配的准确性。

【技术实现步骤摘要】
一种语义匹配方法及装置
本申请涉及语义匹配
,尤其涉及一种语义匹配方法及装置。
技术介绍
目前,语义匹配的应用非常广泛,例如,可以应用于智能文字客服、智能语音客服以及智能保险顾问等领域中,当用户输入问题语句之后,智能客服能够根据问题语句进行语义匹配,并输出相应的答案语句,因此,如何能够实现语义匹配,成为了一个亟待解决的问题。现有技术中,通常可以通过将问题语句和答案语句通过特征向量表示,并通过特征向量进行语义匹配,但是,由于特征向量是确定性的一种矢量,而实际中用户的问题语句的语义通常是非确定性的,且有一定的概率性,因此,通过确定的特征向量来表示问题语句和答案语句的语义,会降低语义匹配的准确性。
技术实现思路
本申请实施例提供一种语义匹配方法及装置,以提高语义匹配的准确性。本申请实施例提供的具体技术方案如下:一种语义匹配方法,包括:获取待匹配问题语句;基于已训练的第一语义匹配模型,以所述待匹配问题语句和各个目标答案语句为输入参数,分别确定所述待匹配问题语句的第一待匹配问题语义概率分布,以及所述各个目标答案语句的答案语义概率分布,其中,预先存储有多个目标问题语句和目标答案语句对;根据确定出的所述第一待匹配问题语义概率分布,以及确定出的各个答案语义概率分布,分别确定所述待匹配问题语句与所述各个目标答案语句之间的第一语义相似度;根据确定出的各个第一语义相似度,从所述各个目标答案语句中确定出与所述待匹配问题语句匹配的目标答案语句。可选的,根据确定出的所述第一待匹配问题语义概率分布,以及确定出的各个答案语义概率分布,分别确定所述待匹配问题语句与所述各个目标答案语句之间的第一语义相似度,具体包括:分别计算所述第一待匹配问题语义概率分布和确定出的各个答案语义概率分布之间的交叉熵,获得所述第一待匹配问题语义概率分布与所述各个答案语义概率分布之间的第一分布距离;分别将获得的各个第一分布距离,作为对应的所述待匹配问题语句与目标答案语句之间的第一语义相似度。可选的,获取待匹配问题语句之后,进一步包括:对所述待匹配问题语句进行关键词提取,获得所述待匹配问题语句的关键词;根据所述关键词,筛选出前预设数个、与所述待匹配问题语句相似度最高的目标问题语句;根据筛选出的各个目标问题语句,分别确定出与筛选出的各个目标问题语句对应的目标答案语句。可选的,进一步包括:基于已训练的第二语义匹配模型,以所述待匹配问题语句和所述各个目标问题语句为输入参数,分别确定所述待匹配问题语句的第二待匹配问题语义概率分布,以及所述各个目标问题语句的问题语义概率分布;分别计算所述第二待匹配问题语义概率分布和确定出的各个问题语义概率分布之间的内积,获得所述第二待匹配问题语义概率分布与所述各个问题语义概率分布之间的第二分布距离;分别将获得的各个第二分布距离,作为对应的所述待匹配问题语句与目标问题语句之间的第二语义相似度。可选的,根据确定出的各个第一语义相似度,从所述各个目标答案语句中确定出与所述待匹配问题语句匹配的目标答案语句,具体包括:分别将确定出的各个第一语义相似度与对应的第二语义相似度进行加权平均,确定出各个平均语义相似度;确定出平均语义相似度最高对应的目标答案语句,并作为所述待匹配问题语句匹配到的答案语句。可选的,所述第一语义匹配模型的训练方式为:获取第一正例样本集,其中,所述正例样本集中包括多个问题语句样本和答案语句样本对;分别将所述各个问题语句样本与各个对应非配对的答案语句样本进行组合,获得第一负例样本集;将所述第一正例样本集和所述第一负例样本集输入到所述第一语义匹配模型中进行训练,分别计算所述第一正例样本集中的问题语句样本的概率分布与对应的答案语句样本的概率分布之间的交叉熵,获得所述第一正例样本集中的问题语句样本与对应的答案语句样本之间的语义相似度,并分别计算所述第一负例样本集中的问题语句样本的概率分布与对应的非匹配答案语句样本的概率分布之间的交叉熵,获得所述第一负例样本集中的问题语句样本与对应的非匹配答案语句样本之间的语义相似度,直至所述第一语义匹配模型的目标函数收敛,获得训练完成的第一语义匹配模型,其中,所述目标函数为所述第一正例样本集和所述第一负例样本集之间的损失函数最小化,所述第一语义匹配模型用于使所述第一正例样本集中问题语句样本的概率分布和答案语句样本的概率分布之间的分布距离最小,使所述第一负例样本集中问题语句样本的概率分布和答案语句样本的概率分布之间的分布距离最大。可选的,所述第二语义匹配模型的训练方式为:获取第二正例样本集,其中,所述第二正例样本集中包括多个问题语句样本对,所述问题语句样本对中的问题语句样本的语义相同;分别将所述各个问题语句样本与各个对应非配对的问题语句样本进行组合,获得第二负例样本集;将所述第二正例样本集和所述第二负例样本集输入到所述第二语义匹配模型中进行训练,分别计算所述第二正例样本集中的问题语句样本对中的问题语句样本的概率分布之间的内积,获得所述第二正例样本集的问题语句样本对中的问题语句样本之间的语义相似度,并分别计算所述第二负例样本集中的问题语句样本对中的问题语句样本的概率分布之间的内积,获得所述第二负例样本集的问题语句样本对中的问题语句样本之间的语义相似度,直至所述第二语义匹配模型的目标函数收敛,获得训练完成的第二语义匹配模型,其中,所述目标函数为所述第二正例样本集和所述第二负例样本集之间的损失函数最小化,所述第二语义匹配模型用于使所述第二正例样本集的问题语句样本对中的问题语句样本的概率分布之间的分布距离最小,使第二所述负例样本集的问题语句样本对中的问题语句样本的概率分布之间的分布距离最大。一种语义匹配装置,包括:第一获取模块,用于获取待匹配问题语句;第一语义匹配模块,用于基于已训练的第一语义匹配模型,以所述待匹配问题语句和各个目标答案语句为输入参数,分别确定所述待匹配问题语句的第一待匹配问题语义概率分布,以及所述各个目标答案语句的答案语义概率分布,其中,预先存储有多个目标问题语句和目标答案语句对;根据确定出的所述第一待匹配问题语义概率分布,以及确定出的各个答案语义概率分布,分别确定所述待匹配问题语句与所述各个目标答案语句之间的第一语义相似度;根据确定出的各个第一语义相似度,从所述各个目标答案语句中确定出与所述待匹配问题语句匹配的目标答案语句。可选的,根据确定出的所述第一待匹配问题语义概率分布,以及确定出的各个答案语义概率分布,分别确定所述待匹配问题语句与所述各个目标答案语句之间的第一语义相似度时,语义匹配模块具体用于:分别计算所述第一待匹配问题语义概率分布和确定出的各个答案语义概率分布之间的交叉熵,获得所述第一待匹配问题语义概率分布与所述各个答案语义概率分布之间的第一分布距离;分别将获得的各个第一分布距离,作为对应的所述待匹配问题语句与目标答案本文档来自技高网...

【技术保护点】
1.一种语义匹配方法,其特征在于,包括:/n获取待匹配问题语句;/n基于已训练的第一语义匹配模型,以所述待匹配问题语句和各个目标答案语句为输入参数,分别确定所述待匹配问题语句的第一待匹配问题语义概率分布,以及所述各个目标答案语句的答案语义概率分布,其中,预先存储有多个目标问题语句和目标答案语句对;/n根据确定出的所述第一待匹配问题语义概率分布,以及确定出的各个答案语义概率分布,分别确定所述待匹配问题语句与所述各个目标答案语句之间的第一语义相似度;/n根据确定出的各个第一语义相似度,从所述各个目标答案语句中确定出与所述待匹配问题语句匹配的目标答案语句。/n

【技术特征摘要】
1.一种语义匹配方法,其特征在于,包括:
获取待匹配问题语句;
基于已训练的第一语义匹配模型,以所述待匹配问题语句和各个目标答案语句为输入参数,分别确定所述待匹配问题语句的第一待匹配问题语义概率分布,以及所述各个目标答案语句的答案语义概率分布,其中,预先存储有多个目标问题语句和目标答案语句对;
根据确定出的所述第一待匹配问题语义概率分布,以及确定出的各个答案语义概率分布,分别确定所述待匹配问题语句与所述各个目标答案语句之间的第一语义相似度;
根据确定出的各个第一语义相似度,从所述各个目标答案语句中确定出与所述待匹配问题语句匹配的目标答案语句。


2.如权利要求1所述的方法,其特征在于,根据确定出的所述第一待匹配问题语义概率分布,以及确定出的各个答案语义概率分布,分别确定所述待匹配问题语句与所述各个目标答案语句之间的第一语义相似度,具体包括:
分别计算所述第一待匹配问题语义概率分布和确定出的各个答案语义概率分布之间的交叉熵,获得所述第一待匹配问题语义概率分布与所述各个答案语义概率分布之间的第一分布距离;
分别将获得的各个第一分布距离,作为对应的所述待匹配问题语句与目标答案语句之间的第一语义相似度。


3.如权利要求1所述的方法,其特征在于,获取待匹配问题语句之后,进一步包括:
对所述待匹配问题语句进行关键词提取,获得所述待匹配问题语句的关键词;
根据所述关键词,筛选出前预设数个、与所述待匹配问题语句相似度最高的目标问题语句;
根据筛选出的各个目标问题语句,分别确定出与筛选出的各个目标问题语句对应的目标答案语句。


4.如权利要求3所述的方法,其特征在于,进一步包括:
基于已训练的第二语义匹配模型,以所述待匹配问题语句和所述各个目标问题语句为输入参数,分别确定所述待匹配问题语句的第二待匹配问题语义概率分布,以及所述各个目标问题语句的问题语义概率分布;
分别计算所述第二待匹配问题语义概率分布和确定出的各个问题语义概率分布之间的内积,获得所述第二待匹配问题语义概率分布与所述各个问题语义概率分布之间的第二分布距离;
分别将获得的各个第二分布距离,作为对应的所述待匹配问题语句与目标问题语句之间的第二语义相似度。


5.如权利要求4所述的方法,其特征在于,根据确定出的各个第一语义相似度,从所述各个目标答案语句中确定出与所述待匹配问题语句匹配的目标答案语句,具体包括:
分别将确定出的各个第一语义相似度与对应的第二语义相似度进行加权平均,确定出各个平均语义相似度;
确定出平均语义相似度最高对应的目标答案语句,并作为所述待匹配问题语句匹配到的答案语句。


6.如权利要求1所述的方法,其特征在于,所述第一语义匹配模型的训练方式为:
获取第一正例样本集,其中,所述正例样本集中包括多个问题语句样本和答案语句样本对;
分别将所述各个问题语句样本与各个对应非配对的答案语句样本进行组合,获得第一负例样本集;
将所述第一正例样本集和所述第一负例样本集输入到所述第一语义匹配模型中进行训练,分别计算所述第一正例样本...

【专利技术属性】
技术研发人员:闫永泽刘设伟杜维陈利琴
申请(专利权)人:泰康保险集团股份有限公司泰康在线财产保险股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1