一种匹配语句确定方法、装置、设备及存储介质制造方法及图纸

技术编号:24889410 阅读:33 留言:0更新日期:2020-07-14 18:16
本发明专利技术实施例公开了一种匹配语句确定方法、装置、设备及存储介质,其中,匹配语句确定方法包括:通过根据预设候选语句确定规则,从预设语句集合中确定与目标语句相对应的候选语句;确定目标语句与候选语句之间的至少两个相似度特征;基于至少两个相似度特征和候选语句,确定与目标语句匹配的匹配语句并展示。本发明专利技术实施例的技术方案结合目标语句与候选问句之间的多个相似度特征,确定目标语句的匹配语句,提高了匹配语句的精确度。

【技术实现步骤摘要】
一种匹配语句确定方法、装置、设备及存储介质
本专利技术实施例涉及自然语言处理
,尤其涉及一种匹配语句确定方法、装置、终端及存储介质。
技术介绍
语句匹配技术尤其是问句匹配技术,在客户服务、销售咨询等
广泛应用。现有的语句匹配方法通常有两种,一是基于传统统计模型的匹配方法,该方法仅能通过词频TF和逆文本词频IDF确定语句中词的相似度,匹配精确度较低;二是基于深度学习的语义匹配模型,该方法仅考虑语句的句义相似度特征,无法解决语句信息缺失带来的歧义问题,导致匹配结果不精确。
技术实现思路
本专利技术提供一种匹配语句确定方法、装置、终端及存储介质,能够更加精确地确定与目标语句相匹配的匹配语句。第一方面,本专利技术实施例提供了一种匹配语句确定方法,所述方法包括:根据预设候选语句确定规则,从预设语句集合中确定与目标语句相对应的候选语句;确定所述目标语句与所述候选语句之间的至少两个相似度特征;基于至少两个相似度特征和所述候选语句,确定与所述目标语句匹配的匹配语句并展示。第二方面,本专利技术实施例还提供了一种匹配语句确定装置,所述装置包括:候选语句确定模块,用于根据预设候选语句确定规则,从预设语句集合中确定与目标语句相对应的候选语句;至少两个相似度特征确定模块,用于确定所述目标语句与所述候选语句之间的至少两个相似度特征;匹配语句确定并展示模块,用于基于至少两个相似度特征和所述候选语句,确定与所述目标语句匹配的匹配语句并展示。>第三方面,本专利技术实施例还提供了一种计算机设备,所述计算机设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任一实施例所述的匹配语句确定方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本专利技术任一实施例所述的匹配语句确定方法。本专利技术实施例通过根据预设候选语句确定规则,从预设语句集合中确定与目标语句相对应的候选语句;确定目标语句与候选语句之间的至少两个相似度特征;基于至少两个相似度特征和候选语句,确定与目标语句匹配的匹配语句并展示,结合目标语句与候选问句之间的多个相似度特征,确定目标语句的匹配语句,提高了匹配语句的精确度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例一中的一种匹配语句确定方法的流程图;图2a是本专利技术实施例二中的一种匹配语句确定方法的流程图;图2b是本专利技术实施例二中的一种确定上文相似度特征的示意图;图2c是本专利技术实施例二中的一种BERT模型的结构示意图;图2d是本专利技术实施例二中的一种BERT模型的正例样本输入示意图;图3是本专利技术实施例三中的一种匹配语句确定装置的结构示意图;图4是本专利技术实施例四中的计算机设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种匹配语句确定方法的流程图,本实施例可适用于需要确定与目标语句相匹配的匹配语句的情况,该方法可以由匹配语句确定装置来执行,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于计算机设备中。如图1所示,本实施例的方法具体包括:S110、根据预设候选语句确定规则,从预设语句集合中确定与目标语句相对应的候选语句。其中,预设候选语句确定规则可以是基于语句之间的各种语义相似度确定的规则,其中,相似度特征可以是基于语句中字词确定的语义相似度,也可以是基于语句上下文确定的语义相似度,还可以是基于语句中句义确定的语义相似度等。预设候选语句确定规则优选可以是将语义相似度值处于预设范围内的预设语句作为候选语句,也可以是将语义相似度值最大的预设数目个预设语句作为候选语句等。本实施例的应用场景主要是人机交互,例如可以应用于金融机构(例如银行)中的自助业务办理机器人系统,也可以应用于银行理财智能客服系统,还可以应用于用来娱乐的机器人系统(例如可以是模仿用户说话的机器人,可以是解题机器人等)等。上述应用于金融机构中的自助业务办理机器人系统、银行理财智能客服系统以及用来娱乐的机器人系统可以是智能问答系统,也可以是非智能问答系统。基于此,目标语句可以是问句,可以是陈述句,也可以是感叹句等(本实施例不作特殊限定)。目标语句优选可以是用户通过各系统的语音获取装置输入的语句。预设语句集合可以由相关领域内的若干具体话题组成,同一具体话题下可以包括若干相似语句。如果预设语句集合应用于智能问答系统,则在同一具体话题下,除了可以包括若干相似问句之外,还可以包括各问句对应的同一答案,优选的,可以在同一话题下,将若干相似问句映射到同一答案进行存储。候选语句是根据预设候选语句确定规则,从预设语句集合中确定出来的,其可以是一个也可以是多个,其在语义上与目标语句存在一定程度的相似性。S120、确定目标语句与候选语句之间的至少两个相似度特征。本实施例中的相似度特征指的是两个语句之间的语义相似度特征,即在语义上,两个语句之间存在一定的相似性。这种相似性可以用多个特征维度进行描述,即两个语句之间可以存在多个语义相似度特征。如果仅采用一种相似度特征来描述两个语句在语义上的相似性,会比结合多个相似度特征来描述两个语句在语义上的相似性的精确度差,因此,本实施例中采用目标语句与候选语句之间的至少两个相似度特征来描述目标语句与候选语句之间的的相似性。优选的,本实施例中的相似度特征可以包括文字相似度特征、词语相似度特征、上文相似度特征和句义相似度特征中的至少两个,其中,文字相似度特征优选可以表示目标语句与候选语句之间在单个文字上的相似性;词语相似度特征优选可以表示目标语句与候选语句之间在词语上的相似性;上文相似度特征优选可以表示目标语句的上文信息与候选语句之间的相似性,该相似性可以是文字上的相似性,可以是词语上的相似性,也可以是句义上的相似性;句义相似度特征优选可以表示表示目标语句与候选语句之间在语句意义上的相似性。S130、基于至少两个相似度特征和候选语句,确定与目标语句匹配的匹配语句并展示。匹配语句可以是符合预设匹配条件的语句,其可以是候选语句中的语句,也可以是预先设定的备选语句,相应的,展示给用户的内容可以是候选语句中的语句或者备选语句。如果目标语句为问句,则匹配语句除了可以包括候选语句中的语句或者备选语句之外,还本文档来自技高网...

【技术保护点】
1.一种匹配语句确定方法,其特征在于,包括:/n根据预设候选语句确定规则,从预设语句集合中确定与目标语句相对应的候选语句;/n确定所述目标语句与所述候选语句之间的至少两个相似度特征;/n基于至少两个相似度特征和所述候选语句,确定与所述目标语句匹配的匹配语句并展示。/n

【技术特征摘要】
1.一种匹配语句确定方法,其特征在于,包括:
根据预设候选语句确定规则,从预设语句集合中确定与目标语句相对应的候选语句;
确定所述目标语句与所述候选语句之间的至少两个相似度特征;
基于至少两个相似度特征和所述候选语句,确定与所述目标语句匹配的匹配语句并展示。


2.根据权利要求1所述的方法,其特征在于,所述至少两个相似度特征包括文字相似度特征、上文相似度特征和句义相似度特征中的至少两个。


3.根据权利要求2所述的方法,其特征在于,根据预设候选语句确定规则,从预设语句集合中确定与目标语句相对应的候选语句,包括:
利用BM25算法,确定预设语句集合中每个预设语句与所述目标语句之间的第一BM25值;
根据所述第一BM25值对所述每个预设语句进行降序排列,将前预设数目个预设语句作为候选语句;
相应的,若所述至少两个相似度特征包括文字相似度特征,则确定所述目标语句与所述候选语句之间的至少两个相似度特征,包括:
将所述候选语句对应的第一BM25值作为所述目标语句与所述候选语句之间的文字相似度特征。


4.根据权利要求3所述的方法,其特征在于,所述BM25算法的具体表达式如下所示:






其中,所述score(D,Q)为所述第一BM25值,所述D为所述预设语句,所述Q为所述目标语句,所述qi为所述目标语句中的第i个文字,所述n为所述目标语句中的文字总数,ω为文字权重,f(qi,D)为qi在所述预设语句中出现的频率,k1和b为可调参数,|D|为所述预设语句D中以字为单位的长度,avgdl为所有候选语句的平均长度,N为所述预设语句集合中预设语句的总数目,n(qi)为所述预设语句集合中,包含qi的预设语句总数目,fillerwords为填充词,contentwords为内容词。


5.根据权利要3所述的方法,其特征在于,若所述至少两个相似度特征还包括上文相似度特征,则确定所述目标语句与所述候选语句之间的至少两个相似度特征,包括:
确定符合预设条件的上文对话文本,所述上文对话文本为所述目标语句的上文对话文本;
提取所述上文对话文本与所述目标语句的领域关键词,得到第一领域关键词集合;
针对所述候选语句中的每个候选语句,提取所述候选语句的领域关键词,得到第二...

【专利技术属性】
技术研发人员:李宸付博顾远袁晟君王雪张晨谢隆飞李亚雄
申请(专利权)人:中国建设银行股份有限公司建信金融科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1