一种短文本匹配方法、装置及存储介质制造方法及图纸

技术编号:29133384 阅读:18 留言:0更新日期:2021-07-02 22:28
本发明专利技术提供了一种短文本匹配方法、装置及存储介质,该方法包括:使用深度学习框架搭建基于GRU网络的词向量序列匹配模型;利用预先收集的标注有匹配标记的语料样本,对所述基于GRU网络的词向量序列匹配模型进行训练;其中,每一语料样本中包括两个短文本;确定两个待匹配短文本各自对应的词向量序列,将两个待匹配短文本各自对应的词向量序列输入训练好的基于GRU网络的词向量序列匹配模型,得到两个待匹配文本的相似度。本发明专利技术能够保证匹配准确度的情况下减少模型训练时间。

【技术实现步骤摘要】
一种短文本匹配方法、装置及存储介质
本专利技术涉及信息处理
,特别涉及一种短文本匹配方法、装置及存储介质。
技术介绍
聊天机器人被广泛地应用于各种领域,尤其是电商客服领域、虚拟助理领域等。在电商客服领域,聊天机器人可以提供24小时购物引导、订单服务、售后服务和聊天服务等,这样极大地减轻客服工作量、节省人力成本以及提升了服务质量。短文本匹配是聊天机器人设计开发中最常见和最重要的任务之一,聊天机器人问答系统中,输入新文本和对话库内已有句子进行匹配,匹配完成后选取匹配概率最大的问句即可输出对应问题答案。现有短文本匹配方法主要有基于最小编辑距离的短文本匹配方法、基于平均词向量的短文本匹配方法、基于LSTM的(LongShortTermMemery)短文本匹配方法等,其中,前两种短文本匹配方法准确度不高,最后一种方法相对于前两种方法,匹配准确度有一定的提升,但由于LSTM网络/模型构造复杂,参数较多,因此模型训练时间特别长。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种短文本匹配方法、装置及存储介质,能够保证匹配准确度的情况下减少模型训练时间。为了达到上述目的,本专利技术提供了如下技术方案:一种短文本匹配方法,包括:使用深度学习框架搭建基于GRU网络的词向量序列匹配模型;利用预先收集的标注有匹配标记的语料样本,对所述基于GRU网络的词向量序列匹配模型进行训练;其中,每一语料样本中包括两个短文本;确定两个待匹配短文本各自对应的词向量序列,将两个待匹配短文本各自对应的词向量序列输入训练好的基于GRU网络的词向量序列匹配模型,得到两个待匹配文本的相似度。一种短文本匹配装置,包括:搭建单元、训练单元、匹配单元、确定单元;所述搭建单元,用于使用深度学习框架搭建基于GRU网络的词向量序列匹配模型;所述训练单元,利用预先收集的标注有匹配标记的语料样本,对所述基于GRU网络的词向量序列匹配模型进行训练;其中,每一语料样本中包括两个短文本;所述匹配单元,用于指示所述确定单元确定两个待匹配短文本各自对应的词向量序列,将两个待匹配短文本各自对应的词向量序列输入训练好的基于GRU网络的词向量序列匹配模型,得到两个待匹配文本的相似度。一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通过总线相连的存储器;所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序;所述至少一个处理器执行所述一个或多个计算机程序时实现上述短文本匹配方法中的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个计算机程序,所述一个或多个计算机程序被处理器执行时实现上述短文本匹配方法。由上面的技术方案可知,本专利技术中,使用深度学习框架搭建基于GRU网络的词向量序列匹配模型并利用收集的语料样本进行训练,并利用训练好的模型确定两个待匹配短文本的相似度。本专利技术提供的技术方案中,由于GUN网络/模型相对于LSTM网络/模型,构造较为简单,参数较少,模型训练时间比较短,因此相对于现有基于LSTM的短文本匹配方法,能够保证匹配准确度的情况下减少模型训练时间。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例一短文本匹配方法流程图;图2是本专利技术实施例二短文本匹配方法流程图;图3是本专利技术实施例一基于GRU网络的词向量序列匹配模型示意图;图4是本专利技术实施例对短文本的预处理和切词处理过程示意图;图5是本专利技术实施例词列表到词向量序列的转换过程示意图;图6是本专利技术实施例一短文本匹配过程示意图。图7是本专利技术实施例GRU网络/模型示意图;图8是本专利技术实施例三短文本匹配方法流程图;图9是本专利技术实施例二基于GRU网络的词向量序列匹配模型示意图;图10是本专利技术实施例二短文本匹配过程示意图;图11是本专利技术实施例短文本匹配装置的结构示意图;图12是本专利技术实施例提供的电子设备的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本专利技术中,针对LSTM网络/模型训练时间过长的缺陷,利用门控循环单元(GatedRecurrentUnit,GRU)替代LSTM进行模型搭建和训练,能够在保证匹配准确度的情况下减少模型训练时间。以下结合具体的实施例对本专利技术的实现方案进行详细介绍:实施例一参见图1,图1是本专利技术实施例一短文本匹配方法流程图,如图1所示,该方法主要包括以下步骤:步骤101、使用深度学习框架搭建基于GRU网络的词向量序列匹配模型。步骤102、利用预先收集的标注有匹配标记的语料样本,对所述基于GRU网络的词向量序列匹配模型进行训练;其中,每一语料样本中包括两个短文本;步骤103、确定两个待匹配短文本各自对应的词向量序列,将两个待匹配短文本各自对应的词向量序列输入训练好的基于GRU网络的词向量序列匹配模型,得到两个待匹配文本的相似度。图1所示本专利技术实施例中,使用深度学习框架搭建基于GRU网络的词向量序列匹配模型并使用预先收集的语料样本进行训练,由于基于GRU网络/模型相对于LSTM网络/模型的词向量序列匹配模型结构较为简单,参数也比较少,因此训练速度比较快,模型训练时间比较短。实施例二参见图2,图2是本专利技术实施例二短文本匹配方法流程图,如图2所示,该方法主要包括以下步骤:步骤2011、配置两个GRU网络,对该两个GRU网络进行输入设置和输出设置,其中,每一GRU网络的输入是一个短文本对应的词向量序列,输出是该短文本对应的语义特征。步骤2012、配置一余弦距离计算模块,将该两个GUN网络输出作为所述余弦距离计算模块的输入。步骤2013、将所述余弦距离计算模块的输出作为搭建的词向量序列匹配模型的输出。以上三个步骤可实现图1所示步骤101的功能,即:使用深度学习框架搭建基于GRU网络的词向量序列匹配模型。通过以上三个步骤搭建的基于GRU网络的词向量序列匹配模型具体如图3所示,短文本1对应的词向量序列x1={x11,x12,x13,……,x1T}和短文本2对应的词向量序列x2={x21,x22,x23,……,x2T}分别被输入到模型中的两个GRU网络,两个GRU网络分别输出短文本1对应的语义特征和短文本2对应的语义特征,短文本1和短文本2对应的语义特征被送入余弦距离计算模块进行余弦距离运算,从而得到短文本1和短文本2的相似本文档来自技高网...

【技术保护点】
1.一种短文本匹配方法,其特征在于,该方法包括:/n使用深度学习框架搭建基于GRU网络的词向量序列匹配模型;/n利用预先收集的标注有匹配标记的语料样本,对所述基于GRU网络的词向量序列匹配模型进行训练;其中,每一语料样本中包括两个短文本;/n确定两个待匹配短文本各自对应的词向量序列,将两个待匹配短文本各自对应的词向量序列输入训练好的基于GRU网络的词向量序列匹配模型,得到两个待匹配文本的相似度。/n

【技术特征摘要】
1.一种短文本匹配方法,其特征在于,该方法包括:
使用深度学习框架搭建基于GRU网络的词向量序列匹配模型;
利用预先收集的标注有匹配标记的语料样本,对所述基于GRU网络的词向量序列匹配模型进行训练;其中,每一语料样本中包括两个短文本;
确定两个待匹配短文本各自对应的词向量序列,将两个待匹配短文本各自对应的词向量序列输入训练好的基于GRU网络的词向量序列匹配模型,得到两个待匹配文本的相似度。


2.根据权利要求1所述的方法,其特征在于,
利用深度学习框架搭建基于GRU网络的词向量序列匹配模型,包括:
配置两个GRU网络,对该两个GRU网络进行输入设置和输出设置,其中,每一GRU网络的输入是一个短文本对应的词向量序列,输出是该短文本对应的语义特征;
配置一余弦距离计算模块,将该两个GUN网络输出作为所述余弦距离计算模块的输入;
将所述余弦距离计算模块的输出作为搭建的词向量序列匹配模型的输出。


3.根据权利要求1所述的方法,其特征在于,
利用深度学习框架搭建基于GRU网络的词向量序列匹配模型,包括:
配置两个GRU网络,对该两个GRU网络进行输入设置和输出设置,其中,每一GRU网络的输入是一个短文本对应的词向量序列,输出是该短文本对应的语义特征;
配置一多层感知机,将该两个GUN网络输出作为所述多层感知机的输入;
配置一多分类器,将所述多层感知机的输出作为所述多分类器的输入;
将所述多分类器的输出作为搭建的词向量序列匹配模型的输出。


4.根据权利要求2或3所述的方法,其特征在于,
利用预先收集的标注有匹配标记的语料样本,对所述基于GRU网络的词向量序列匹配模型进行训练得到GRU模型,包括:
确定收集的每一语料样本中包括的每一短文本对应的词向量序列;
按照预设最大词向量序列长度对该短文本对应的词向量序列进行补零操作,使其与其它短文本对应的词向量序列保持相同长度;
利用每一语料样本中包括的两个短文本各自对应的经补零操作后的词向量序列,对所述基于GRU网络的词向量序列匹配模型进行训练得到GRU模型。


5.根据权利要求4所述的方法,其特征在于,
该方法进一步包括:在所述基于GRU网络的词向量序列匹配模型中的GRU网络所在的层之前套一层Embeding层或者Masking层,以对输入到所述GRU网络的词向量序列中所补的零进行过滤。


6.根据权利要求1或4所述的方法,其特征在于,
确定一短文本对应的词向量序列的方法为:
对该短文本进行预处理;
将经预处理后的该短文本进行切词得到该短文本对应的词列表;
将该短文本对应的词列表进行量化得到该短文本对应的词向量序列,并清除该短文本对应的词向量序列中的停用词对应的词向量。


7.根据权利要求6所述的方法,其特征在于,
对该短文本进行预处理,包括:
删除该短文本中拼写错误或内容重复的句子;
将该短文本中标点、数字和大小写不规范的英文字母过滤。


8.根据权利要求1所述的方法,其特征在于,
利用预先收集的标注有匹配标记的语料样本,对所述基于GRU网络的词向量序列匹配模型进行训练时,采用的损失函数为交叉熵损失函数,所述交叉熵损失函数具体为:

其中,loss是损失值,yi是标注的匹配标记,pi是每个语料样本中的两个短文本的匹配概率。


9.一种短文本匹配装置,其特征在于,该装置包括:搭建单元、训练单元、匹配单元、确定单元;
搭建单元,用于使用深度学习框架搭建基于GRU网络的词向量序列匹配模型;
训练单元,利用预先收集的标注有匹配标记的语料样本,对所述基于GRU网络的词向量序列匹配模型进行训练;其中,每一语料样本中包括两个短文本;
匹配单元,用...

【专利技术属性】
技术研发人员:仲伟
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1