【技术实现步骤摘要】
一种短文本匹配方法、装置及存储介质
本专利技术涉及信息处理
,特别涉及一种短文本匹配方法、装置及存储介质。
技术介绍
聊天机器人被广泛地应用于各种领域,尤其是电商客服领域、虚拟助理领域等。在电商客服领域,聊天机器人可以提供24小时购物引导、订单服务、售后服务和聊天服务等,这样极大地减轻客服工作量、节省人力成本以及提升了服务质量。短文本匹配是聊天机器人设计开发中最常见和最重要的任务之一,聊天机器人问答系统中,输入新文本和对话库内已有句子进行匹配,匹配完成后选取匹配概率最大的问句即可输出对应问题答案。现有短文本匹配方法主要有基于最小编辑距离的短文本匹配方法、基于平均词向量的短文本匹配方法、基于LSTM的(LongShortTermMemery)短文本匹配方法等,其中,前两种短文本匹配方法准确度不高,最后一种方法相对于前两种方法,匹配准确度有一定的提升,但由于LSTM网络/模型构造复杂,参数较多,因此模型训练时间特别长。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种短文本匹配方法、装置及存储介质,能够保证匹配准确度的情况下减少模型训练时间。为了达到上述目的,本专利技术提供了如下技术方案:一种短文本匹配方法,包括:使用深度学习框架搭建基于GRU网络的词向量序列匹配模型;利用预先收集的标注有匹配标记的语料样本,对所述基于GRU网络的词向量序列匹配模型进行训练;其中,每一语料样本中包括两个短文本;确定两个待匹配短文本各自对应的词向量序列,将两个待匹 ...
【技术保护点】
1.一种短文本匹配方法,其特征在于,该方法包括:/n使用深度学习框架搭建基于GRU网络的词向量序列匹配模型;/n利用预先收集的标注有匹配标记的语料样本,对所述基于GRU网络的词向量序列匹配模型进行训练;其中,每一语料样本中包括两个短文本;/n确定两个待匹配短文本各自对应的词向量序列,将两个待匹配短文本各自对应的词向量序列输入训练好的基于GRU网络的词向量序列匹配模型,得到两个待匹配文本的相似度。/n
【技术特征摘要】
1.一种短文本匹配方法,其特征在于,该方法包括:
使用深度学习框架搭建基于GRU网络的词向量序列匹配模型;
利用预先收集的标注有匹配标记的语料样本,对所述基于GRU网络的词向量序列匹配模型进行训练;其中,每一语料样本中包括两个短文本;
确定两个待匹配短文本各自对应的词向量序列,将两个待匹配短文本各自对应的词向量序列输入训练好的基于GRU网络的词向量序列匹配模型,得到两个待匹配文本的相似度。
2.根据权利要求1所述的方法,其特征在于,
利用深度学习框架搭建基于GRU网络的词向量序列匹配模型,包括:
配置两个GRU网络,对该两个GRU网络进行输入设置和输出设置,其中,每一GRU网络的输入是一个短文本对应的词向量序列,输出是该短文本对应的语义特征;
配置一余弦距离计算模块,将该两个GUN网络输出作为所述余弦距离计算模块的输入;
将所述余弦距离计算模块的输出作为搭建的词向量序列匹配模型的输出。
3.根据权利要求1所述的方法,其特征在于,
利用深度学习框架搭建基于GRU网络的词向量序列匹配模型,包括:
配置两个GRU网络,对该两个GRU网络进行输入设置和输出设置,其中,每一GRU网络的输入是一个短文本对应的词向量序列,输出是该短文本对应的语义特征;
配置一多层感知机,将该两个GUN网络输出作为所述多层感知机的输入;
配置一多分类器,将所述多层感知机的输出作为所述多分类器的输入;
将所述多分类器的输出作为搭建的词向量序列匹配模型的输出。
4.根据权利要求2或3所述的方法,其特征在于,
利用预先收集的标注有匹配标记的语料样本,对所述基于GRU网络的词向量序列匹配模型进行训练得到GRU模型,包括:
确定收集的每一语料样本中包括的每一短文本对应的词向量序列;
按照预设最大词向量序列长度对该短文本对应的词向量序列进行补零操作,使其与其它短文本对应的词向量序列保持相同长度;
利用每一语料样本中包括的两个短文本各自对应的经补零操作后的词向量序列,对所述基于GRU网络的词向量序列匹配模型进行训练得到GRU模型。
5.根据权利要求4所述的方法,其特征在于,
该方法进一步包括:在所述基于GRU网络的词向量序列匹配模型中的GRU网络所在的层之前套一层Embeding层或者Masking层,以对输入到所述GRU网络的词向量序列中所补的零进行过滤。
6.根据权利要求1或4所述的方法,其特征在于,
确定一短文本对应的词向量序列的方法为:
对该短文本进行预处理;
将经预处理后的该短文本进行切词得到该短文本对应的词列表;
将该短文本对应的词列表进行量化得到该短文本对应的词向量序列,并清除该短文本对应的词向量序列中的停用词对应的词向量。
7.根据权利要求6所述的方法,其特征在于,
对该短文本进行预处理,包括:
删除该短文本中拼写错误或内容重复的句子;
将该短文本中标点、数字和大小写不规范的英文字母过滤。
8.根据权利要求1所述的方法,其特征在于,
利用预先收集的标注有匹配标记的语料样本,对所述基于GRU网络的词向量序列匹配模型进行训练时,采用的损失函数为交叉熵损失函数,所述交叉熵损失函数具体为:
其中,loss是损失值,yi是标注的匹配标记,pi是每个语料样本中的两个短文本的匹配概率。
9.一种短文本匹配装置,其特征在于,该装置包括:搭建单元、训练单元、匹配单元、确定单元;
搭建单元,用于使用深度学习框架搭建基于GRU网络的词向量序列匹配模型;
训练单元,利用预先收集的标注有匹配标记的语料样本,对所述基于GRU网络的词向量序列匹配模型进行训练;其中,每一语料样本中包括两个短文本;
匹配单元,用...
【专利技术属性】
技术研发人员:仲伟,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。