【技术实现步骤摘要】
创建语义键索引的方法及系统
本专利技术涉及人工智能领域,尤其涉及一种创建语义键索引的方法及系统。
技术介绍
机器学习的研究进展加快了语音对话系统的发展。语音对话系统的交互能力带来了越来越多的语音对话应用,其中,最能体现语音对话系统的功能的就是聊天机器人,通过根据研发者设置的回答方法,当聊天机器人接收到一个对话时,它会通过算法,找到贴切的答案,进行输出回复。而这算法一般而言,现如今有两种主要技术:1、传统的基于检索技术的检索式模型;2、基于深度学习技术的生成式模型。其中,基于检索技术的检索式模型主要通过手机网上的论坛、微博或是网站里出现过的对话句子,构建大规模的对话数据库,当用户给出一个句子时,系统会从语料库里找到一个跟这个句子最相像的句子,而这个最相像的句子对应的答复就可以直接输出作为输出句子反馈给用户;但是基于检索技术的检索式模型,需要维护一个大型的语料库,机器回复的句子限制在语料库中,使得在语料库中检索的回复语句必然是语料库中的语句,而无法出现新的回复;并且由于采取问句匹配的方法寻找相像语句的对应回复,使得生成的回复内容单一,对于同样的输入语句,往往生成相同的 ...
【技术保护点】
一种创建语义键索引的方法,包括:在对话语料库中,分析各对语句对的输入语句和回复语句的各词语的词性,提取每一句语句中符合预设词性要求的各语义键,其中,所述预设词性包括:名词、形容词、动词中的至少一种;按照语义键对对话语料库中的所有语句进行聚类,每一类别的语句对应于同一语义键;利用对话语料库中的各类别的语句训练序列到序列模型,得到能够将语句映射成为实值向量的编码网络;将属于同一类别的语句利用所述编码网络进行编码,得到与各语义键相对应的实值向量集合;从与各语义键相对应的所述实值向量集合中选择多个实值向量组成记忆矩阵,在各语义键和各记忆矩阵件建立语义键索引。
【技术特征摘要】
1.一种创建语义键索引的方法,包括:在对话语料库中,分析各对语句对的输入语句和回复语句的各词语的词性,提取每一句语句中符合预设词性要求的各语义键,其中,所述预设词性包括:名词、形容词、动词中的至少一种;按照语义键对对话语料库中的所有语句进行聚类,每一类别的语句对应于同一语义键;利用对话语料库中的各类别的语句训练序列到序列模型,得到能够将语句映射成为实值向量的编码网络;将属于同一类别的语句利用所述编码网络进行编码,得到与各语义键相对应的实值向量集合;从与各语义键相对应的所述实值向量集合中选择多个实值向量组成记忆矩阵,在各语义键和各记忆矩阵件建立语义键索引。2.根据权利要求1所述的方法,其中,所述从与各语义键相对应的所述实值向量集合中选择多个实值向量组成记忆矩阵包括:通过均值算法确定实值向量集合的中心点;确定实值向量集合中的各实值向量与所述中心点的距离;按照距离由小到大的顺序选取预设数量的实值向量组成记忆矩阵。3.一种对话的回复语句生成方法,包括:提取输入语句中的至少一个语义键;利用预设的语义映射关系,将所述至少一个语义键扩展为多个语义键集合;根据所述多个语义键集合中的各语义键,索引与所述各语义键匹配的记忆矩阵;至少将所述记忆矩阵输入到编码网络中进行解码,选择解码后的其中一条语句作出回复语句。4.根据权利要求3所述的方法,其中,所述至少将所述记忆矩阵输入到编码网络中进行解码包括:将所述记忆矩阵和所述输入语句的句向量一起输入到编码网络中进行解码,其中,所述输入语句的句向量通过将输入语句导入所述编码网络中预生成。5.根据权利要求3所述的方法,其中,所述方法还包括:当一轮对话完成后,将本轮对话对中的输入语句和回复语句作为对话对添加到语料库中,以扩充语义键索引。6.一种创建语义键索引的系统,包括:语义键提取程序模块,用于在对话语料库中,...
【专利技术属性】
技术研发人员:俞凯,赵子健,吴学阳,林弘韬,刘轩,
申请(专利权)人:苏州思必驰信息科技有限公司,上海交通大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。