一种语料处理方法、装置、存储介质及电子设备制造方法及图纸

技术编号：22330166 阅读：35 留言：0更新日期：2019-10-19 12:17

本申请实施例公开了一种语料处理方法、装置、存储介质及电子设备，其中，方法包括：基于输入语料进行检索，得到输入语料对应的第一候选结果集合，获取第一候选结果集合中至少一个第一候选结果对应的第一向量；从历史对话语料中获取与输入语料对应的第二候选结果集合，获取第二候选结果集合中至少一个第二候选结果对应的第二向量；基于输入语料对应的第三向量与第一向量，计算得到第一权值向量，基于第三向量与第二向量，计算得到第二权值向量；基于第一权值向量以及第二权值向量，对第一向量以及第二向量进行加权求和处理，得到目标向量；基于目标向量以及第三向量，得到输入语料对应的最终结果。采用本申请实施例，可以提升结果生成的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种语料处理方法、装置、存储介质及电子设备
本申请涉及计算机
，尤其涉及一种语料处理方法、装置、存储介质及电子设备。
技术介绍
近年来，智能问答技术得到广泛、深入的研究，并取得重要进展。基于智能问答系统获取信息能够减少用户精力耗费，提高信息获取效率，提升用户体验。例如，基于sequence-to-sequence的框架的智能问答系统，在大规模QA语料上进行训练，并基于单条的上文内容进行结果(如：回答结果)的生成。但基于sequence-to-sequence的结果生成模型通常将问题转化为固定长度的表示，对候选结果的内容依赖考虑不足，会导致所生成的结果准确率低。
技术实现思路
本申请实施例提供了一种语料处理方法、装置、存储介质及电子设备，可以解决智能问答系统生成的结果准确率低的问题。技术方案如下：第一方面，本申请实施例提供了一种语料处理方法，方法包括：基于输入语料进行检索，得到输入语料对应的第一候选结果集合，获取第一候选结果集合中至少一个第一候选结果对应的第一向量；从历史对话语料中获取与输入语料对应的第二候选结果集合，获取第二候选结果集合中至少一个第二候选结果对应的第二向量；基于输入语料对应的第三向量与第一向量，计算得到第一权值向量，基于第三向量与第二向量，计算得到第二权值向量；基于第一权值向量以及第二权值向量，对第一向量以及第二向量进行加权求和处理，得到目标向量；基于目标向量以及第三向量，得到输入语料对应的最终结果。可选的，还包括：采用文本方式和/或语音方式展示输入语料、历史对话语料和/或最终结果。可选的，基于输入语料进行检索得到输入语料对应的第一候选结...

【技术保护点】
1.一种语料处理方法，其特征在于，方法包括：基于输入语料进行检索，得到输入语料对应的第一候选结果集合，获取第一候选结果集合中至少一个第一候选结果对应的第一向量；从历史对话语料中获取与输入语料对应的第二候选结果集合，获取第二候选结果集合中至少一个第二候选结果对应的第二向量；基于输入语料对应的第三向量与第一向量，计算得到第一权值向量，基于第三向量与第二向量，计算得到第二权值向量；基于第一权值向量以及第二权值向量，对第一向量以及第二向量进行加权求和处理，得到目标向量；基于目标向量以及第三向量，得到输入语料对应的最终结果。

【技术特征摘要】
1.一种语料处理方法，其特征在于，方法包括：基于输入语料进行检索，得到输入语料对应的第一候选结果集合，获取第一候选结果集合中至少一个第一候选结果对应的第一向量；从历史对话语料中获取与输入语料对应的第二候选结果集合，获取第二候选结果集合中至少一个第二候选结果对应的第二向量；基于输入语料对应的第三向量与第一向量，计算得到第一权值向量，基于第三向量与第二向量，计算得到第二权值向量；基于第一权值向量以及第二权值向量，对第一向量以及第二向量进行加权求和处理，得到目标向量；基于目标向量以及第三向量，得到输入语料对应的最终结果。2.根据权利要求1的方法，其特征在于，还包括：采用文本方式和/或语音方式展示所述最终结果。3.根据权利要求1的方法，其特征在于，基于输入语料进行检索得到输入语料对应的第一候选结果集合，包括：对输入语料进行分词处理，得到输入语料对应的多个分词；将多个分词依次输入至检索引擎中，得到输入语料对应的第一候选结果集合。4.根据权利要求1的方法，其特征在于，获取第一候选结果集合中至少一个第一候选结果对应的第一向量，包括：将第一候选结果集合输入至语义向量化表示模型中，输出第一候选结果集合中至少一个第一候选结果的每个分词对应的向量，其中，语义向量化表示模型由分词与向量的映射关系预先训练；将至少一个第一候选结果的每个分词对应的向量组合为第一向量。5.根据权利要求4的方法，其特征在于，获取第二候选结果集合中至少一个第二候选结果对应的第二向量，包括：将第二候选结果集合输入至语义向量化表示模型中，输出第二候选结果集合中至少一个第二候选结果的每个分词对应的向量；将至少一个第二候选结果的每个分词对应的向量组合为第二向量。6.根据权利要求4的方法，其特征在于，基于输入语料对应的第三向量与第一向量之前，还包括：将输入语料输入至语义向量化表示模...

【专利技术属性】
技术研发人员：王鹏，王永会，孙海龙，
申请(专利权)人：北京大米科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人