一种训练排序结果选择模型输出标准问法的方法和系统技术方案

技术编号：23558214 阅读：27 留言：0更新日期：2020-03-25 03:49

本说明书一个或多个实施例公开了一种训练排序结果选择模型输出标准问法的方法。所述方法包括：获取排序模型输出的排序序列，使用排序结果选择模型从所述排序序列中确定第一结果，所述第一结果对应预测的标准问法A；判断所述排序序列对应的准确的标准问法B；比较所述预测的标准问法A和所述准确的标准问法B是否一致，是则奖励所述排序结果选择模型，否则惩罚所述排序结果选择模型。

A method and system of output standard question of training sorting result selection model

全部详细技术资料下载

【技术实现步骤摘要】
一种训练排序结果选择模型输出标准问法的方法和系统
本说明书涉及自然语言处理领域，特别涉及一种训练排序结果选择模型输出标准问法的方法和系统。
技术介绍
在线智能问答系统中，对于同一个内容的问题，用户可能有不同的提问方式，因此需要确认与用户输入问题相对应的标准问题，从而返回正确的答案。通常使用用户问题识别模块来匹配用户问题和线下保存的标准问题的扩充问法，得出表示两者相似度的分数，取分数最高的扩充问法所对应的标准问题作为返回。但是在匹配过程中，有可能某个与用户输入问题内容并不匹配的问法，因为在形式或者内容上和用户问题相近或者其他偶然因素，被排到第一位了，模块就会将其输出。因此，期望一种训练排序结果选择模型输出标准问法的方法和系统，提高系统返回正确答案的能力。
技术实现思路
本说明书实施例的一个方面提供一种训练排序结果选择模型输出标准问法的方法。所述训练排序结果选择模型输出标准问法的方法包括：获取排序模型输出的排序序列，使用排序结果选择模型从所述排序序列中确定第一结果，所述第一结果对应预测的标准问法A；判...

【技术保护点】
1.一种训练排序结果选择模型输出标准问法的方法，所述方法包括：/n获取排序模型输出的排序序列，使用排序结果选择模型从所述排序序列中确定第一结果，所述第一结果对应预测的标准问法A；/n判断所述排序序列对应的准确的标准问法B；/n比较所述预测的标准问法A和所述准确的标准问法B是否一致，是则奖励所述排序结果选择模型，否则惩罚所述排序结果选择模型。/n

【技术特征摘要】
1.一种训练排序结果选择模型输出标准问法的方法，所述方法包括：
获取排序模型输出的排序序列，使用排序结果选择模型从所述排序序列中确定第一结果，所述第一结果对应预测的标准问法A；
判断所述排序序列对应的准确的标准问法B；
比较所述预测的标准问法A和所述准确的标准问法B是否一致，是则奖励所述排序结果选择模型，否则惩罚所述排序结果选择模型。

2.根据权利要求1所述的方法，其中，所述排序序列至少包括：
由多个扩充问法组成的扩充问法序列，多个所述扩充问法对应于至少一个标准问法。

3.根据权利要求2所述的方法，其中，所述排序序列还包括：
由多个分数组成的分数序列，多个所述分数用于表示多个所述扩充问法与查询问题的相似度。

4.根据权利要求3所述的方法，其中，在所述获取排序模型输出的排序序列之后还包括：
根据所述扩充问法序列和所述分数序列，确定所述排序序列的序列特征；
将所述序列特征输入所述排序结果选择模型。

5.根据权利要求4所述的方法，其中，所述根据所述扩充问法序列和所述分数序列，确定所述排序序列的序列特征包括：
使用特征提取模型提取所述扩充问法序列中多个所述扩充问法的特征向量；
拼接所述特征向量、所述扩充问法对应的所述分数、所述扩充问法在所述扩充问法序列中的位置，获取多个问法特征；
由所述多个问法特征组成所述序列特征。

6.根据权利要求5所述的方法，其中，所述比较所述预测的标准问法A和所述准确的标准问法B是否一致，是则奖励所述排序结果选择模型，否则惩罚所述排序结果选择模型包括：
使用强化学习的方式训练所述排序结果选择模型；其中，所述序列特征作为环境状态s，所述排序结果选择模型作为智能体agent；在所述环境状态s下执行的选择动作作为动作act；
如果所述智能体agent选择正例数据作为所述第一结果，则给予奖励，否则给予惩罚；其中，所述正例数据对应于所述准确的标准问法B。

7.根据权利要求6所述的方法，其中，所述比较所述预测的标准问法A和所述准确的标准问法B是否一致，是则奖励所述排序结果选择模型，否则惩罚所述排序结果选择模型还包括：
如果训练样本数据中存在负例数据并且所述智能体agent没有选择所述负例数据作为第一结果，则给予奖励，否则给予惩罚；其中，所述负例数据已确定不对应于所述准确的标准问法B。

8.根据权利要求7所述的方法，其中，所述比较所述预测的标准问法A和所述准确的标准问法B是否一致，是则奖励所述排序结果选择模型，否则惩罚所述排序结果选择模型还包括：
如果比较所述预测的标准问法A和所述准确的标准问法B一致的概率大于预设概率阈值，则模型训练结束。

9.根据权利要求8所述的方法，其中，所述扩充问法序列至少包括：
与所述预测的标准问法A对应的一个或者多个扩充问法ai、与所述准确的标准问法B对应的一个或者多个扩充问法bi。

10.一种训练排序结果选择模型输出标准问法的系统，所述系统包括：
结果确定模块，用于获取排序模型输出的排序序列，使用排序结果选择模型从所述排序序列中确定第一结果，所述第一结果对...

【专利技术属性】
技术研发人员：孔心宇，张晓彤，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人