【技术实现步骤摘要】
同义实体对的确定方法及装置
本说明书实施例涉及自然语言处理
,具体地,涉及一种同义实体对的确定方法及装置。
技术介绍
人机交互技术(Human-ComputerInteractionTechniques)是指通过计算机输入、输出设备,以有效的方式实现人与计算机对话的技术。具体地,包括用户通过输入设备向计算机输入自定义信息,例如,通过移动终端中的话筒输入的语音信息,以及,计算机根据用户输入的自定义信息给出相应的反馈信息。在这个过程中,为了使计算机能够给出让用户满意的反馈信息,计算机需要根据用户输入的自定义信息,准确地识别出用户意图。具体地,可以先识别出自定义信息中实体,进而根据识别出的实体确定出用户意图。然而,因用户自定义信息中实体的表达通常不够规范,进而无法根据不规范的实体精准地确定出用户意图。由此,迫切需要一种合理、可靠的方案,可以辅助根据用户自定义信息精准地确定出用户意图。
技术实现思路
本说明书描述了一种同义实体对的确定方法,通过建立不规范实体(以下又称备选实体)与规范实体之间的映射关 ...
【技术保护点】
1.一种同义实体对的确定方法,所述方法包括:/n获取连续请求序列,其中包括至少一个失败请求语句,以及与执行预定操作对应的成功请求语句,所述至少一个失败请求语句中包括第一失败请求语句;/n在所述第一失败请求语句与所述成功请求语句的语句相似度大于第一预定阈值的情况下,分别提取所述第一失败请求语句和所述成功请求语句中的实体,得到至少一个候选实体对;/n基于所述至少一个候选实体对,确定同义实体对。/n
【技术特征摘要】
1.一种同义实体对的确定方法,所述方法包括:
获取连续请求序列,其中包括至少一个失败请求语句,以及与执行预定操作对应的成功请求语句,所述至少一个失败请求语句中包括第一失败请求语句;
在所述第一失败请求语句与所述成功请求语句的语句相似度大于第一预定阈值的情况下,分别提取所述第一失败请求语句和所述成功请求语句中的实体,得到至少一个候选实体对;
基于所述至少一个候选实体对,确定同义实体对。
2.根据权利要求1所述的方法,其中,所述获取连续请求序列,包括:
获取历史日志记录;
从所述历史日志记录中确定触发所述预定操作成功执行的请求语句,作为所述成功请求语句;
基于预定的时间间隔,在所述历史日志记录中回溯所述成功请求语句之前的请求语句,得到所述至少一个失败请求语句;
将所述至少一个失败请求语句和所述成功请求语句组成所述连续请求序列。
3.根据权利要求1所述的方法,其中,所述第一失败请求语句与所述成功请求语句的语句相似度基于以下步骤而确定:
确定所述第一失败请求语句所对应的第一句向量;
确定所述成功请求语句所对应的第二句向量;
确定所述第一句向量和第二句向量的相似度,作为所述语句相似度。
4.根据权利要求1所述的方法,其中,所述分别提取所述第一失败请求语句和所述成功请求语句中的实体,得到至少一个候选实体对,包括:
提取所述第一失败请求语句中的实体,得到至少一个备选实体;
提取所述成功请求语句中的实体,得到至少一个规范实体;
对所述至少一个备选实体中的任一备选实体与所述至少一个规范实体中的任一规范实体分别进行组合,得到所述至少一个候选实体对。
5.根据权利要求1所述的方法,其中,所述分别提取所述第一失败请求语句和所述成功请求语句中的实体,得到至少一个候选实体对,包括:
提取所述第一失败请求语句中的实体,得到至少一个备选实体以及其中各个备选实体的实体类别,所述至少一个备选实体中包括第一备选实体;
提取所述成功请求语句中的实体,得到至少一个规范实体以及其中各个规范实体的实体类别,所述至少一个规范实体中包括第一规范实体;
在所述第一备选实体的实体类别和所述第一规范实体的实体类别相同的情况下,将所述第一备选实体和所述第一规范实体组成第一候选实体对,归入所述至少一个候选实体对中。
6.根据权利要求1所述的方法,其中,所述分别提取所述第一失败请求语句和所述成功请求语句中的实体,包括:
基于条件随机场模型,分别提取所述第一失败请求语句和所述成功请求语句中的实体,其中所述条件随机场模型基于所述连续请求序列所对应领域的语料而预先训练。
7.根据权利要求1所述的方法,其中,所述至少一对候选实体对中包括第一候选实体对,所述第一候选实体对包括从所述第一失败请求语句中提取的第一备选实体,和从所述成功请求语句中提取的第一规范实体;
所述基于所述至少一对候选实体对,确定同义实体对,包括:
确定所述第一备选实体和第一规范实体的实体相似度;
在所述实体相似度大于第二预定阈值的情况下,将所述第一候选实体对归为相似实体对;
基于所述相似实体对,确定所述同义实体对。
8.根据权利要求7所述的方法,其中,所述确定所述第一备选实体和第一规范实体的实体相似度,包括:
获取与所述连续请求序列所对应领域的领域词典;
在所述第一规范实体存在于所述领域词典中的情况下,确定所述实体相似度。
9.根据权利要求7所述的方法,其中,所述确定所述第一备选实体和第一规范实体的实体相似度,包括:
确定所述第一备选实体所对应的第一词向量;
确定所述第一规范实体所对应第二词向量;
确定所述第一词向量与所述第二词向量的相似度,作为所述实体相似度。
10.根据权利要求1所述的方法,其中,所述至少一对候选实体对中包括第一候选实体对,所述第一候选实体对包括从所述第一失败请求语句中提取的第一备选实体,和从所述成功请求语句中提取的第一规范实体;
所述...
【专利技术属性】
技术研发人员:张跃伟,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。