用户问句的补词方法和装置制造方法及图纸

技术编号:20363236 阅读:18 留言:0更新日期:2019-02-16 16:41
本说明书实施例提供一种用户问句的补词方法和装置,方法包括:首先获取用户问句的场景埋点信息和/或该用户问句的历史问句,然后根据场景埋点信息和/或历史问句,确定对该用户问句进行补词的候选词集合,再针对所述用户问句中的每个可选的补词位置和所述候选词集合中的每个候选词,生成多个新问句,以及使用预先训练的语言模型,确定每个所述新问句的生成概率,并根据每个所述新问句的生成概率,确定所述候选词集合中的最优候选词和所述最优候选词在所述用户问句中的最佳补词位置,最后将最优候选词按照最佳补词位置补入该用户问句,得到该用户问句的补词问句,能够在不增加额外交互的情况下明确用户问句的意图,从而提升用户体验。

【技术实现步骤摘要】
用户问句的补词方法和装置
本说明书一个或多个实施例涉及自然语言处理领域,尤其涉及用户问句的补词方法和装置。
技术介绍
在智能客服的应用中,用户在与机器人通过语言进行交互的过程中通常用户语言口语化、简略化。经过对大量的用户问句的统计分析,其中包含字数在10个字以下的用户问句就占到了50%+,这种情况在用户首问中尤其明显,此时单纯依靠用户问句表述的字面信息和传统的自然语言处理(naturallanguageprocessing,NLP)技术难以理解用户意图。现有技术中,针对这种难以理解用户意图的问句,通常还需要进一步向用户提问,经过与用户的多次交互才能理解用户意图,进而针对用户问句作出符合用户意图的解答。例如,有些用户直接发问“如何还款”,此时至少需再行确认是“信用卡”、“花呗”、“借呗”中的哪个具体业务,经过与用户的多次交互才能最终解决客户问题,增加了交互成本,且用户体验不佳。因此,希望能有改进的方案,能够在不增加额外交互的情况下明确用户问句的意图,从而提升用户体验。
技术实现思路
本说明书一个或多个实施例描述了一种用户问句的补词方法和装置,能够在不增加额外交互的情况下明确用户问句的意图,从而提升用户体验。第一方面,提供了一种用户问句的补词方法,方法包括:获取用户问句的场景埋点信息和/或所述用户问句的历史问句;根据所述场景埋点信息和/或所述历史问句,确定对所述用户问句进行补词的候选词集合;针对所述用户问句中的每个可选的补词位置和所述候选词集合中的每个候选词,生成多个新问句;使用预先训练的语言模型,确定每个所述新问句的生成概率;根据每个所述新问句的生成概率,确定所述候选词集合中的最优候选词和所述最优候选词在所述用户问句中的最佳补词位置;将所述最优候选词按照所述最佳补词位置补入所述用户问句,得到所述用户问句的补词问句。在一种可能的实施方式中,所述方法还包括:根据所述补词问句,在问答引擎中挑选知识点作为所述用户问句的解答。在一种可能的实施方式中,所述获取用户问句的场景埋点信息,包括:将接收所述用户问句的入口所对应的业务场景作为所述场景埋点信息。在一种可能的实施方式中,所述获取所述用户问句的历史问句,包括:获取所述用户问句之前的预定数目个历史问句。在一种可能的实施方式中,所述根据所述场景埋点信息和/或所述历史问句,确定对所述用户问句进行补词的候选词集合,包括:确定所述场景埋点信息对应的当前业务场景;根据预先建立的多个业务场景与多个关联分词的对应关系,确定当前业务场景对应的关联分词;将所述当前业务场景对应的关联分词添加到对所述用户问句进行补词的候选词集合中。进一步地,所述多个业务场景与多个关联分词的对应关系通过点互信息(pointwisemutualinformation,PMI)算法预先建立,该预先建立包括:获取多个用户问句和每个用户问句对应的业务场景;根据每个业务场景出现的频度计算场景概率,根据多个用户问句中每个分词出现的频度计算分词概率,根据每个业务场景和每个分词一起出现的频度计算业务场景和分词的联合概率;根据业务场景和分词的联合概率、场景概率和分词概率,计算业务场景和分词的PMI值;对于每个业务场景,将该业务场景和每个分词的PMI值进行由大到小排序,将排序在前预定数目位的分词作为该业务场景对应的关联分词。在一种可能的实施方式中,所述根据所述场景埋点信息和/或所述历史问句,确定对所述用户问句进行补词的候选词集合,包括:对所述历史问句进行分词和去停用词处理,将得到的分词添加到对所述用户问句进行补词的候选词集合中。在一种可能的实施方式中,所述方法还包括:使用预先训练的语言模型,确定所述用户问句的生成概率;所述根据每个所述新问句的生成概率,确定所述候选词集合中的最优候选词和所述最优候选词在所述用户问句中的最佳补词位置,包括:如果一个所述新问句的生成概率最大且该新问句的生成概率与所述用户问句的生成概率的差值大于第一预设阈值,则确定该新问句对应的候选词为所述候选词集合中的最优候选词,以及确定该新问句对应的补词位置为所述最优候选词在所述用户问句中的最佳补词位置。在一种可能的实施方式中,所述针对所述用户问句中的每个可选的补词位置和所述候选词集合中的每个候选词,生成多个新问句之前,所述方法还包括:确定所述候选词集合不为空集;和/或使用预先训练的语言模型,确定所述用户问句的生成概率大于或等于第二预设阈值。在一种可能的实施方式中,所述语言模型为n-gram语言模型。进一步地,所述n-gram语言模型用于评估生成一个句子的概率,并将所述概率对该句子中的单词数进行平均后,得到该句子的生成概率。第二方面,提供了一种用户问句的补词装置,装置包括:获取单元,用于获取用户问句的场景埋点信息和/或所述用户问句的历史问句;第一确定单元,用于根据所述获取单元获取的所述场景埋点信息和/或所述历史问句,确定对所述用户问句进行补词的候选词集合;第二确定单元,用于针对所述用户问句中的每个可选的补词位置和所述候选词集合中的每个候选词,生成多个新问句;使用预先训练的语言模型,确定每个所述新问句的生成概率;根据每个所述新问句的生成概率,确定所述候选词集合中的最优候选词和所述最优候选词在所述用户问句中的最佳补词位置;补词单元,用于将所述第二确定单元确定的最优候选词按照所述第二确定单元确定的最佳补词位置补入所述用户问句,得到所述用户问句的补词问句。第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。通过本说明书实施例提供的方法和装置,首先获取用户问句的场景埋点信息和/或该用户问句的历史问句,然后根据场景埋点信息和/或历史问句,确定对该用户问句进行补词的候选词集合,此过程中无需与用户交互,再针对所述用户问句中的每个可选的补词位置和所述候选词集合中的每个候选词,生成多个新问句,以及使用预先训练的语言模型,确定每个所述新问句的生成概率,并根据每个所述新问句的生成概率,确定所述候选词集合中的最优候选词和所述最优候选词在所述用户问句中的最佳补词位置,最后将最优候选词按照最佳补词位置补入该用户问句,得到该用户问句的补词问句,通过语言模型使补词问句更能符合用户意图,能够在不增加额外交互的情况下明确用户问句的意图,从而提升用户体验。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本说明书披露的一个实施例的实施场景示意图;图2示出根据一个实施例的用户问句的补词方法流程图;图3示出根据一个实施例的确定候选词集合的方法流程图;图4示出根据一个实施例的语言模型过滤补词候选集的方法流程图;图5为本说明书实施例提供的一种用户提问线上效果示意图;图6为本说明书实施例提供的另一种用户提问线上效果示意图;图7为本说明书实施例提供的另一种用户提问线上效果示意图;图8示出根据一个实施例的用户问本文档来自技高网...

【技术保护点】
1.一种用户问句的补词方法,所述方法包括:获取用户问句的场景埋点信息和/或所述用户问句的历史问句;根据所述场景埋点信息和/或所述历史问句,确定对所述用户问句进行补词的候选词集合;针对所述用户问句中的每个可选的补词位置和所述候选词集合中的每个候选词,生成多个新问句;使用预先训练的语言模型,确定每个所述新问句的生成概率;根据每个所述新问句的生成概率,确定所述候选词集合中的最优候选词和所述最优候选词在所述用户问句中的最佳补词位置;将所述最优候选词按照所述最佳补词位置补入所述用户问句,得到所述用户问句的补词问句。

【技术特征摘要】
1.一种用户问句的补词方法,所述方法包括:获取用户问句的场景埋点信息和/或所述用户问句的历史问句;根据所述场景埋点信息和/或所述历史问句,确定对所述用户问句进行补词的候选词集合;针对所述用户问句中的每个可选的补词位置和所述候选词集合中的每个候选词,生成多个新问句;使用预先训练的语言模型,确定每个所述新问句的生成概率;根据每个所述新问句的生成概率,确定所述候选词集合中的最优候选词和所述最优候选词在所述用户问句中的最佳补词位置;将所述最优候选词按照所述最佳补词位置补入所述用户问句,得到所述用户问句的补词问句。2.如权利要求1所述的方法,其中,所述方法还包括:根据所述补词问句,在问答引擎中挑选知识点作为所述用户问句的解答。3.如权利要求1所述的方法,其中,所述获取用户问句的场景埋点信息,包括:将接收所述用户问句的入口所对应的业务场景作为所述场景埋点信息。4.如权利要求1所述的方法,其中,所述获取所述用户问句的历史问句,包括:获取所述用户问句之前的预定数目个历史问句。5.如权利要求1所述的方法,其中,所述根据所述场景埋点信息和/或所述历史问句,确定对所述用户问句进行补词的候选词集合,包括:确定所述场景埋点信息对应的当前业务场景;根据预先建立的多个业务场景与多个关联分词的对应关系,确定当前业务场景对应的关联分词;将所述当前业务场景对应的关联分词添加到对所述用户问句进行补词的候选词集合中。6.如权利要求5所述的方法,其中,所述多个业务场景与多个关联分词的对应关系通过点互信息PMI算法预先建立,该预先建立包括:获取多个用户问句和每个用户问句对应的业务场景;根据每个业务场景出现的频度计算场景概率,根据多个用户问句中每个分词出现的频度计算分词概率,根据每个业务场景和每个分词一起出现的频度计算业务场景和分词的联合概率;根据业务场景和分词的联合概率、场景概率和分词概率,计算业务场景和分词的PMI值;对于每个业务场景,将该业务场景和每个分词的PMI值进行由大到小排序,将排序在前预定数目位的分词作为该业务场景对应的关联分词。7.如权利要求1所述的方法,其中,所述根据所述场景埋点信息和/或所述历史问句,确定对所述用户问句进行补词的候选词集合,包括:对所述历史问句进行分词和去停用词处理,将得到的分词添加到对所述用户问句进行补词的候选词集合中。8.如权利要求1所述的方法,其中,所述方法还包括:使用预先训练的语言模型,确定所述用户问句的生成概率;所述根据每个所述新问句的生成概率,确定所述候选词集合中的最优候选词和所述最优候选词在所述用户问句中的最佳补词位置,包括:如果一个所述新问句的生成概率最大且该新问句的生成概率与所述用户问句的生成概率的差值大于第一预设阈值,则确定该新问句对应的候选词为所述候选词集合中的最优候选词,以及确定该新问句对应的补词位置为所述最优候选词在所述用户问句中的最佳补词位置。9.如权利要求1所述的方法,其中,所述针对所述用户问句中的每个可选的补词位置和所述候选词集合中的每个候选词,生成多个新问句之前,所述方法还包括:确定所述候选词集合不为空集;和/或使用预先训练的语言模型,确定所述用户问句的生成概率大于或等于第二预设阈值。10.如权利要求1所述的方法,其中,所述语言模型为n-gram语言模型。11.如权利要求10所述的方法,其中,所述n-gram语言模型用于评估生成一个句子的概率,并将所述概率对该句子中的单词数进行平均后,得到该句子的生成概率。12.一种用户问句的补词装置,所述装置包括:获取单元,用于获取用户问句的场景埋点信息和/或所述用户问句的历史问句;第一确定单元,用于根据所述获取单元获取的所述场景埋点信息和/或所述历史问句,确定对所述...

【专利技术属性】
技术研发人员:张望舒石志伟胡翔蔡捷刘俊宏毛德峰
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1