用户问句的补词方法和装置制造方法及图纸

技术编号：20363236 阅读：18 留言：0更新日期：2019-02-16 16:41

本说明书实施例提供一种用户问句的补词方法和装置，方法包括：首先获取用户问句的场景埋点信息和/或该用户问句的历史问句，然后根据场景埋点信息和/或历史问句，确定对该用户问句进行补词的候选词集合，再针对所述用户问句中的每个可选的补词位置和所述候选词集合中的每个候选词，生成多个新问句，以及使用预先训练的语言模型，确定每个所述新问句的生成概率，并根据每个所述新问句的生成概率，确定所述候选词集合中的最优候选词和所述最优候选词在所述用户问句中的最佳补词位置，最后将最优候选词按照最佳补词位置补入该用户问句，得到该用户问句的补词问句，能够在不增加额外交互的情况下明确用户问句的意图，从而提升用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
用户问句的补词方法和装置
本说明书一个或多个实施例涉及自然语言处理领域，尤其涉及用户问句的补词方法和装置。
技术介绍
在智能客服的应用中，用户在与机器人通过语言进行交互的过程中通常用户语言口语化、简略化。经过对大量的用户问句的统计分析，其中包含字数在10个字以下的用户问句就占到了50％+，这种情况在用户首问中尤其明显，此时单纯依靠用户问句表述的字面信息和传统的自然语言处理(naturallanguageprocessing，NLP)技术难以理解用户意图。现有技术中，针对这种难以理解用户意图的问句，通常还需要进一步向用户提问，经过与用户的多次交互才能理解用户意图，进而针对用户问句作出符合用户意图的解答。例如，有些用户直接发问“如何还款”，此时至少需再行确认是“信用卡”、“花呗”、“借呗”中的哪个具体业务，经过与用户的多次交互才能最终解决客户问题，增加了交互成本，且用户体验不佳。因此，希望能有改进的方案，能够在不增加额外交互的情况下明确用户问句的意图，从而提升用户体验。
技术实现思路
本说明书一个或多个实施例描述了一种用户问句的补词方法和装置，能够在不增加额外交互的情况下明确用户问句的意图，从而提升用户体验。第一方面，提供了一种用户问句的补词方法，方法包括：获取用户问句的场景埋点信息和/或所述用户问句的历史问句；根据所述场景埋点信息和/或所述历史问句，确定对所述用户问句进行补词的候选词集合；针对所述用户问句中的每个可选的补词位置和所述候选词集合中的每个候选词，生成多个新问句；使用预先训练的语言模型，确定每个所述新问句的生成概率；根据每个所述新问句的生成概率，确定所...

【技术保护点】
1.一种用户问句的补词方法，所述方法包括：获取用户问句的场景埋点信息和/或所述用户问句的历史问句；根据所述场景埋点信息和/或所述历史问句，确定对所述用户问句进行补词的候选词集合；针对所述用户问句中的每个可选的补词位置和所述候选词集合中的每个候选词，生成多个新问句；使用预先训练的语言模型，确定每个所述新问句的生成概率；根据每个所述新问句的生成概率，确定所述候选词集合中的最优候选词和所述最优候选词在所述用户问句中的最佳补词位置；将所述最优候选词按照所述最佳补词位置补入所述用户问句，得到所述用户问句的补词问句。

【技术特征摘要】
1.一种用户问句的补词方法，所述方法包括：获取用户问句的场景埋点信息和/或所述用户问句的历史问句；根据所述场景埋点信息和/或所述历史问句，确定对所述用户问句进行补词的候选词集合；针对所述用户问句中的每个可选的补词位置和所述候选词集合中的每个候选词，生成多个新问句；使用预先训练的语言模型，确定每个所述新问句的生成概率；根据每个所述新问句的生成概率，确定所述候选词集合中的最优候选词和所述最优候选词在所述用户问句中的最佳补词位置；将所述最优候选词按照所述最佳补词位置补入所述用户问句，得到所述用户问句的补词问句。2.如权利要求1所述的方法，其中，所述方法还包括：根据所述补词问句，在问答引擎中挑选知识点作为所述用户问句的解答。3.如权利要求1所述的方法，其中，所述获取用户问句的场景埋点信息，包括：将接收所述用户问句的入口所对应的业务场景作为所述场景埋点信息。4.如权利要求1所述的方法，其中，所述获取所述用户问句的历史问句，包括：获取所述用户问句之前的预定数目个历史问句。5.如权利要求1所述的方法，其中，所述根据所述场景埋点信息和/或所述历史问句，确定对所述用户问句进行补词的候选词集合，包括：确定所述场景埋点信息对应的当前业务场景；根据预先建立的多个业务场景与多个关联分词的对应关系，确定当前业务场景对应的关联分词；将所述当前业务场景对应的关联分词添加到对所述用户问句进行补词的候选词集合中。6.如权利要求5所述的方法，其中，所述多个业务场景与多个关联分词的对应关系通过点互信息PMI算法预先建立，该预先建立包括：获取多个用户问句和每个用户问句对应的业务场景；根据每个业务场景出现的频度计算场景概率,根据多个用户问句中每个分词出现的频度计算分词概率，根据每个业务场景和每个分词一起出现的频度计算业务场景和分词的联合概率；根据业务场景和分词的联合概率、场景概率和分词概率，计算业务场景和分词的PMI值；对于每个业务场景，将该业务场景和每个分词的PMI值进行由大到小排序，将排序在前预定数目位的分词作为该业务场景对应的关联分词。7.如权利要求1所述的方法，其中，所述根据所述场景埋点信息和/或所述历史问句，确定对所述用户问句进行补词的候选词集合，包括：对所述历史问句进行分词和去停用词处理，将得到的分词添加到对所述用户问句进行补词的候选词集合中。8.如权利要求1所述的方法，其中，所述方法还包括：使用预先训练的语言模型，确定所述用户问句的生成概率；所述根据每个所述新问句的生成概率，确定所述候选词集合中的最优候选词和所述最优候选词在所述用户问句中的最佳补词位置，包括：如果一个所述新问句的生成概率最大且该新问句的生成概率与所述用户问句的生成概率的差值大于第一预设阈值，则确定该新问句对应的候选词为所述候选词集合中的最优候选词，以及确定该新问句对应的补词位置为所述最优候选词在所述用户问句中的最佳补词位置。9.如权利要求1所述的方法，其中，所述针对所述用户问句中的每个可选的补词位置和所述候选词集合中的每个候选词，生成多个新问句之前，所述方法还包括：确定所述候选词集合不为空集；和/或使用预先训练的语言模型，确定所述用户问句的生成概率大于或等于第二预设阈值。10.如权利要求1所述的方法，其中，所述语言模型为n-gram语言模型。11.如权利要求10所述的方法，其中，所述n-gram语言模型用于评估生成一个句子的概率，并将所述概率对该句子中的单词数进行平均后，得到该句子的生成概率。12.一种用户问句的补词装置，所述装置包括：获取单元，用于获取用户问句的场景埋点信息和/或所述用户问句的历史问句；第一确定单元，用于根据所述获取单元获取的所述场景埋点信息和/或所述历史问句，确定对所述...

【专利技术属性】
技术研发人员：张望舒，石志伟，胡翔，蔡捷，刘俊宏，毛德峰，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人