【技术实现步骤摘要】
一种机器人对话系统中生成意图候选集列表集合的算法及装置
本专利技术属于计算机应用领域,特别涉及一种机器人对话系统中生成意图候选集列表集合的算法及装置。
技术介绍
对话机器人本质上是通过机器学习和人工智能等技术让机器理解人的语言。它包含了诸多学科方法的融合使用,是人工智能领域的一个技术集中演练营。对于FAQ咨询来说,模块的输出对应知识库里的一个知识点。解决问答就像解决一个大型分类问题,机器人要将用户的需求对应到知识库里的某一个答案。知识库里的知识点数量少则几百个,多则上万个。而根据知识库大小不同,适用的模型结构也会有所不同。例如,银行类客户通常有多个复杂的业务线,知识库规模也是数以万计,直接对几万个知识点进行分类是难以取得高准确率的,因此,机器人会采用分层处理的方法,先判定问题与哪一个大领域相关,再进行详细的知识点分类。资料查询类对话需要从客户的输入里判定两件事:意图和实体。比如「A公司的市盈率是多少?」这个问句里,就包含了意图「市盈率」和实体「A公司」。成功获得这两个信息后,机器人会去一个结构化的数据库里做查 ...
【技术保护点】
1.一种机器人对话系统中生成意图候选集列表集合的算法,用于基于用户输入信息生成与所述机器人对话系统对应的意图候选集列表集合,其特征在于,包括如下步骤:/na.对所述用户输入信息进行单字分词处理,并生成字维度序列;/nb.对所述用户输入信息进行语句分词处理,并生成词维度序列;/nc.将所述字维度序列以及所述词维度序列合并为混合维度序列;/nd.对所述混合维度序列进行分组处理,并至少分为高词频组HF、低词频组LF;/ne.基于所述高词频组HF、所述低词频组LF在意图库中进行检索,并确定检索匹配结果;/nf.将检索匹配结果作为所述意图候选集列表集合。/n
【技术特征摘要】
1.一种机器人对话系统中生成意图候选集列表集合的算法,用于基于用户输入信息生成与所述机器人对话系统对应的意图候选集列表集合,其特征在于,包括如下步骤:
a.对所述用户输入信息进行单字分词处理,并生成字维度序列;
b.对所述用户输入信息进行语句分词处理,并生成词维度序列;
c.将所述字维度序列以及所述词维度序列合并为混合维度序列;
d.对所述混合维度序列进行分组处理,并至少分为高词频组HF、低词频组LF;
e.基于所述高词频组HF、所述低词频组LF在意图库中进行检索,并确定检索匹配结果;
f.将检索匹配结果作为所述意图候选集列表集合。
2.根据权利要求1所述的算法,其特征在于,所述步骤e包括如下步骤:
e1.按照如下公式在意图库中进行检索:AND(HF)ANDOR(LF),并将检索结果作为第一候选意图,其中,AND(HF)表示所述HF组中每个分词都要被匹配,0R(LF)表示所述LF组中至少一个分词被匹配;
e2.设定候选集大小阈值Smin,若匹配到的候选集<Smin,则替换检索条件为OR(HF)OROR(LF),即高词频组HF、低词频组LF中任意一个分词与意图库中分词被匹配,则被匹配的意图分词就被召回作为第二候选意图;
e3.将所述第一候选意图以及第二候选意图的意图集按照TF-IDF算法进行评分,按评分从高到低排序,将前Smin个意图所形成的意图集作为最终候选意图集。
3.根据权利要求1所述的算法,其特征在于,所述意图库为一索引库,所述索引为倒序排列,按照如下步骤获得所述倒序排列:
-对所述每个意图进行单字分词处理,统计所述单字分词的文档频率和/或反文档频率;
-对所述每个意图进行语句分词处理,统计所述语句分词的文档频率和/或反文档频率;
-基于所述频率统...
【专利技术属性】
技术研发人员:谭明,张建辉,袁亚洲,刁玉贤,
申请(专利权)人:中国太平洋保险集团股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。