一种针对青少年聊天机器人的对话意图识别方法及装置制造方法及图纸

技术编号:25041979 阅读:40 留言:0更新日期:2020-07-29 05:32
本发明专利技术公开了一种针对青少年聊天机器人的对话意图识别方法及装置,包括,基于词块集的组合,创建包括附加有长度属性和年龄阶段优先属性结构的若干意图匹配模板;对输入的用户对话语句进行切分,形成切分候选集,并对切分候选集中的各个切分候选项进行优先级筛选,结合优先级筛选规则对切分候选项进行排序;根据词块集组合的先后位置共现关系对切分候选项进行剪枝;并根据与词块集组合对应的意图匹配模板的长度属性对切分候选项进行二次剪枝;筛选出优先级最高的用户对话语句切分方式,并输出该用户对话语句对应的意图匹配模板和意图信息。优点是:对青少年聊天领域对话意图的识别效率高及识别精准度高,能够满足多种复杂应用场景。

【技术实现步骤摘要】
一种针对青少年聊天机器人的对话意图识别方法及装置
本专利技术涉及聊天机器人对话意识图识别领域,尤其涉及一种针对青少年聊天机器人的对话意图识别方法及装置。
技术介绍
随着自然语言处理技术的快速发展,聊天机器人的应用逐渐普及,青少年作为互联网应用的快速增长群体也越来越受到重视,各种针对青少年的语音交互产品快速涌现。为了更好地提升青少年的聊天对话的用户体验,切实满足困扰青少年的聊天痛点需求,对青少年的思想行为和舆论导向进行良性引导,如何准确获取青少年用户的聊天意图成为了聊天技术快速推广应用的重点和难点。传统的基于(规则引擎)规则、基于正则匹配的意图识别,能够将用户的对话意图定位到指定大类;在技术发展的同时存在如下不足:A)针对搜索引擎中的停用词(语气词、谐音词)往往直接过滤和剔除,对一些青少年热衷的专有名词、网络新词支持度不好;B)全量的对话语句一次性加载容易触发内存占用爆涨的问题,同时在遍历查找和正则匹配查找时效率不高,响应延时大;C)不能满足最新的对话意图细化领域的槽位信息提取需求及多槽位信息组合的应用场景;业界比较火的是以主题模本文档来自技高网...

【技术保护点】
1.一种针对青少年聊天机器人的对话意图识别方法,其特征在于:所述识别方法包括如下步骤,/nS1、基于词块集的组合,创建包括附加有长度属性和年龄阶段优先属性结构的若干意图匹配模板;/nS2、对输入的用户对话语句进行切分,形成切分候选集,并对切分候选集中的各个切分候选项进行优先级筛选,结合优先级筛选规则对切分候选项进行排序;根据词块集组合的先后位置共现关系对切分候选项进行剪枝;并根据与词块集组合对应的意图匹配模板的长度属性对切分候选项进行二次剪枝;筛选出优先级最高的用户对话语句切分方式,并输出该用户对话语句对应的意图匹配模板和意图信息。/n

【技术特征摘要】
1.一种针对青少年聊天机器人的对话意图识别方法,其特征在于:所述识别方法包括如下步骤,
S1、基于词块集的组合,创建包括附加有长度属性和年龄阶段优先属性结构的若干意图匹配模板;
S2、对输入的用户对话语句进行切分,形成切分候选集,并对切分候选集中的各个切分候选项进行优先级筛选,结合优先级筛选规则对切分候选项进行排序;根据词块集组合的先后位置共现关系对切分候选项进行剪枝;并根据与词块集组合对应的意图匹配模板的长度属性对切分候选项进行二次剪枝;筛选出优先级最高的用户对话语句切分方式,并输出该用户对话语句对应的意图匹配模板和意图信息。


2.根据权利要求1所述的针对青少年聊天机器人的对话意图识别方法,其特征在于:步骤S1包括,
S11、收集青少年聊天中的对话语料,按照不同的对话意图对对话语句进行区分汇总,创建意图知识库;各所述对话意图在所述意图知识库中具备相应的槽位信息;
S12、按照对话意图的槽位信息以及对话语句中字、词和短语的出现频率,对对话语句进行切分,以生成一系列字、词或短语的词块;
S13、将与词块对应的词块编号、词块在意图知识库槽位识别中返回值属性编号、长度属性值和年龄阶段优先属性组合成词块结构;
S14、将若干词块结构进行归并,生成词块集;
S15、使用所述词块集为具体的意图识别创建若干意图匹配模板。


3.根据权利要求2所述的针对青少年聊天机器人的对话意图识别方法,其特征在于:在步骤S12和步骤S13之间执行步骤S130至步骤S133;
S130、对词块进行去重后,进一步编号;
S131、统计各词块对应意图知识库中槽位信息的所有返回值属性;
S132、依次判断各词块的各返回值属性是否为槽位属性,若是,则将该返回值属性设置为相应词块的属性,并标注在返回值属性列表中;若否,则在返回值属性列表中默认添加一个返回值为空的返回值属性项,并将该返回值属性项设置为相应词块的属性;
S133、对返回值属性进行编号。


4.根据权利要求2所述的针对青少年聊天机器人的对话意图识别方法,其特征在于:步骤S14中的归并方法具体为,将词块按照不同的长度进行分类,将长度相同且可以相互替换的词块组织成词块结构后进行归并,以生成一系列词块集;词块集在构建的时候,能够先选择定义简单的含词块少的基本词块集,再由多个基本词块集合并组成复合词块集,最终生成一系列包含不同词块数量的带长度属性信息的词块集。


5.根据权利要求2所述的针对青少年聊天机器人的对话意图识别方法,其特征在于:步骤S15具体为,将与词块集对应的词块集的编号列表、词块集中词块的返回值属性列表与槽位之间的映射关系、长度属性值、年龄阶段优先属性组合成为意图匹配模板;各所述意图匹配模板均包括组成该意图匹配模板的所有词块集在组成顺序列表过程中的先后位置共现关系、词块集中词块返回值属性、由所有词块集长度相加得到长度属性值、年龄阶段优先属性,并对各意图匹配模板进行统一的编号管理,记录意图匹配模板所属的意图类别编号。


6.根据权利要求5所述的针对青少年聊天机器人的对话意图识别方法,其特征在于:在步骤S1和步骤S2之间执行如下内容,
将词块、词块集、意图匹配模板、意图类别的配置信息及彼此间的关联映射关系加载入内存;具体为,引入以Trie树体系尤其以DoubleArrayTrie为代表的词块匹配方式,将词块与词块编号之间的映射关系以及意图匹配模版中词块集组合的先后位置共现关系全部加载到DoubleArrayTrie的存储结构中。


7.根据权利要求6所述的针对青少年聊天机器人的对话意图识别方法,其特征在于:步骤S2具体包括如下内容,
S21、将用户对话语句进行语音识别后的文本纠错预处理,并提取用户对话语句的长度检验信息,作为初始的切分候选项添加到切分候选项集;
S22、判断切分候选集是否为空,若是,则直接退出意图识别过程;若否,则执行步骤S23;
S23、按优先...

【专利技术属性】
技术研发人员:李铁乔战科宇李冠龙张恒
申请(专利权)人:中国搜索信息科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1