基于语义网和意图识别的人机交互方法、设备及介质技术

技术编号:26689785 阅读:12 留言:0更新日期:2020-12-12 02:39
本发明专利技术公开了一种基于语义网和意图识别的人机交互方法,涉及自然语言处理领域,旨在实现准确识别问题意图,提高人机交互的问答质量。该方法包含以下步骤:获取行业内的常见问题解答作为交互数据源;对所述常见问题解答中的标准问题进行语义标注,构建行业语义网络;获取训练语料;通过所述训练语料训练意图识别分类模型;接收用户问题,通过所述意图识别分类模型对所述用户问题进行意图识别,得到意图候选集,基于所述意图候选集,通过所述行业语义网络进行多轮人机交互,确定与所述用户问题意图匹配的标准问题,输出答案。本发明专利技术还公开了一种电子设备和计算机存储介质。

【技术实现步骤摘要】
基于语义网和意图识别的人机交互方法、设备及介质
本专利技术涉及自然语音处理领域,尤其涉及一种基于语义网和意图识别的人机交互方法、设备及介质。
技术介绍
呼叫中心或客服中心的人员一般流动性大,导致企业的培训成本较大以及客户服务满意度下降等问题,造成运营成本大幅上升。因此智能客服越来越受重视,但智能客服在交互过程中面临意图识别不准确,意图模糊无法定位,训练语料维护成本高等问题。为了解决上述问题,在现有技术中,存在中国专利申请201710575327.5,公开了一种基于知识图谱的问答方法及装置,获取用户输入的自然查询语句,并识别出自然查询语句中的实体针对知识图谱的全局唯一标识符GUID,知识图谱中包括实体的属性和属性值以及各实体之间的关系;根据上下文无关文法规则,将自然查询语句解析为语法树,并根据语法树得到自然查询语句对应的逻辑表达式;根据逻辑表达式以及实体的GUID,生成知识图谱对应的机器查询语句;根据机器查询语句,在知识图谱中查询机器查询语句对应的问答结果,并向用户反馈问答结果。以实现针对问答可以获取准确的问答结果。但该专利申请需要大量语料构建的知识图谱,且目前的通用实体识别模型只能识别人名、地名、机构名等,对特定领域的专业实体的识别缺乏训练语料,导致缺乏特定领域的问答适用性,且问答过程中因存在很多口语化语句,导致实体和属性无法提取,因此无法准确定位问题。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供一种基于语义网和意图识别的人机交互方法,可实现准确识别问题意图,提高人机交互的问答质量。本专利技术的目的之一采用以下技术方案实现:一种基于语义网和意图识别的人机交互方法,包括以下步骤:获取行业内的常见问题解答作为交互数据源;对所述常见问题解答中的标准问题进行语义标注,构建行业语义网络;获取训练语料,所述训练语料包括所述标准问题、所述标准问题的相似问题及所述标准问题对应的意图标签;通过所述训练语料训练机器学习模型,得到意图识别分类模型;接收用户问题,通过所述意图识别分类模型对所述用户问题进行意图识别,得到意图候选集,其中所述意图候选集包括若干意图类别下的标准问题;基于所述意图候选集,通过所述行业语义网络进行多轮人机交互,确定与所述用户问题意图匹配的标准问题,从所述交互数据源中查询与所述用户问题意图匹配的标准问题的答案,输出所述答案。进一步地,根据预先构建的分词词典,对所述标准问题进行分词、词性标注和句法分析,得到所述标准问题中的各分词之间的依存句法关系;根据语义标注规则,提取所述标准问题中各分词的语义属性,其中所述语义属性包括个体、状语、动作属性、定语和数据属性;根据所述语义属性,标注所述标准问题中的各分词,得到所述标准问题中的各分词的语义标注结果;根据所述语义标注结果,按以下查询顺序构建语义网络:查询所述标准问题中的个体,将所述个体作为所述语义网络的节点;查询所述个体对应的动作属性,将所述动作属性作为所述个体的分支节点;查询所述动作属性对应的数据属性和状语,将查询到的数据属性和状语分别作为所述动作属性的分支节点;查询数据属性对应的定语,将查询到的定语作为所述数据属性的分支节点。进一步地,还包括以下步骤:动作属性确定规则:若核心词是所述标准问题中的第一个动词,则标记为动作属性;若核心词是非动词时,则查找与所述核心词距离最近的动词标记为动作属性;若核心词不是第一个动词,则查找与所述核心词有直接关系的动词标记为动作属性;个体确定规则:当所述标准问题的分词数量小于3时,将第一个未被标记的分词标记为个体;当两个未被标记的分词不相连且距离最近时,将第一个未被标记的分词标记为个体;当两个未被标记的分词相连且有修饰关系时,则合并所述两个未被标记且相连的分词并标记为个体;分词合并规则:当需要合并的分词相连并均未被标记为所述语义属性,且均不为形容词和副词时,将所述标准问题的定中关系和状中关系与被修饰词合并;将与核心词并列的分词与宾语合并;将所述标准问题中的并列宾语合并;当所述标准问题中的动作属性不是核心词时,将核心词和所述核心词的宾语合并;数据属性确定规则:将所述标准问题的动作属性的宾语标记为数据属性;将所述标准问题中与动作属性有主谓关系的分词标记为数据属性;定语状语确定规则:将所述标准问题中修饰动作属性的形容词或副词及其他名词修饰语标记为状语;将所述标准问题中修饰数据属性的形容词或副词及其他名词修饰语标记为定语。进一步地,获取训练语料,包括:获取所述标准问题以及所述标准问题对应的意图标签;构建所述标准问题的相似问题,包括以下步骤:对所述标准问题进行分词和词性标注,提取所述标准问题的名词、动词和个体词;在通用同义词词典中检索所述名词和所述动词的同义词,通过检索到的同义词依次循环替换对应的所述名词和对应的所述动词,得到若干新语句;通过语言模型对所述若干新语句进行评分;将评分排序前N位的新语句中的个体词依次替换成个体同义词词典中的同义词,得到所述标准问题的若干相似问题。进一步地,通过所述训练语料训练机器学习模型,得到意图识别分类模型,包括以下步骤:对所述训练语料进行分词、词性标注和停用词过滤,得到预处理后的训练语料;将预处理后的训练语料进行特征的构建,其中所述特征的构建包括自定义特征的构建、词特征的构建、语义特征的构建及句法特征的构建;通过特征构建后的训练语料训练机器学习模型,确定所述机器学习模型中与所述训练语料中的意图标签拟合的特征的权重;固定所述权重,得到意图识别分类模型。进一步地,接收用户问题,通过所述意图识别分类模型对所述用户问题进行意图识别,得到意图候选集,包括以下步骤:对所述用户问题进行分词、词性标注和停用词过滤,得到预处理后的用户问题;对所述预处理后的用户问题进行所述特征的构建;通过所述意图识别模型计算所述特征与所述特征对应的固定权重下的每个意图类别的置信度值,按置信度值从大到小,依次排序输出相关置信度值对应的意图类别下的标准问题作为候选问题,并形成意图候选集,所述意图候选集包括预设个数的候选问题和每个候选问题对应的置信度值。进一步地,基于所述意图候选集,通过所述行业语义网络进行多轮人机交互,确定与所述用户问题意图匹配的标准问题,从所述交互数据源中查询与所述用户问题意图匹配的标准问题的答案,输出所述答案,包括以下步骤:当所述意图候选集中置信度值最大的候选问题的置信度值大于第一预设阈值时,从所述交互数据源中查询所述置信度值最大的候选问题对应的答案,并输出所述置信度值最大的候选问题对应的答案;当所述意图候选集中置信度值最大的候选问题的置信度值小于第二预设阈值时,则将所述用户问题判定为未识别问题;当所述意图候选集中置信度值最大的候选问题的置信度值小于所述第一预设阈值且大于所述第二预设阈值时,根据所述行业语义网络和所述意图候选集,确定所本文档来自技高网...

【技术保护点】
1.一种基于语义网和意图识别的人机交互方法,其特征在于,包括以下步骤:/n获取行业内的常见问题解答作为交互数据源;/n对所述常见问题解答中的标准问题进行语义标注,构建行业语义网络;/n获取训练语料,所述训练语料包括所述标准问题、所述标准问题的相似问题及所述标准问题对应的意图标签;/n通过所述训练语料训练机器学习模型,得到意图识别分类模型;/n接收用户问题,通过所述意图识别分类模型对所述用户问题进行意图识别,得到意图候选集,其中所述意图候选集包括若干意图类别下的标准问题;/n基于所述意图候选集,通过所述行业语义网络进行多轮人机交互,确定与所述用户问题意图匹配的标准问题,从所述交互数据源中查询与所述用户问题意图匹配的标准问题的答案,输出所述答案。/n

【技术特征摘要】
1.一种基于语义网和意图识别的人机交互方法,其特征在于,包括以下步骤:
获取行业内的常见问题解答作为交互数据源;
对所述常见问题解答中的标准问题进行语义标注,构建行业语义网络;
获取训练语料,所述训练语料包括所述标准问题、所述标准问题的相似问题及所述标准问题对应的意图标签;
通过所述训练语料训练机器学习模型,得到意图识别分类模型;
接收用户问题,通过所述意图识别分类模型对所述用户问题进行意图识别,得到意图候选集,其中所述意图候选集包括若干意图类别下的标准问题;
基于所述意图候选集,通过所述行业语义网络进行多轮人机交互,确定与所述用户问题意图匹配的标准问题,从所述交互数据源中查询与所述用户问题意图匹配的标准问题的答案,输出所述答案。


2.如权利要求1所述的基于语义网和意图识别的人机交互方法,其特征在于,对所述常见问题解答中的标准问题进行语义标注,构建行业语义网络,包括以下步骤:
根据预先构建的分词词典,对所述标准问题进行分词、词性标注和句法分析,得到所述标准问题中的各分词之间的依存句法关系;
根据语义标注规则,提取所述标准问题中各分词的语义属性,其中所述语义属性包括个体、状语、动作属性、定语和数据属性;
根据所述语义属性,标注所述标准问题中的各分词,得到所述标准问题中的各分词的语义标注结果;
根据所述语义标注结果,按以下查询顺序构建语义网络:查询所述标准问题中的个体,将所述个体作为所述语义网络的节点;查询所述个体对应的动作属性,将所述动作属性作为所述个体的分支节点;查询所述动作属性对应的数据属性和状语,将查询到的数据属性和状语分别作为所述动作属性的分支节点;查询数据属性对应的定语,将查询到的定语作为所述数据属性的分支节点。


3.如权利要求2所述的基于语义网和意图识别的人机交互方法,其特征在于,所述语义标注规则,包括:
动作属性确定规则:若核心词是所述标准问题中的第一个动词,则标记为动作属性;若核心词是非动词时,则查找与所述核心词距离最近的动词标记为动作属性;若核心词不是第一个动词,则查找与所述核心词有直接关系的动词标记为动作属性;
个体确定规则:当所述标准问题的分词数量小于3时,将第一个未被标记的分词标记为个体;当两个未被标记的分词不相连且距离最近时,将第一个未被标记的分词标记为个体;当两个未被标记的分词相连且有修饰关系时,则合并所述两个未被标记且相连的分词并标记为个体;
分词合并规则:当需要合并的分词相连并均未被标记为所述语义属性,且均不为形容词和副词时,将所述标准问题的定中关系和状中关系与被修饰词合并;将与核心词并列的分词与宾语合并;将所述标准问题中的并列宾语合并;当所述标准问题中的动作属性不是核心词时,将核心词和所述核心词的宾语合并;
数据属性确定规则;将所述标准问题的动作属性的宾语标记为数据属性;将所述标准问题中与动作属性有主谓关系的分词标记为数据属性;
定语状语确定规则;将所述标准问题中修饰动作属性的形容词或副词及其他名词修饰语标记为状语;将所述标准问题中修饰数据属性的形容词或副词及其他名词修饰语标记为定语。


4.如权利要求1所述的基于语义网和意图识别的人机交互方法,其特征在于,获取训练语料,包括:
获取所述标准问题以及所述标准问题对应的意图标签;
构建所述标准问题的相似问题,包括以下步骤:
对所述标准问题进行分词和词性标注,提取所述标准问题的名词、动词和个体词;
在通用同义词词典中检索所述名词和所述动词的同义词,通过检索到的同义词依次循环替换对应的所述名词和对应的所述动词,得到若干新语句;
通过语言模型对所述若干新语句进行评分;
将评分排序前N位的新语句中的个体词依次替换成个体同义词词典中的同义词,得到所述标准问题的若干相似问题。


5.如权利要求4所述的基于语义网和意图识别的人机交互方法,其特征在于,通过所述训练语料训练机器学习模型,得到意图识别分类模型,包括以下步骤:
对所述训练语料进行分词、词性标注和停用...

【专利技术属性】
技术研发人员:嵇望钱艳王伟凯梁青安毫亿朱鹏飞陈默
申请(专利权)人:杭州远传新业科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1