一种主题森林式人机对话方法及系统技术方案

技术编号:21629023 阅读:65 留言:0更新日期:2019-07-17 11:07
本发明专利技术公开了一种主题森林式人机对话方法及系统,其通过对原始语料进行主题聚类,并对每个类型的主题进行实体关系的识别和提取,并根据实体关系确定每个类型的主题的必要属性和附加属性;根据必要属性和附加属性创建主题结构树及主题森林式语料库;人机对话时,对访客问题进行主题类型的匹配、主题的实体属性的匹配,根据匹配结果判断是否缺少必要属性;根据所缺少的必要属性对访客进行追问,对满足所有必要属性的访客问题,在主题森林式语料库中查找对应的答案并提供给访客;一方面,能够保证获取到准确的、完整的访客问题,以在此基础上保证答案的准确性和提高沟通效率;另一方面,机器回答问题的速度和范围能够得到提高,用户体验更好。

A method and system of thematic forest man-machine dialogue

【技术实现步骤摘要】
一种主题森林式人机对话方法及系统
本专利技术涉及人工智能
,特别是一种主题森林式人机对话方法及其应用该方法的系统。
技术介绍
随着互联网及电子商务的普及应用,及人工智能技术的发展,智能客服越来越常见。智能客服是在大规模知识处理基础上发展起来的一项面向行业应用的,涉及大规模知识处理技术、自然语言理解技术、知识管理技术、自动问答系统、推理技术等等,具有行业通用性,不仅为企业提供了细粒度知识管理技术,还为企业与海量用户之间的沟通建立了一种基于自然语言的快捷有效的技术手段;同时还能够为企业提供精细化管理所需的统计分析信息,可以大大降低企业在客服方面的人工成本。智能客服的工作原理主要是基于大数据知识处理技术的应用,即通过提取访客的关键词来判断访客的问题,然后从语料库中匹配相应的答案给访客。获得准确答案的前提,是能够提取准确和完整的问题。但是,目前的对话方式具有以下不足:1.当机器对人的问题判断不清楚时,可能会答非所问;2.当机器对问题理解不全面时,系统一般选择不回答该问题,并把问题收集进行后台人工处理;3.整体人机对话效率较低,影响用户体验度。
技术实现思路
本专利技术为解决上述问题,提供了一种主题森林式人机对话方法及系统,通过在创建主题森林式语料库时设置主题的必要属性和附加属性,并在人机对话时将访客问题进行主题匹配和必要属性的匹配以及必要属性的追问,从而能够保证获取到准确的、完整的访客问题,以在此基础上保证答案的准确性和提高沟通效率。为实现上述目的,本专利技术采用的技术方案为:一种主题森林式人机对话方法,其包括以下步骤:a.收集原始语料,并对原始语料进行主题聚类,得到不同类型的主题;b.对每个类型的主题进行实体关系的识别和提取,并根据所述实体关系确定每个类型的主题的实体属性,其中,所述实体属性包括必要属性和附加属性;c.根据所述必要属性和附加属性,为每个类型的主题创建主题结构树,以及为所有类型的主题创建主题森林式语料库;d.人机对话时,对访客问题进行主题类型的匹配、主题的实体属性的匹配,根据匹配结果判断是否缺少必要属性;e.根据所缺少的必要属性对访客进行追问,得到访客问题的对应的主题类型的所有必要属性;f.对满足所有必要属性的访客问题,在所述主题森林式语料库中查找对应的答案,并提供给访客。优选的,所述的步骤a中,对原始语料进行主题聚类,是利用LDA主题模型工具进行主题提取和主题分类。优选的,所述的步骤b中,对每个类型的主题进行实体关系的识别和提取,是通过对原始语料进行语法解析和语义解析,根据解析结果提取实体信息和标注实体信息之间的关系。优选的,所述的步骤c中,所述主题结构树包括当前主题信息和主题间关联信息,根据所述主题间关联信息将所有类型的主题进行关联索引,得到主题森林式语料库。优选的,所述的步骤d中,是通过对访客问题进行分词处理和关键词提取,根据提取的关键词进行匹配其所属的主题类型,并获取其所属的主题类型的必要属性和附加属性;然后将提取的关键词与所述必要属性和附加属性进行匹配,根据匹配结果判断是否缺少必要属性。另外,本专利技术还提供了与前述一种主题森林式人机对话方法相对应的系统,其包括语料库创建模块和人机对话模块,其中:所述语料库创建模块进一步包括:语料搜集单元,用于收集原始语料;主题聚类单元,用于对原始语料进行主题聚类,得到不同类型的主题;实体关系分析单元,用于对每个类型的主题进行实体关系的识别和提取,并根据所述实体关系确定每个类型的主题的实体属性,其中,所述实体属性包括必要属性和附加属性;主题森林创建单元,用于根据所述必要属性和附加属性,为每个类型的主题创建主题结构树,以及为所有类型的主题创建主题森林式语料库;所述人机对话模块进一步包括:访客问题匹配单元,用于在人机对话时,对访客问题进行主题类型的匹配、主题的实体属性的匹配,根据匹配结果判断是否缺少必要属性;必要属性追问单元,用于根据所缺少的必要属性对访客进行追问,得到访客问题的对应的主题类型的所有必要属性;访客问题回答单元,用于对满足所有必要属性的访客问题,在所述主题森林式语料库中查找对应的答案,并提供给访客。本专利技术的有益效果是:本专利技术的一种主题森林式人机对话方法及系统,其通过在创建主题森林式语料库时设置主题的必要属性和附加属性,并在人机对话时将访客问题进行主题匹配和必要属性的匹配以及必要属性的追问,一方面,能够保证获取到准确的、完整的访客问题,以在此基础上保证答案的准确性和提高沟通效率;另一方面,机器回答问题的速度和范围能够得到提高,用户体验更好。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术一种主题森林式人机对话方法的流程简图;图2为本专利技术一种主题森林式人机对话系统的结构示意图。具体实施方式为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,本专利技术的一种主题森林式人机对话方法,其包括以下步骤:a.收集原始语料,并对原始语料进行主题聚类,得到不同类型的主题;b.对每个类型的主题进行实体关系的识别和提取,并根据所述实体关系确定每个类型的主题的实体属性,其中,所述实体属性包括必要属性和附加属性;c.根据所述必要属性和附加属性,为每个类型的主题创建主题结构树,以及为所有类型的主题创建主题森林式语料库;d.人机对话时,对访客问题进行主题类型的匹配、主题的实体属性的匹配,根据匹配结果判断是否缺少必要属性;e.根据所缺少的必要属性对访客进行追问,得到访客问题的对应的主题类型的所有必要属性;f.对满足所有必要属性的访客问题,在所述主题森林式语料库中查找对应的答案,并提供给访客。所述的步骤a中,对原始语料进行主题聚类,是利用LDA主题模型工具进行主题提取和主题分类。其中,所述原始语料是指访客与客服的历史对话记录,并根据新的对话记录对所述原始语料进行定期更新或实时更新。所述LDA(LatentDirichletAllocation)主题模型是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。文档到主题服从多项式分布,主题到词服从多项式分布。对每一篇文档,从主题分布中抽取一个主题,从被抽到的主题所对应的单词分布中抽取一个单词;重复上述过程直至遍历文档中的每一个单词,从而得到文档的主题。所述文档即本专利技术中的访客与客服的对话记录。例如,将一份原始语料话费为天气查询、火车查询、航班查询等主题。所述的步骤b中,对每个类型的主题进行实体关系的识别和提取,是通过对原始语料进行语法解析和语义解析,根据解析结果提取实体信息和标注实体信息之间的关系,可以用实体关系图进行表示。实体关系图:简记E-R图,是指以实体、关系、属性三个基本概念概括数据的基本结构。所述实体即命名实体(namedentity),其包括名称(组织名、人名、地名、商品名)、表达式(日期、时间)等在内的具有明确语义信息的文本实体,在E-R图中用矩形表示,矩形框内写明实体名;比如访客作为一个实体。所述属性(Attribute),实体所本文档来自技高网...

【技术保护点】
1.一种主题森林式人机对话方法,其特征在于,包括以下步骤:a.收集原始语料,并对原始语料进行主题聚类,得到不同类型的主题;b.对每个类型的主题进行实体关系的识别和提取,并根据所述实体关系确定每个类型的主题的实体属性,其中,所述实体属性包括必要属性和附加属性;c.根据所述必要属性和附加属性,为每个类型的主题创建主题结构树,以及为所有类型的主题创建主题森林式语料库;d.人机对话时,对访客问题进行主题类型的匹配、主题的实体属性的匹配,根据匹配结果判断是否缺少必要属性;e.根据所缺少的必要属性对访客进行追问,得到访客问题的对应的主题类型的所有必要属性;f.对满足所有必要属性的访客问题,在所述主题森林式语料库中查找对应的答案,并提供给访客。

【技术特征摘要】
1.一种主题森林式人机对话方法,其特征在于,包括以下步骤:a.收集原始语料,并对原始语料进行主题聚类,得到不同类型的主题;b.对每个类型的主题进行实体关系的识别和提取,并根据所述实体关系确定每个类型的主题的实体属性,其中,所述实体属性包括必要属性和附加属性;c.根据所述必要属性和附加属性,为每个类型的主题创建主题结构树,以及为所有类型的主题创建主题森林式语料库;d.人机对话时,对访客问题进行主题类型的匹配、主题的实体属性的匹配,根据匹配结果判断是否缺少必要属性;e.根据所缺少的必要属性对访客进行追问,得到访客问题的对应的主题类型的所有必要属性;f.对满足所有必要属性的访客问题,在所述主题森林式语料库中查找对应的答案,并提供给访客。2.根据权利要求1所述的一种主题森林式人机对话方法,其特征在于:所述的步骤a中,对原始语料进行主题聚类,是利用LDA主题模型工具进行主题提取和主题分类。3.根据权利要求1所述的一种主题森林式人机对话方法,其特征在于:所述的步骤b中,对每个类型的主题进行实体关系的识别和提取,是通过对原始语料进行语法解析和语义解析,根据解析结果提取实体信息和标注实体信息之间的关系。4.根据权利要求1所述的一种主题森林式人机对话方法,其特征在于:所述的步骤c中,所述主题结构树包括当前主题信息和主题间关联信息,根据所述主题间关联信息将所有类型的主题进...

【专利技术属性】
技术研发人员:朱敬华肖龙源蔡振华李稀敏刘晓葳谭玉坤
申请(专利权)人:厦门快商通信息技术有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1