基于意图分析和对话聚类的对话流程抽取方法、设备及存储介质技术

技术编号:19857594 阅读:125 留言:0更新日期:2018-12-22 11:43
本发明专利技术公开了一种基于意图分析和对话聚类的对话流程抽取方法、设备及存储介质,所述方法包括获取原始聊天语料,并通过LDA算法对其中的句子进行主题分析,分析出来的主题称为意图;筛选确认为有意义的主题,对语料中的有效意图的句子打上意图标签;将对话中的意图标签提取出来形成一个序列,所述序列称为对话流程,进一步的对所有对话流程采用KNN聚类算法,得到k个聚类,获得k个对话流程。本发明专利技术大大减少人工参与过程,提升效率。

【技术实现步骤摘要】
基于意图分析和对话聚类的对话流程抽取方法、设备及存储介质
本专利技术涉及人机对话
,具体涉及一种基于意图分析和对话聚类的对话流程抽取方法。
技术介绍
人机对话系统是将机器视为一个认知主体的人机交互系统。随着计算机软硬件技术和移动互联网的迅猛发展,能够有效处理非精确信息交互的、符合人类自然交互习惯的认知型人机对话系统受到了越来越多的关注。在任务型对话系统中,对话管理是十分重要的一个模块,对话管理的主要功能是控制人机对话过程中的整个对话的流程。目前,对话流程的构建大体分为2种:其中一种是纯人工构建;另一种是人工标注语料,再用机器学习的方法从语料中构建对话流程。无论哪种方法都十分地费时费力,前者需要人工阅读对话语料,并从中总结出对话流程;而后者虽然不需要人工总结,但人工标注的工作量却十分巨大。
技术实现思路
本专利技术的目的在于克服现有技术问题,提出一种基于意图分析和对话聚类的对话流程抽取方法、设备及其存储介质。为达成上述目的,首先,本专利技术提供了基于意图分析和对话聚类的对话流程抽取方法,所述方法包括步骤一至步骤四:步骤一,获取原始聊天语料,并通过LDA算法对其中的句子进行主题分析,分析出来的主题称为意图;步骤二,筛选确认为有意义的主题,所述有意义的主题称为有效意图;步骤三,对语料中的有效意图的句子打上意图标签;步骤四,将对话中的意图标签提取出来形成一个序列,所述序列称为对话流程。进一步的,对语料中的每段对话都进行意图标签提取,得到一个序列的集合,所述序列的集合为多个的对话流程。进一步的,对集合中的序列进行聚类,聚类中心中的获得的序列为有代表性的对话流程。进一步的,若所述对话包含第一对话D1、第二对话D2;所述第一对话D1包含n个句子,将对话表示为句子的序列S11,S12...S1n;对每个句子分别打上意图标签后,可将对话进一步抽象为意图的序列I11,I12...I1n;所述第二对话D2包含m个句子,将对话表示为句子的序列S21,S22...S2m;对每个句子分别打上意图标签后,可将对话进一步抽象为意图的序列I21,I22...I2m;使用编辑距离来衡量第一对话D1,第一对话D2所对应的对话流程的差别;其中,n、m均为正整数。进一步的,将语料中的每个对话分别表示成对话流程的形式,使用编辑距离来衡量任意2个对话所对应的对话流程的差别。进一步的,对所有对话流程采用KNN聚类算法,得到k个聚类,将每个聚类中心的对话流程挑选出来对话流程,得到k个对话流程,称为最终提取的对话流程。相应的,本专利技术还提供了一种设备,所述设备包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的处理系统,所述处理系统被所述处理器执行所述的基于意图分析和对话聚类的对话流程抽取方法的步骤。相应的,本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有处理系统,所述处理系统被处理器执行时实现上述的基于意图分析和对话聚类的对话流程抽取方法的步骤。通过本专利技术的基于意图分析和对话聚类的对话流程抽取方法、设备及其存储介质,与现有技术相比,本专利技术的对话流程抽取方法是采用意图分析和对话聚类的对话流程自动抽取过程,大大减少人工参与过程,整个构建过程,只需要筛选确认为有意义的主题的步骤中进行人工筛选意图,其余皆由系统自动完成,提升了工作效率,而且提升了话流程抽取的有效性和可靠性。附图说明此处所说明的附图用来提供对专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术的一种基于意图分析和对话聚类的对话流程抽取方法的流程示意图。具体实施方式为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例提供了一种基于意图分析和对话聚类的对话流程抽取方法,如附图1所示,包括如下步骤S1-S4:步骤S1,获取原始聊天语料,并通过LDA算法对其中的句子进行主题分析,分析出来的主题称为意图;步骤S2,筛选确认为有意义的主题,所述有意义的主题称为有效意图;步骤S3,对语料中的有效意图的句子打上意图标签;步骤S4,将一段对话中的意图标签提取出来形成一个序列,所述序列称为对话流程。语料中包含有多段对话,进一步的,对语料中的每段对话都进行意图标签提取,得到一个序列的集合,所述序列的集合为多个的对话流程。进一步的,对集合中的序列进行聚类,聚类中心中的获得的序列为有代表性的对话流程。本专利技术中,所述代表性的对话流程,至少2种用途:用于构造自动对话装置/机器人客服/聊天机器人的“对话管理”模块。例如,将代表性对话流程转换为有限状态机之后,就可以作为“对话管理”模块,可以将这些有代表性的对话流程用于培训,例如用于培训客服人员,或用于培训销售人员。进一步的,所述对话包含第一对话D1、第二对话D2,使用编辑距离来衡量第一对话D1,第一对话D2所对应的对话流程的差别。其中,所述第一对话D1包含n个句子,将对话表示为句子的序列S11,S12...S1n;对每个句子分别打上意图标签后,可将对话进一步抽象为意图的序列I11,I12...I1n;意图序列不包含具体的句子,它实际上表示的是对话的流程;类似地,所述第二对话可以抽象为由m个意图组成的序列,即该对话对应的对话流程:I21,I22...I2m,所述第二对话D2包含m个句子,将对话表示为句子的序列S21,S22...S2m;对每个句子分别打上意图标签后,可将对话进一步抽象为意图的序列I21,I22...I2m;其中,n、m均为正整数。进一步的,本专利技术基于意图分析和对话聚类的对话流程抽取方法中,将语料中的每个对话分别表示成对话流程的形式,使用编辑距离来衡量任意2个对话所对应的对话流程的差别。进一步的,对所有对话流程采用KNN聚类算法,得到k个聚类,将每个聚类中心的对话流程挑选出来对话流程,得到k个对话流程,称为最终提取的对话流程。需要说明的是,本专利技术中对话是指1次具体的会话。如在仅有2个人参与的会话中,常见的情况是2个人轮流说话,也有可能1个人会接连说几句话。将参与会话的2个人所说的话,按照时间先后顺序依次排列,所构成的句子的序列,即为对话。在本专利技术的另一实施例中,相对于上述基于意图分析和对话聚类的对话流程抽取方法,本专利技术还提供了一种设备,所述设备包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的处理系统,所述处理系统被所述处理器执行上述的基于意图分析和对话聚类的对话流程抽取方法的步骤。在本专利技术的另一实施例中,相对于上述设备,本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有处理系统,所述处理系统被处理器执行时实现上述的基于意图分析和对话聚类的对话流程抽取方法的步骤。本领域技术技术人员知道,本专利技术的实施方式可以实现为一种方法、设备或计算机程序产品。因此,本专利技术公开可以具体实现为以下形式,即全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。本专利技术中的KNN(k-NearestNeighbor)聚类算法,也称K最近邻分类算法,是本文档来自技高网...

【技术保护点】
1.一种基于意图分析和对话聚类的对话流程抽取方法,其特征在于,包括如下步骤:步骤一,获取原始聊天语料,并通过LDA算法对其中的句子进行主题分析,分析出来的主题称为意图;步骤二,筛选确认为有意义的主题,所述有意义的主题称为有效意图;步骤三,对语料中的有效意图的句子打上意图标签;步骤四,将对话中的意图标签提取出来形成一个序列,所述序列称为对话流程。

【技术特征摘要】
1.一种基于意图分析和对话聚类的对话流程抽取方法,其特征在于,包括如下步骤:步骤一,获取原始聊天语料,并通过LDA算法对其中的句子进行主题分析,分析出来的主题称为意图;步骤二,筛选确认为有意义的主题,所述有意义的主题称为有效意图;步骤三,对语料中的有效意图的句子打上意图标签;步骤四,将对话中的意图标签提取出来形成一个序列,所述序列称为对话流程。2.根据权利要求1所述的基于意图分析和对话聚类的对话流程抽取方法,其特征在于,对语料中的每段对话都进行意图标签提取,得到一个序列的集合,所述序列的集合为多个的对话流程。3.根据权利要求2所述的基于意图分析和对话聚类的对话流程抽取方法,其特征在于,对集合中的序列进行聚类,聚类中心中的获得的序列为有代表性的对话流程。4.根据权利要求1所述的基于意图分析和对话聚类的对话流程抽取方法,其特征在于,所述对话包含第一对话D1、第二对话D2;所述第一对话D1包含n个句子,将对话表示为句子的序列S11,S12...S1n;对每个句子分别打上意图标签后,可将对话进一步抽象为意图的序列I11,I12...I1n;所述第二对话D2包含m个句子,将对话表示为句子的序列S2...

【专利技术属性】
技术研发人员:蔡振华肖龙源李稀敏刘晓葳谭玉坤
申请(专利权)人:厦门快商通信息技术有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1