用于发现和探索概念的系统和方法技术方案

技术编号:13295135 阅读:44 留言:0更新日期:2016-07-09 13:22
一种用于识别多个交互中的概念的方法包含:在处理器上基于间隔筛选所述交互;在所述处理器上从所述经筛选的交互创建多个语句;在所述处理器上计算每一所述语句的突出性;在所述处理器上删除用于产生一组信息性语句的具有低突出性的语句;在所述处理器上聚集用于产生多个语句群集的所述一组信息性语句中的所述语句,所述群集中的每一者对应于所述概念中的一概念;在所述处理器上计算所述群集中的每一者的突出性;以及在所述处理器上命名所述群集中的每一者。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术的方面涉及语音处理、编索引、搜索和分析方法。明确地说,本专利技术的方面涉及分析记录的和实况信息以将对话归类和识别概念和趋势。
技术介绍
组织的联系中心通常接收关于多种问题的大量呼叫。举例来说,联系中心的销售部门可接收具有关于由组织提供的各种产品的特征集合和定价的问题的呼叫;客户支持部门可接收关于使用正递送的产品或服务质量的特定问题的呼叫;财会部门可接收关于记账策略、不正确收费和其它问题的改变的呼叫。通常,组织能够识别对话(或“交互”)内的概念和样式以便将呼叫归类且识别待解决的基础问题(例如,关于产品的特定投诉或对服务的一般不满意)是有用的。然而,用于如此进行的常规系统通常涉及由客户支持代理收集的数据的手动调查和此数据的手动分析。此手动分析过程可能耗时且在收集数据和确定来自分析的结果之间可存在长的延迟。在一些常规系统中,可将对话基于其含有的预定义的关键字或短语加标签或归类。举例来说,通过由人类收听者识别或由计算机系统使用短语辨识识别的短语的以上论述的手动(人工)分析,某人可推断含有短语“我想要跟您的经理讲话”和“我可以跟您的主管谈话吗?”的具有呼叫中心的对话导致到更高级别代表的呼叫的升级。因而,可将含有这些短语的任何呼叫归类为含有“升级尝试”。因而,组织可基于落到各种种类内的这些交互的数目来识别趋势和推断条件。举例来说,源自特定领域且归类为指示“服务中断”或“不良网络性能”的大量交互可对因特网服务提供方警报采取行动来解决那个特定领域内的系统问题。然而,含有先前未识别的短语的对话将不被恰当地归类。举例来说,如果短语“让我跟你的老板讲话”先前未被识别为与升级尝试相关联,那么含有那个短语的对话将不被归类为“升级尝试”。此外,一些常规系统使用贝叶斯网络识别事件之间的相关性。然而,开发这些贝叶斯网络需要人工输入以指定各种参数(例如,贝叶斯网络的节点)。
技术实现思路
本专利技术的实施例的方面是针对解决与数据的发现和探索有关的两个问题。本专利技术的一个方面是针对在无人工辅助的情况下来自一组文档的概念的自动发现和提取。此外,本专利技术的实施例是针对理解为什么将某一文档或电话呼叫分类成预定义的种类或为什么所述文档或电话呼叫含有特定概念(其可为新识别的)。换句话说,本专利技术的实施例是针对发现由客户报告的各种“症状”的“根本原因”是什么且推断为待按预定义种类或新发现的概念“B”归类的呼叫的根本原因的预定义种类或新发现的概念“A”,因此组织或用户可解决基础问题。根据本专利技术的一个实施例,一种用于识别多个交互中的概念的方法包含:在处理器上基于间隔筛选所述交互;在所述处理器上从所述经筛选的交互创建多个语句;在所述处理器上计算每一所述语句的突出性;在所述处理器上删除用于产生一组信息性语句的具有低突出性的语句;在所述处理器上聚集用于产生多个语句群集的所述一组信息性语句中的所述语句,所述群集中的每一者对应于所述概念中的一概念;在所述处理器上计算所述群集中的每一者的突出性;以及在所述处理器上命名所述群集中的每一者。所述交互可包含话音辨识系统的输出。所述方法可进一步包含基于字词置信度筛选所述话音辨识系统的所述输出。所述话音辨识系统可为大词汇量连续语音辨识系统。所述间隔可为时间间隔。所述聚集所述语句可包含:从所述一组信息性语句选择多个模板语句,所述模板语句中的每一者对应于所述群集中的一者;计算所述一组信息性语句中的每一语句与所述模板语句的类似性;根据与所述模板语句的所述计算的类似性,将所述一组信息性语句中的所述语句中的每一者指派到所述群集中的一群集;以及去除具有少于阈值数目个指派的语句的群集。所述聚集所述语句可进一步包含反复地从未指派到群集的语句选择额外模板语句和重复所述选择所述多个模板语句,计算每一语句与所述模板语句的所述类似性;所述将所述语句中的所述每一者指派到所述群集;以及去除具有少于所述阈值数目个指派的语句的群集,直到所有语句被指派或直到达到反复限制。所述命名所述群集中的每一者可包含对于每一群集:计算所述群集中的每一语句的词频-倒置文档频率和命名具有所述群集中的具有最高词频-倒置文档频率的语句的所述群集。根据本专利技术的另一实施例,一种用于探索在多个交互中自动地识别的概念的方法包含:在处理器上接收包括概念的查询;由所述处理器检索含有所述概念的群集;以及显示所述检索的群集,其中所述概念是通过以下操作自动地识别:在所述处理器上基于间隔筛选所述交互;在所述处理器上从所述经筛选的交互创建多个语句;在所述处理器上计算每一所述语句的突出性;在所述处理器上删除用于产生一组信息性语句的具有低突出性的语句;以及在所述处理器上聚集用于产生多个语句群集的所述一组信息性语句中的所述语句,所述群集中的每一者对应于所述概念中的一概念。根据本专利技术的一个实施例,一种计算机系统包含:处理器;以及存储器,其中所述存储器具有存储于其上的指令,所述指令在由所述处理器执行时使所述处理器通过以下操作来识别多个交互中的概念:基于间隔筛选所述交互;从所述经筛选的交互创建多个语句;计算每一所述语句的突出性;删除用于产生一组信息性语句的具有低突出性的语句;聚集用于产生多个语句群集的所述一组信息性语句中的所述语句,所述群集中的每一者对应于所述概念中的一概念;计算所述群集中的每一者的突出性;以及命名所述群集中的每一者。所述交互可包含话音辨识系统的输出。所述指令可进一步包含用于基于字词置信度筛选所述话音辨识系统的所述输出的指令。所述话音辨识系统可为大词汇量连续语音辨识系统。所述间隔可为时间间隔。所述聚集所述语句可包含:从所述一组信息性语句选择多个模板语句,所述模板语句中的每一者对应于所述群集中的一者;计算所述一组信息性语句中的每一语句与所述模板语句的类似性;根据与所述模板语句的所述计算的类似性,将所述一组信息性语句中的所述语句中的每一者指派到所述群集中的一群集;以及去除具有少于阈值数目个指派的语句的群集。所述聚集所述语句可进一步包含反复地从未指派到群集的语句选择额外模板语句和重复所述选择所述多个模板语句,计算每一语句与所述模板语句的所述类似性;所述将所述语句中的所述每一者指派到所述群集;以及去除具有少于所述阈值数目个指派的语句的群集,直到所有语句被指派或直到达到反复限制。所述命名所述群集中的每一者可包含对于每一群集:计算所述群集中的每一语句的词频-倒置文档频率和命名具有所述群集中的具有最高词频-倒置文档频率的语句的所述群集。根据本文档来自技高网
...

【技术保护点】
一种用于识别多个交互中的概念的方法,所述方法包括:在处理器上基于间隔筛选所述交互;在所述处理器上从所述经筛选的交互创建多个语句;在所述处理器上计算每一所述语句的突出性;在所述处理器上删除用于产生一组信息性语句的具有低突出性的语句;在所述处理器上聚集用于产生多个语句群集的所述一组信息性语句中的所述语句,所述群集中的每一者对应于所述概念中的一概念;在所述处理器上计算所述群集中的每一者的突出性;以及在所述处理器上命名所述群集中的每一者。

【技术特征摘要】
【国外来华专利技术】2013.07.26 US 13/952,470;2013.07.26 US 13/952,4591.一种用于识别多个交互中的概念的方法,所述方法包括:
在处理器上基于间隔筛选所述交互;
在所述处理器上从所述经筛选的交互创建多个语句;
在所述处理器上计算每一所述语句的突出性;
在所述处理器上删除用于产生一组信息性语句的具有低突出性的语句;
在所述处理器上聚集用于产生多个语句群集的所述一组信息性语句中的所述语句,所
述群集中的每一者对应于所述概念中的一概念;
在所述处理器上计算所述群集中的每一者的突出性;以及
在所述处理器上命名所述群集中的每一者。
2.根据权利要求1所述的方法,其中所述交互包括话音辨识系统的输出。
3.根据权利要求2所述的方法,其进一步包括基于字词置信度筛选所述话音辨识系统
的所述输出。
4.根据权利要求2所述的方法,其中所述话音辨识系统为大词汇量连续语音辨识系统。
5.根据权利要求1所述的方法,其中所述间隔为时间间隔。
6.根据权利要求1所述的方法,其中所述聚集所述语句包括:
从所述一组信息性语句选择多个模板语句,所述模板语句中的每一者对应于所述群集
中的一者;
计算所述一组信息性语句中的每一语句与所述模板语句的类似性;
根据与所述模板语句的所述计算的类似性,将所述一组信息性语句中的所述语句中的
每一者指派到所述群集中的一群集;以及
去除具有少于阈值数目个指派的语句的群集。
7.根据权利要求6所述的方法,其中所述聚集所述语句进一步包括反复地从未指派到
群集的语句选择额外模板语句和重复所述选择所述多个模板语句,计算每一语句与所述模
板语句的所述类似性;所述将所述语句中的所述每一者指派到所述群集;以及去除具有少
于所述阈值数目个指派的语句的群集,直到所有语句被指派或直到达到反复限制。
8.根据权利要求1所述的方法,其中所述命名所述群集中的每一者包括对于每一群集:
计算所述群集中的每一语句的词频-倒置文档频率,以及
命名具有所述群集中的具有最高词频-倒置文档频率的语句的所述群集。
9.一种用于探索在多个交互中自动地识别的概念的方法,所述方法包括:
在处理器上接收包括概念的查询;
由所述处理器检索含有所述概念的群集;以及
显示所述检索的群集,
其中所述概念是通过以下操作自动地识别:
在所述处理器上基于间隔筛选所述交互;
在所述处理器上从所述经筛选的交互创建多个语句;
在所述处理器上计算每一所述语句的突出性;
在所述处理器上删除用于产生一组信息性语句的具有低突出性的语句;以及
在所述处理器上聚集用于产生多个语句群集的所述一组信息性语句中的所述语句,所
述群集中的每一者对应于所述概念中的一概念。
10.一种计算机系统,其包括:
处理器;以及
存储器,其中所述存储器具有存储于其上的指令,所述指令在由所述处理器执行时使
所述处理器通过以下操作来识别多个交互中的概念:
基于间隔筛选所述交互;
从所述经筛选的交互创建多个语句;
计算每一所述语句的突出性;
删除用于产生一组信息性语句的具有低突出性的语句;
聚集用于产生多个语句群集的所述一组信息性语句中的所述语句,所述群集中的每一
者对应于所述概念中的一概念;
计算所述群集中的每一者的突出性;以及
命名所述群集中的每一者。
11.根据权利要求10所述的系统,其中所述交互包括话音辨识系统的输出。
12.根据权利要求11所述的系统,其中所述指令进一步包括用于基于字词置信度筛选
所述话音辨识系统的所述输出的指令。
13.根据权利要求11所述的系统,其中所述话音辨识系统为大词汇量连续语音辨识系
统。
14.根据权利要求10所述的系统,其中所述间隔为时间间隔。
15.根据权利要求10所述的系统,其中所述聚集所述语句包括:
从所述一组信息性语句选择多个模板语句,所述模板语句中的每一者对应于所述群集
中的一者;
计算所述一组信息性语句中的每一语句与所述模板语句的类似性;
根据与所述模板语句的所述计算的类似性,将所述一组信息性语句中的所述语句中的
每一者指派到所述群集中的一群集;以及
去除具有少于阈值数目个指派的语句的群集。
16.根据权利要求15所述的系统,其中所述聚集所述语句进一步包括反复地从未指派
到群集的语句选择额外模板语句和重复所述选择所述多个模板语句,计算每一语句与所述
模板语句的所述类似性;所述将所述语句中的所述每一者指派到所述群集;以及去除具有
少于所述阈值数目个指派的语句的群集,直到所有语句被指派或直到达到反复限制。
17.根据权利要求10所述的系统,其中所述命名所述群集中的每一者包括对于每一群
集:
计算所述群集中的每一语句的词频-倒置文档频率;以及
命名具有所述群集中的具有最高词频-倒置文档频率的语句的所述群集。
18.一种计算机系统,其包括:
处理器;以及
存储器,其中所述存储器具有存储于其上的指令,所述指令在由所述处理器执行时使
所述处理器通过以下操作来响应对概念的探索的请求:
接收包括概念的查询;
检索含有所述概念的群集;以及
显示所述检索的群集,
其中所述概念是通过以下操作自动地识别:
基于间隔筛选所述交互;
从所述经筛选的交互创建多个语句;
计算每一所述语句的突出性;
删除用于产生一组信息性语句的具有低突出性的语句;以及
聚集用于产生多个语句群集的所述一组信息性语句中的所述语句,所述群集中的每一
者对应于所述概念中的一概念。
19.一种用于确定在多个交互中检测到的事件的原因的方法,所述方法包括:
在处理器上识别所述交互中的多个要素;
在所述处理器上检测所述交互中的要素的多个序列;
在所述处理器上挖掘用于产生一组支持的样式的所述多个序列;
在所述处理器上从所述一组支持的样式计算关联规则;以及
返回所述计算的关联规则。
20.根据权利要求19所述的方法,其中所述要素包括定义的话题和识别的概念。
21.根据权利要求20所述的方法,其中所述识别的概念是通过以下操作导出:
在所述处理器上基于间隔筛选所述交互;
在所述处理器上从所述经筛选的交互创建多个语句;
在所述处理器上计算每一所述语句的突出性;
在所述处理器上删除用于产生一组信息性语句的具有低突出性的语句;
在所述处理器上聚集用于产生多个语句群集的所述一组信息性语句中的所述语句,所
述群集中的每一者对应于所述概念中...

【专利技术属性】
技术研发人员:艾密尔·里夫托夫阿夫拉哈姆·菲札柯夫大卫·奥林格尤查·卡尼格
申请(专利权)人:格林伊登美国控股有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1