一种话务热线流数据热点追踪方法技术

技术编号:39321284 阅读:12 留言:0更新日期:2023-11-12 16:01
本发明专利技术公开了一种话务热线流数据热点追踪方法,涉及话务数据领域,包括以下步骤:步骤一、首先按照设置的时间窗口(时、天、周)对生成的主题进行分隔;步骤二、对每个时间窗口下的主题数据通l_项频繁关键词集;步骤三、k_项频繁关键词集获取,并行是将获取频繁关键词集的一个计算任务分解成N个独立的子任务,每个子任务完成整个任务的1/N;步骤四、形成关联规则集,根据获得的全局&获取关联规则集,步骤五、最后筛选和组合所有时间窗口的关联规则集形成多个话题关键词集合,从而对热点事件的演化和传播路径进行跟踪,本发明专利技术解决了对多个话题的关键词集合实现对热点事件动态变化的跟踪。的关键词集合实现对热点事件动态变化的跟踪。的关键词集合实现对热点事件动态变化的跟踪。

【技术实现步骤摘要】
一种话务热线流数据热点追踪方法


[0001]本专利技术主要涉及话务数据的
,具体为一种话务热线流数据热点追踪方法。

技术介绍

[0002]主题识别与追踪是指通过对大量文本数据进行分析和挖掘,识别出其中的主题,并追踪主题的变化和演化过程。随着人们在日常生活和工作中使用手机和电脑的增多,我们每天都会在各种应用和平台上与他人进行交流和对话。这些对话文本记录了大量有价值的信息,包括用户需求、偏好、反馈等,这些信息可以被挖掘出来并用于提高服务效果。通过对话文本挖掘,企业可以更好地了解客户需求和反馈,优化客服流程,提高销售业绩和客户满意度,降低成本,改善企业形象和口碑。此外,主题识别与追踪可以应用于多个领域,如舆情监测、新闻报道、市场调研等。其主要目的是帮助人们了解当前社会热点、舆情动态、市场趋势等,从而做出更加准确的决策。
[0003]虽然基于主题识别的算法已取得了显著的进展和广泛应用,但由于客服对话表达多样性和业务场景复杂性,面向垂直领域的主题识别算法的准确性仍然较差,生成的主题效果受到多种因素的影响。现有的主题识别算法任然存在在语义理解不足、主题漂移问题、数据量限制、主题分类不准确、人工干预成本高和对多语言支持不足等不足和缺陷。这些问题限制了主题识别技术的准确性、可靠性和效率,此时主题识别模型在考虑了上述情况下,采取何种策略生成对话文本的主题,即如何生成最准确合适的主题尤为重要。
[0004]话务数据中一个主要的特点是多主题性即在一段对话中由于群众与客服之间的交谈差异,会出现容错,导致在一段对话中出现多个主题,如何在多主题的话务数据中选择出最佳主题,并考虑话务流数据在不同时间维度下的实时追踪与更新,是本专利技术解决和提升效果的具体问题与场景。

技术实现思路

[0005]基于此,本专利技术的目的是提供一种话务热线流数据热点追踪方法,以解决上述
技术介绍
中提出的技术问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:
[0007]一种话务热线流数据热点追踪方法,包括文本相关主题挖掘模块、候选词词性匹配与组合模块、文本情感分析模块和热点追踪模块,包括以下步骤:
[0008]步骤一、首先按照设置的时间窗口(时、天、周)对生成的主题进行分隔;
[0009]步骤二、对每个时间窗口下的主题数据通l_项频繁关键词集;
[0010]步骤三、k_项频繁关键词集获取,并行是将获取频繁关键词集的一个计算任务分解成N个独立的子任务,每个子任务完成整个任务的1/N;
[0011]步骤四、形成关联规则集,根据获得的全局&获取关联规则集,包括以下四个阶段:
[0012]a.获取全局Lk中所有k_项频繁关键词集的关联规则;
[0013]b.计算每个关联规则的置信度;
[0014]c.设置置信度阈值conf_min;
[0015]d.将满足置信度阈值的所有关联规则合并后约简,形成关联规则集;
[0016]步骤五、最后筛选和组合所有时间窗口的关联规则集形成多个话题关键词集合,从而对热点事件的演化和传播路径进行跟踪。
[0017]优选的,所述L1作为每次迭代获取k_项频繁关键词集的基础,其获取过程包括以下三个阶段:
[0018]a.由于Top关键词能够满足当前热点信息的获取,则每个Top关键词即为形成L1的一个候选关键词;
[0019]b.根据相应时间窗口的社交网络页面获取的数据集,对每个Top关键词出现的次数num(top[h])进行统计,其中top[h]为第h个Top关键词,则Top关键词的支持度sup_top[h]为:sup_top[h]=num(top[h])/num(D);
[0020]c.设置支持度阈值sup_min,若sup_min<sup_top[h],则将sup_top[h][0021]对应的Top关键词保留,记为l1[g]反之舍弃,由定义上式可知,
[0022]L1={l1[1],l1[2],...l1[g],...,l1[q]},g<h。
[0023]优选的,所述l_项频繁关键词集和k

l_项频繁关键词集合并获得k_项频繁关键词集,包括以下五个阶段:
[0024]a.根据Lk

1进行数据分割和任务分配,将一个或者m个k

1_项频繁关键词集分配给一个子任务且N个子任务之间获得的k

l项频繁关键词集互不重复,m的值由k

1_项频繁关键词集的数目确定;
[0025]b.将每个子任务分配的所有k

1_项频繁关键词集和L1中所有l_项频繁关键词集逐一合并,则每个新生成的k_项关键词集即为形成一个k_顼频繁关键词集的候选关键词集;
[0026]c.扫描相应时间窗口的获取的话务数据集,对每个k_项关键词集出现的次数num(k_keywords[h])进行统计,其中k_keywords[h]为第h个k_项关键词集,则k_项关键词集的支持度sup_k_keywords[h]为:sup_k_keywords[h]=num(k_keywords[h])/num(D);
[0027]d.比较支持度的关系,若sup_min<sup_k_keywords[h],则将sup_k_keywords[h]对应的k_项关键词集添加到Lk记为lk[g],反之舍弃,在每个子任务上分别生成
[0028]Lk={lk[1],lk[2],...lk[g],...,lk[q]},g<h;
[0029]e.将N个子任务的Lk结果合并后约简,将重复的k_项频繁关键词集删除,得到全局Lk。
[0030]优选的,所述主题通过LDA计算生成主题文档,挖掘出文档中的潜在主题,将文档表示成主题上的分布,将主题表示成词汇上的分布,每个主题可以看成是一个语义相近的词汇簇,每个词汇在主题上都有相应的出现的概率,LDA的生成过程如下:1.对于每一个主题k∈[1,K],采样主题对应的词分布:其中是Dirichlet分布的参数;2.对于文档集合中的每一篇文档d∈[1,D]:(a)采样一个主题分布:其中是Dirichlet分布的参数:(b)对于文档d中的每一个词wd,j,其中j∈[1,Nd],Nd表示文档d中
的单词数:i.从中采样出一个主题:ii.从主题zd,j对应的多项分布中,采样在LDA模型中,需要求解每篇文档的主题分、每个主题的词汇分布和每一个词被赋予的主题标签zd,j,通过统计推断可以求解模型以上变量,由于LDA是定义完好的文档生成模型,又解决了PLSA容易过拟合的问题,而且易于扩展,己成为引用次数最多的主题模型。
[0031]优选的,所述主题文档中针对不同词性的词对语义表达的贡献差异,对原始文本进行分词并标注词性,即名词、动词、形容词、副词等,通过PSC

LDA(Part of Speech本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种话务热线流数据热点追踪方法,包括文本相关主题挖掘模块、候选词词性匹配与组合模块、文本情感分析模块和热点追踪模块,其特征在于,包括以下步骤:步骤一、首先按照设置的时间窗口(时、天、周)对生成的主题进行分隔;步骤二、对每个时间窗口下的主题数据通l_项频繁关键词集;步骤三、k_项频繁关键词集获取,并行是将获取频繁关键词集的一个计算任务分解成N个独立的子任务,每个子任务完成整个任务的1/N;步骤四、形成关联规则集,根据获得的全局&获取关联规则集,包括以下四个阶段:a.获取全局Lk中所有k_项频繁关键词集的关联规则;b.计算每个关联规则的置信度;c.设置置信度阈值conf_min;d.将满足置信度阈值的所有关联规则合并后约简,形成关联规则集;步骤五、最后筛选和组合所有时间窗口的关联规则集形成多个话题关键词集合,从而对热点事件的演化和传播路径进行跟踪。2.根据权利要求1所述的一种话务热线流数据热点追踪方法,其特征在于,所述L1作为每次迭代获取k_项频繁关键词集的基础,其获取过程包括以下三个阶段:a.由于Top关键词能够满足当前热点信息的获取,则每个Top关键词即为形成L1的一个候选关键词;b.根据相应时间窗口的社交网络页面获取的数据集,对每个Top关键词出现的次数num(top[h])进行统计,其中top[h]为第h个Top关键词,则Top关键词的支持度sup_top[h]为:sup_top[h]=num(top[h])/num(D);c.设置支持度阈值sup_min,若sup_min<sup_top[h],则将sup_top[h]对应的Top关键词保留,记为l1[g]反之舍弃,由定义上式可知,L1={l1[1],l1[2],...l1[g],...,l1[q]},g<h。3.根据权利要求1所述的一种话务热线流数据热点追踪方法,其特征在于,所述l_项频繁关键词集和k

l_项频繁关键词集合并获得k_项频繁关键词集,包括以下五个阶段:a.根据Lk

1进行数据分割和任务分配,将一个或者m个k

1_项频繁关键词集分配给一个子任务且N个子任务之间获得的k

l项频繁关键词集互不重复,m的值由k

1_项频繁关键词集的数目确定;b.将每个子任务分配的所有k

1_项频繁关键词集和L1中所有l_项频繁关键词集逐一合并,则每个新生成的k_项关键词集即为形成一个k_顼频繁关键词集的候选关键词集;c.扫描相应时间窗口的获取的话务数据集,对每个k_项关键词集出现的次数num(k_keywords[h])进行统计,其中k_keywords[h]为第h个k_项关键词集,则k_项关键词集的支持度sup_k_keywords[h]为:sup_k_keywords[h]=num(k_keywords[h])/num(D);d.比较支持度的关系,若sup_min<sup_k_keywords[h],则将sup_k_keywords[h]对应的k_项关键词集添加到Lk记为lk[g],反之舍弃,在每个子任务上分别生成Lk={lk[1],lk[2],...lk[g],...,lk[q]},g<h;e.将N个子任务的Lk结果合并后约简,将重复的k_项频繁关键词集删除,得到全局Lk。4.根据权利要求1所述的一种话务热线流数据热点追踪方法,其特征在于,所述主题通过LDA计算生成主题文档,挖掘出文档中的潜在主题,将文档表示成主题上的分布,将主题
表示成词汇上的分布,每个主题可以看成是一个语义相近的词...

【专利技术属性】
技术研发人员:李靖阳
申请(专利权)人:北京海纳数聚科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1