一种用于通话数据分析的方法、装置电子设备及存储设备制造方法及图纸

技术编号:35904620 阅读:54 留言:0更新日期:2022-12-10 10:42
本申请公开了一种用于通话数据分析的方法,包括:获取经自然语言处理的通话数据,所述通话数据包含不同通话参与者的数据集;将所述不同通话参与者的数据集作为训练数据,分别训练LDA主题模型,获得针对不同通话参与者的LDA模型,以及通话数据中的通话主题;利用所述训练得到LDA模型对所述通话数据进行分析,并根据所述通话主题对所述通话数据进行连续打标,获得带有通话主题标识的通话数据集。所述方法可以方便、准确获得通话数据的主题。准确获得通话数据的主题。准确获得通话数据的主题。

【技术实现步骤摘要】
一种用于通话数据分析的方法、装置电子设备及存储设备


[0001]本申请涉及计算机
,具体涉及用于通话数据分析的方法、装置及电子设备。

技术介绍

[0002]在销售领域,电话营销是最常用的销售方式,销售员通过电话通话与客户进行沟通,能够在短时间内直接了解客户的需求和意见,并且有目的、有针对性的推销商品和服务。但在现实的推销实践中,不同的销售人员就同一产品或服务向同一消费群体进行推销的时候,销售业绩往往会有较大差异,导致这种差异性的原因在于销售人员与潜在客户群体的沟通技巧,优秀的销售人员总是善于把握通话的主题,从而发现机遇、把握细节赢下客户的订单。对结构化通话主题的分析,例如在每个主题上具体花费的时间、节奏和分布,可以发现顶级销售的优秀通话模式,并普惠给每个销售员。
[0003]目前存在的通过自然语言处理(NLP)技术对语音会话进行结构化主题分析技术,其原理是将长时间对话分割成自定义的区块,系统将“闲聊”、“价格”等常见话题对应到相应区块,然后为剩余区块创建一组随机话题;系统会查看每个区块及对应的话题,然后将话题调整得更符合真实对话,不断重复该过程,使得每个区块的话题都收敛到符合实际情况。
[0004]在这种分析技术中,需要人工将销售常见通话主题对应到相应区块,主题发现和打标过程需要人工标注才能实现,比较费时费力,不够方便。并且主题模型训练时,不同发言者的区块都混在一起作为训练语料进行主题发现并打标,导致主题准确率低的问题。

技术实现思路

[0005]本申请实施例提供一种用于通话数据分析的方法以及相关设备,该方法基于LDA模型的连续通话主题分析技术,在无需标注数据的情况下自动发现特定领域语料中的通话主题。通过构建句子级别语料、不同发言者分别处理的训练方式,能够更加精准地发现细粒度主题。这些主题经过滤和映射后,通过最近邻平滑的方案提高低置信度轮次的主题识别准确率,即可对每个句子都打上主题标签。此种方式,可以解决现有技术在通话数据分析过程中存在的主题发现不够方便、准确的问题。
[0006]本申请实施例提供一种用于通话数据分析的方法,包括:获取经自然语言处理的通话数据,所述通话数据包含不同通话参与者的数据集;将所述不同通话参与者的数据集作为训练数据,分别训练LDA主题模型,获得针对不同通话参与者的LDA模型,以及通话数据中的通话主题;利用所述训练得到LDA模型对所述通话数据进行分析,并根据所述通话主题对所述通话数据进行连续打标,获得带有通话主题标识的通话数据集。
[0007]可选的,还包括,所述不同通话参与者的数据集为句子级别的通话数据集;
[0008]获取经自然语言处理的通话数据,所述通话数据包含不同通话参与者的数据集,包括:
[0009]将所述自然语言处理的通话数据按照句子维度进行分割,获得句子级别的通话数
据;
[0010]将所述句子级别的通话数据按照不同通话参与者进行区分;
[0011]得到不同通话参与者的句子级别的通话数据的数据集。
[0012]可选的,所述将所述不同通话参与者的数据集作为训练数据,分别训练LDA主题模型,包括:
[0013]对所述不同通话参与者的通话数据的数据集进行分词,得到不同通话参与者的词语级别语料库;
[0014]对所述不同通话参与者的词语级别语料库中出现的每个词进行词典构建,并将所述不同通话参与者的句子级别的通话数据通过词袋模型进行表示;
[0015]基于所述词袋模型,确定每个词在不同句子中的重要性和在当前句子中的频率;
[0016]通过gensim开源接口分别训练LDA主题模型。
[0017]可选的,所述获得针对不同通话参与者的LDA模型,以及通话数据中的通话主题,包括:
[0018]获取不同通话参与者的LDA模型中发现的原生通话主题;
[0019]对所述原生通话主题进行有效性过滤,得到所述通话数据中的通话主题。
[0020]可选的,所述原生通话主题由从所述LDA主题模型中的特定数量的主题关键词的概率分布表示。
[0021]可选的,对所述原生主题进行有效性过滤,得到所述通话数据中的通话主题,包括:
[0022]根据特定数量的主题关键词的概率分布,获得每个所述原生主题下排名由高到低特定数量的句子;
[0023]对所述原生主题下排名由高到低特定数量句子进行标注主题;
[0024]将不能完整表达一个集中语义关系的所述原生对话主题,判定为无效主题过滤掉;
[0025]将能够完整表达相对集中语义关系的所述原生对话主题,标注合理的对话主题名称,从而得到通话数据的有效主题。
[0026]可选的,所述利用所述训练得到LDA模型对所述通话数据进行分析,并根据所述通话主题对所述通话数据进行连续打标,获得带有通话主题标识的通话数据集,包括:
[0027]利用所述训练得到LDA模型对所述通话数据进行分析,获得每个句子最可能的主题和该主题下的分数;
[0028]根据所述每个句子最可能的主题和该主题下的分数,获得所述通话数据每句句子的主题;
[0029]根据所述通话数据每个句子的主题对所述句子进行打标,获得带有通话主题标识的通话数据集。
[0030]可选的,根据所述每句句子最可能的主题和该主题下的分数,获得所述通话数据每句句子的主题,包括:
[0031]当句子最可能的主题和该主题下的分数低于阈值时,直接沿用上文最近的主题作为所述句子打标的主题。
[0032]本申请实施例还提供一种用于通话数据分析装置,包括:
[0033]通话数据获得单元,用于获取经自然语言处理的通话数据,所述通话数据包含不同通话参与者的数据集;
[0034]LDA模型通话主题获得单元,用于将所述不同通话参与者的数据集作为训练数据,分别训练LDA主题模型,获得针对不同通话参与者的LDA模型,以及通话数据中的通话主题;
[0035]通话主题分析单元,用于利用所述训练得到LDA模型对所述通话数据进行分析,并根据所述通话主题对所述通话数据进行连续打标,获得带有通话主题标识的通话数据集。
[0036]本申请实施例还提供一种电子设备,包括:
[0037]处理器;
[0038]存储器,用于存储用于通话数据分析方法的程序,该设备通电并通过所述处理器运行所述用于通话数据分析方法的程序后,执行下述步骤:
[0039]获取经自然语言处理的通话数据,所述通话数据包含不同通话参与者的数据集;
[0040]将所述不同通话参与者的数据集作为训练数据,分别训练LDA主题模型,获得针对不同通话参与者的LDA模型,以及通话数据中的通话主题;
[0041]利用所述训练得到LDA模型对所述通话数据进行分析,并根据所述通话主题对所述通话数据进行连续打标,获得带有通话主题标识的通话数据集。
[0042]与现有技术相比,本申请具有以下优点:
[0043]本申请提供的用于通话数据分析的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于通话数据分析的方法,其特征在于,包括:获取经自然语言处理的通话数据,所述通话数据包含不同通话参与者的数据集;将所述不同通话参与者的数据集作为训练数据,分别训练LDA(隐性狄利克雷分布)主题模型,获得针对不同通话参与者的LDA模型,以及通话数据中的通话主题;利用所述训练得到LDA模型对所述通话数据进行分析,并根据所述通话主题对所述通话数据进行连续打标,获得带有通话主题标识的通话数据集。2.根据权利要求1所述的用于通话数据分析的方法,其特征在于,所述不同通话参与者的数据集为句子级别的通话数据集;获取经自然语言处理的通话数据,所述通话数据包含不同通话参与者的数据集,包括:将所述自然语言处理的通话数据按照句子维度进行分割,获得句子级别的通话数据;将所述句子级别的通话数据按照不同通话参与者进行区分;得到不同通话参与者的句子级别的通话数据的数据集。3.根据权利要求2所述的用于通话数据分析的方法,其特征在于,所述将所述不同通话参与者的数据集作为训练数据,分别训练LDA主题模型,包括:对所述不同通话参与者的通话数据的数据集进行分词,得到不同通话参与者的词语级别语料库;对所述不同通话参与者的词语级别语料库中出现的每个词进行词典构建,并将所述不同通话参与者的句子级别的通话数据通过词袋模型进行表示;基于所述词袋模型,确定每个词在不同句子中的重要性和在当前句子中的频率;通过gensim开源接口分别训练LDA主题模型。4.根据权利要求3所述的用于通话数据分析的方法,其特征在于,所述获得针对不同通话参与者的LDA模型,以及通话数据中的通话主题,包括:获取不同通话参与者的LDA模型中发现的原生通话主题;对所述原生通话主题进行有效性过滤,得到所述通话数据中的通话主题。5.根据权利要求4所述的用于通话数据分析的方法,其特征在于,所述原生通话主题由从所述LDA主题模型中的特定数量的主题关键词的概率分布表示。6.根据权利要求4或5所述的用于通话数据分析的方法,其特征在于,对所述原生主题进行有效性过滤,得到所述通话数据中的通话主题,包括:根据特定数量的主题关键词的概率分布,获得每个所述原生主题下排名由高到低特定数量的句子;...

【专利技术属性】
技术研发人员:樊艳
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1