本申请实施例提供一种话务数据处理方法及装置,方法包括:基于预设语料库中的句子样本数据,进行标准化句向量模型训练;将接收到的录音数据文件转化为文本内容;将所述文本内容进行句子切分,并计算每个句子的句向量;基于所述标准化句向量模型对所述每个句子的句向量进行标准化训练,得到对应的标准化句子;将所述标准化句子进行关键词提取,并根据提取到的关键词生成话务数据分析报表;本申请能够对呼叫中心每天产生的海量语音数据和文本数据进行有效分析,及时发现用户核心诉求意图、工作过程中的问题和不足、有效把握服务质量、针对性的改善、培训、提升用户满意度。
【技术实现步骤摘要】
话务数据处理方法及装置
本申请涉及数据处理领域,具体涉及一种话务数据处理方法及装置。
技术介绍
随着移动通信技术的发展,目前各行各业呼叫业务中大量应用智能语音机器人,存有大量的用户交互的语音数据,通过对交互场景进行分析及策略制定可以得到大量标签,可根据行业及业务类型对群用户、个人用户构建对应的标签库。企业呼叫中心作为运营平台与用户之间的桥梁起着至关重要的作用。近年来,智能语音技术产业规模在全球用户需求拉动、国家战略指导和企业竞争等多重因素驱动下实现了快速和持续的增长,在移动互联网、运营商、智能家居、汽车电子、金融支付、在线教育及医疗等领域应用不断深入。在海量数据和深度学习的推动下,语音识别、语音合成、声纹识别等智能语音技术,日趋成熟,开始进入实用化的阶段。企业呼叫中心作为企业与用户之间的重要桥梁,通过采用目前国际主流的DNN(深度神经网络)和HMM(隐马尔可夫模型)的方法训练的中文语音识别技术,能够适用不同年龄、不同地域、不同人群、不同信道、不同终端和不同噪声环境的应用环境,同时利用企业呼叫中心积累的海量语音语料和文本语料来进行模型的定制化训练,建立高可用及高识别率的语音转写及分析平台,极大改善了现有技术中语音识别和转写不清楚、不准确的缺陷,降低语音识别错误率。因此,如何进一步对语音识别的结果进行理解和处理,是当前亟需解决的问题。
技术实现思路
针对现有技术中的问题,本申请提供一种话务数据处理方法及装置,能够对呼叫中心每天产生的海量语音数据和文本数据进行有效分析,及时发现用户核心诉求意图、工作过程中的问题和不足、有效把握服务质量、针对性的改善、培训、提升用户满意度。为了解决上述问题中的至少一个,本申请提供以下技术方案:第一方面,本申请提供一种话务数据处理方法,包括:基于预设语料库中的句子样本数据,进行标准化句向量模型训练;将接收到的录音数据文件转化为文本内容;将所述文本内容进行句子切分,并计算每个句子的句向量;基于所述标准化句向量模型对所述每个句子的句向量进行标准化训练,得到对应的标准化句子;将所述标准化句子进行关键词提取,并根据提取到的关键词生成话务数据分析报表。进一步地,所述基于预设语料库中的句子样本数据,进行标准化句向量模型训练,包括:将预设语料库中的各句子样本数据进行句向量计算,得到句向量样本集合;将所述句向量样本集合中的每个句向量样本进行相似性计算;利用神经网络算法对符合相似性阈值的多个句向量进行标准化训练,建立标准化句向量模型。进一步地,所述基于所述标准化句向量模型对所述每个句子的句向量进行标准化训练,得到对应的标准化句子,包括:将所述每个句子的句向量与所述句向量样本集合中的各句向量样本进行相似性计算;分别选择符合与该每个句子的句向量相似性阈值的句向量样本所对应的标准化句向量模型,对该每个句子的句向量进行标准化训练;将训练生成的每个句子的标准句向量进行转化,输出对应的标准化句子。进一步地,在所述将所述文本内容进行句子切分之前,还包括:对所述文本内容进行无效词语或无效语句的过滤。第二方面,本申请提供一种话务数据处理装置,包括:模型训练模块,用于基于预设语料库中的句子样本数据,进行标准化句向量模型训练;文本转化模块,用于将接收到的录音数据文件转化为文本内容;句向量确定模块,用于将所述文本内容进行句子切分,并计算每个句子的句向量;标准化句子确定模块,用于基于所述标准化句向量模型对所述每个句子的句向量进行标准化训练,得到对应的标准化句子;关键词提取模块,用于将所述标准化句子进行关键词提取,并根据提取到的关键词生成话务数据分析报表。进一步地,所述句向量确定模块包括:样本集合确定单元,用于将预设语料库中的各句子样本数据进行句向量计算,得到句向量样本集合;相似性计算单元,用于将所述句向量样本集合中的每个句向量样本进行相似性计算;模型建立单元,用于利用神经网络算法对符合相似性阈值的多个句向量进行标准化训练,建立标准化句向量模型。进一步地,所述标准化句子确定模块包括:相似性计算单元,用于将所述每个句子的句向量与所述句向量样本集合中的各句向量样本进行相似性计算;标准化训练单元,用于分别选择符合与该每个句子的句向量相似性阈值的句向量样本所对应的标准化句向量模型,对该每个句子的句向量进行标准化训练;句向量转化单元,用于将训练生成的每个句子的标准句向量进行转化,输出对应的标准化句子。进一步地,还包括:文本过滤单元,用于对所述文本内容进行无效词语或无效语句的过滤。第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的话务数据处理方法的步骤。第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的话务数据处理方法的步骤。由上述技术方案可知,本申请提供一种话务数据处理方法及装置,通过基于预设语料库中的句子样本数据,进行标准化句向量模型训练;将接收到的录音数据文件转化为文本内容;将所述文本内容进行句子切分,并计算每个句子的句向量;基于所述标准化句向量模型对所述每个句子的句向量进行标准化训练,得到对应的标准化句子;将所述标准化句子进行关键词提取,并根据提取到的关键词生成话务数据分析报表,本申请能够利用企业呼叫中心积累的海量语音语料和文本语料分别构建语音识别模型和标准化句向量模型,以对呼叫中心的录音数据进行语音转写生成文本内容,通过对生成的文本内容进行标准化转换,从而利用文本分析及设置的关键词规则进行热点诉求识别,以得到话务关键文本数据,并在机器人的知识库中建立话术流程走向规则,确保语音交互按照设定的规则进行,从而及时发现服务过程中的用户诉求,以把握服务全局,建立热点诉求分布图等。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例中的话务数据处理方法的流程示意图之一;图2为本申请实施例中的话务数据处理方法的流程示意图之二;图3为本申请实施例中的话务数据处理方法的流程示意图之三;图4为本申请实施例中的话务数据处理装置的结构图之一;图5为本申请实施例中的话务数据处理装置的结构图之二;图6为本申请实施例中的话务数据处理装置的结构图之三;图7为本申请实施例中的电子设备的结构示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描本文档来自技高网...
【技术保护点】
1.一种话务数据处理方法,其特征在于,所述方法包括:/n基于预设语料库中的句子样本数据,进行标准化句向量模型训练;/n将接收到的录音数据文件转化为文本内容;/n将所述文本内容进行句子切分,并计算每个句子的句向量;/n基于所述标准化句向量模型对所述每个句子的句向量进行标准化训练,得到对应的标准化句子;/n将所述标准化句子进行关键词提取,并根据提取到的关键词生成话务数据分析报表。/n
【技术特征摘要】
1.一种话务数据处理方法,其特征在于,所述方法包括:
基于预设语料库中的句子样本数据,进行标准化句向量模型训练;
将接收到的录音数据文件转化为文本内容;
将所述文本内容进行句子切分,并计算每个句子的句向量;
基于所述标准化句向量模型对所述每个句子的句向量进行标准化训练,得到对应的标准化句子;
将所述标准化句子进行关键词提取,并根据提取到的关键词生成话务数据分析报表。
2.根据权利要求1所述的话务数据处理方法,其特征在于,所述基于预设语料库中的句子样本数据,进行标准化句向量模型训练,包括:
将预设语料库中的各句子样本数据进行句向量计算,得到句向量样本集合;
将所述句向量样本集合中的每个句向量样本进行相似性计算;
利用神经网络算法对符合相似性阈值的多个句向量进行标准化训练,建立标准化句向量模型。
3.根据权利要求2所述的话务数据处理方法,其特征在于,所述基于所述标准化句向量模型对所述每个句子的句向量进行标准化训练,得到对应的标准化句子,包括:
将所述每个句子的句向量与所述句向量样本集合中的各句向量样本进行相似性计算;
分别选择符合与该每个句子的句向量相似性阈值的句向量样本所对应的标准化句向量模型,对该每个句子的句向量进行标准化训练;
将训练生成的每个句子的标准句向量进行转化,输出对应的标准化句子。
4.根据权利要求1所述的话务数据处理方法,其特征在于,在所述将所述文本内容进行句子切分之前,还包括:
对所述文本内容进行无效词语或无效语句的过滤。
5.一种话务数据处理装置,其特征在于,包括:
模型训练模块,用于基于预设语料库中的句子样本数据,进行标准化句向量模型训练;
文本转化模块,用于将接收到的录音数据文件转化为文本内容;
句向量确定模...
【专利技术属性】
技术研发人员:崔晶晶,郝成建,
申请(专利权)人:集奥聚合北京人工智能科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。