基于文本大数据的呼叫中心客服工单实体识别的方法技术

技术编号:31232701 阅读:12 留言:0更新日期:2021-12-08 10:09
本发明专利技术公开了一种基于文本大数据的呼叫中心客服工单实体识别的方法,包括以下步骤:步骤1、通过预先对所属行业呼叫中心客服领域词库进行准备,提升文本预处理阶段的准确性;步骤2、以RESTful接口方式与工单系统对接,获取工单文本数据;步骤3、利用步骤1中汇总的词库,对获取的工单文本进行预处理,包括分词、去停用词、生成词向量;步骤4、利用工单实体抽取模型,提取工单中关键信息;步骤5、利用关键词统计分析法对工单定性关键词进行提取做统计分类。本发明专利技术的有益效果在于:解决了呼叫中心客服领域工单文本录入规则不确定、数据规模大、场景模式匹配复杂的难题;减少人为因素影响、节约工单处理时间,并为非结构化的文本工单分析提供依据。单分析提供依据。单分析提供依据。

【技术实现步骤摘要】
基于文本大数据的呼叫中心客服工单实体识别的方法


[0001]本专利技术涉及呼叫中心客服大数据文本挖掘分析领域,尤其涉及基于文本大数据的呼叫中心客服工单实体识别的方法。

技术介绍

[0002]呼叫中心工单系统又称为呼叫中心工单管理系统,通过创建工单,将客户的需求创建成工单,通过工单管理系统可以使工单流转,可以进行跨部门跨企业协作,记录、处理、追踪任务完成情况,提高客户服务中心服务能力。呼叫中心工单系统一般被广泛用于客户帮助支持服务,客户售后服务,企业IT支持服务,呼叫中心等,用来创建,挂起,解决客户或企业内部职员提交的事务请求。
[0003]而呼叫中心客服代表在填写工单时,均通过手工方式进行投诉产品、故障设备、目标地址、争议内容、解决措施等内容的录入。工单包含的元素类别较多,考虑到坐席服务指标考核因素,而导致录入时间过长,录入的元素过多提炼不够充分,耗时耗力,效率低下。且无固化的信息识别工具来辅助完成工单内容的填写。

技术实现思路

[0004]本专利技术的目的是为了解决呼叫中心领域工单文本录入规则不确定、数据规模大的问题,提供基于文本大数据的呼叫中心客服工单实体识别的方法,减少人为因素偏差、节约工单处理时间。
[0005]另外还可通过对非结构化的文本工单关键信息的提取提炼,为呼叫中心精细化运营提供分析分类的依据。
[0006]为了实现根据本专利技术的这些目的和其它优点,提供了基于文本大数据的呼叫中心客服工单实体识别的方法,包括以下步骤:
[0007]步骤1、通过预先对所属行业呼叫中心客服领域词库进行准备,提升文本预处理阶段的准确性;
[0008]步骤2、以RESTful接口方式与工单系统对接,获取工单文本数据;
[0009]步骤3、利用步骤1中汇总的词库,对获取的工单文本进行预处理,包括分词、去停用词、生成词向量;
[0010]步骤4、利用工单实体抽取模型,提取工单中关键信息;
[0011]步骤5、在所述步骤4的基础上,利用关键词统计分析法对工单定性关键词进行提取做统计分类。
[0012]其中,所述步骤1中对所属行业呼叫中心客服词库的准备包括以下步骤:
[0013]步骤1.1、批量导入现有的所属行业呼叫中心客户工单的数据,以此作为词库提炼的样本数据;
[0014]步骤1.2、利用通用“结巴中文分词”工具进行分词,得到分词词集,分词过程中将根据行业属性进行分解颗粒度的调节优化,获得初始分词集合;
[0015]步骤1.3、通过将分词结果相邻的1个、2个、3个、4个词进行组合成新词,形成新词以此来解决“结巴中文分词”后颗粒度过细的问题,并利用改进互信息过滤方法进行去重,形成初始化的、属于该行业的呼叫中心客服词库。
[0016]其中,所述步骤4中的工单中关键信息提取包括产品名称提取、地址提取、费用术语提取、增值业务提取。
[0017]其中,所述步骤4中利用Bi

LSTM算法、BIO标注法构建实体抽取模型,通过抽取模型提取到工单关键信息后导入生成工单文本数,具体方法为:
[0018]步骤4.1、利用工单样本数据,经过文本预处理后进行词向量标注,将标注后的结果利用Bi

LSTM算法模型实现工单文本的上下文信息捕获,获得对实体标注有效的特征,通过BIO标注来对多种呼叫中心客服业务的关键信息进行映射匹配;
[0019]步骤4.2、获取工单文本上下文信息后,经过CRF以BIO标注法进行所抽取实体的标注,标注形成抽取模型需要的提取规则,提取规则包括时间提取规则、地址提取规则、产品名称提取规则、费用术语提取规则、增值业务提取规则,最终将其固化为抽取模型。
[0020]其中,所述步骤5中工单关键词统计分析通过TF

IDF模型统计方法实现,采用改TF

IDF模型统计方法作为过滤的评估标准,对所提供的关键词进一步筛选,该方法将提炼工单文本所表述的主要分类信息,作为工单文本大数据分析的分类统计基础。
[0021]其中,所述步骤4中,工单的实体模型通过BIO标注组合方式实现,通过BIO标注来对多种呼叫中心客服业务的关键信息进行映射匹配。
[0022]其中,所述步骤4中,工单关键数据标注后形成的抽取模型准确率、召回率等指标采用minibach梯度下降方法进行模型训练,不断调整batch和epoch的值对比准确率、召回率、F1值,找到最合适的所属行业呼叫中心客服的参数组合。
[0023]其中,所述步骤4中,采用Focal Loss损失函数来解决样本不均衡问题,加大Loss权重比从而让模型学习到更多的差异化工单的文本信息。
[0024]其中,所述步骤4中,模型构建中,采用Batchnorm来缓解普通归一带来的数据特征损失,提升模型的训练速度,减少特殊信息数据的损失。
[0025]本专利技术至少包括以下有益效果:
[0026]本专利技术通过采用呼叫中心客服领域词库构建,优化工单预处理结果,本方案采用采用序列标注法、Bi

Lstm

Crf标注法以及基于深度学习方式来对客服录入的长文本工单内容中费用术语、通信术语、增值业务、营业厅地址等关键元素进行提取提炼,通过工单实体识别模型的介入处理后,实现工单由非结构化长文本向半结构化工单的自动录入转化,方便对工单进行大数据分析,提升录入审核以及运营分析服务的效率。
附图说明
[0027]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0028]图1是本专利技术所述基于文本大数据的呼叫中心客服工单实体识别的方法的流程框图;
[0029]图2是本专利技术所述基于文本大数据的呼叫中心客服工单实体识别的方法的应用架构图;
[0030]图3是本专利技术所述基于文本大数据的呼叫中心客服工单实体识别的方法的原理图。
具体实施方式
[0031]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0032]如图1、图3所示,基于文本大数据的呼叫中心客服工单实体识别的方法,包括以下步骤:
[0033]步骤1、通过预先对所属行业呼叫中心客服领域词库进行准备,提升文本预处理阶段的准确性;
[0034]步骤2、以RESTful接口方式与工单系统对接,获取工单文本数据;
[0035]步骤3、利用步骤1中汇总的词库,对获取的工单文本进行预处理,包括分词、去停用词、生成词向量;
[0036本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于文本大数据的呼叫中心客服工单实体识别的方法,其特征在于:包括以下步骤:步骤1、通过预先对所属行业呼叫中心客服领域词库进行准备,提升文本预处理阶段的准确性;步骤2、以RESTful接口方式与工单系统对接,获取工单文本数据;步骤3、利用步骤1中汇总的词库,对获取的工单文本进行预处理,包括分词、去停用词、生成词向量;步骤4、利用工单实体抽取模型,提取工单中关键信息;步骤5、在所述步骤4的基础上,利用关键词统计分析法对工单定性关键词进行提取做统计分类。2.如权利要求1所述基于文本大数据的呼叫中心客服工单实体识别的方法,其特征在于:所述步骤1中对所属行业呼叫中心客服词库的准备包括以下步骤:步骤1.1、批量导入现有的所属行业呼叫中心客户工单的数据,以此作为词库提炼的样本数据;步骤1.2、利用通用“结巴中文分词”工具进行分词,得到分词词集,分词过程中将根据行业属性进行分解颗粒度的调节优化,获得初始分词集合;步骤1.3、通过将分词结果相邻的1个、2个、3个、4个词进行组合成新词,形成新词以此来解决“结巴中文分词”后颗粒度过细的问题,并利用改进互信息过滤方法进行去重,形成初始化的、属于该行业的呼叫中心客服词库。3.如权利要求1所述基于文本大数据的呼叫中心客服工单实体识别的方法,其特征在于:所述步骤4中的工单中关键信息提取包括产品名称提取、地址提取、费用术语提取、增值业务提取。4.根据权利要求3所述的基于文本大数据的呼叫中心客服工单实体识别的方法,其特征在于:所述步骤4中利用Bi

LSTM算法、BIO标注法构建实体抽取模型,通过抽取模型提取到工单关键信息后导入生成工单文本数,具体方法为:步骤4.1、利用工单样本数据,经过文本预处理后进行词向量标注,将标注后的结果利用Bi

LSTM算法模型实现工单文本的上下文信息捕获,获得对实体标注有效的特征,...

【专利技术属性】
技术研发人员:李言良王福君雷晓宇王鸿强
申请(专利权)人:北京中云金诺科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1