【技术实现步骤摘要】
海量数据动态增量聚类方法及其相关设备
[0001]本申请涉及智能决策
,尤其涉及一种海量数据动态增量聚类方法及其相关设备。
技术介绍
[0002]研究坐席的销售过程中的话术对充分挖掘坐席和客户之间的关系进而寻找坐席销售突破点有着至关重要的意义。根据不同人的特征,坐席在对话过程中也会产生不同的营销话术。往往这些话术大数据会存在一定共性。如何发现其中存在的共性,并将共性转化为价值值得研究。目前,对于共性的挖掘,主要使用聚类的方法,如k
‑
means聚类。其在使用前往往将文本语料转化为TFIDF词向量矩阵或者Word2vec、Doc2vec离散的文本表示,在连续文本表示中,BERT模型训练语料以及规模较少,导致语义表达不充分。
[0003]对于话术的主题的选取在实际不能以人工的方式确定聚合类别数,需要以动态聚类的方式确定类的簇数。同时在大量对话数据的迭代中,需要考虑迭代的效率,而k
‑
means需要迭代每一个样本的状态,导致计算速度较慢。因此,现有技术对海量话术数据进行聚类时,还缺 ...
【技术保护点】
【技术特征摘要】
1.一种海量数据动态增量聚类方法,其特征在于,包括下述步骤:读取目标数据文件,获得批量坐席通话文本及每个坐席通话文本的通话时间段、业务成败状态;将所述批量坐席通话文本传输至基于RoBERTa的文本语义表示模型进行模型训练,得到训练好的文本语义表示模型;根据预设的词向量表示库和所述训练好的文本语义表示模型,获取所述批量坐席通话文本中每个坐席通话文本的文本语义表示结果;根据所述每个坐席通话文本的文本语义表示结果、通话时间段、业务成败状态以及预设的聚类模型对所述批量坐席通话文本进行聚类处理,获得期望聚类结果。2.根据权利要求1所述的海量数据动态增量聚类方法,其特征在于,所述根据预设的词向量表示库和所述训练好的文本语义表示模型,获取所述批量坐席通话文本中每个坐席通话文本的文本语义表示结果的步骤,具体包括:对传入到所述文本语义表示模型中的每个坐席通话文本添加首尾拼接字符,获得所述每个坐席通话文本分别对应的拼接文本,其中,所述首尾拼接字符分别包括首端拼接字符[CLS]和尾端拼接字符[SEP];根据预设的分词词典对每个拼接文本进行分词处理,获得分词处理序列及各个分词的词向量,其中,所述分词词典中包括各个分词及各个分词对应的词向量;通过每个坐席通话文本的输入顺序,获取每个坐席通话文本对应拼接文本中各个分词分别对应的输入顺序向量,其中,由同一文本语义表示模型分割而出的各个分词对应的输入顺序向量默认相同;基于所述各个分词在对应拼接文本中的位置信息,获取同一拼接文本中各个分词分别对应的位置表示向量;累加目标拼接文本中各个分词的词向量、输入顺序向量以及位置表示向量,获得目标通话文本的文本语义表示结果,其中,所述目标拼接文本由所述目标通话文本添加所述首尾拼接符生成。3.根据权利要求2所述的海量数据动态增量聚类方法,其特征在于,所述累加目标拼接文本中各个分词的词向量、输入顺序向量以及位置表示向量,获得目标通话文本的文本语义表示结果的步骤,具体包括:步骤401,根据所述分词处理序列,依次选择不同分词作为当前目标分词;步骤402,获取当前目标分词的词向量、输入顺序向量以及位置表示向量,并通过求和运算,获得当前目标分词的文本语义表示结果;步骤403,循环执行上述步骤401至步骤402,获取所述目标拼接文本中各个分词分别对应的文本语义表示结果;步骤404,根据所述分词处理序列,将所述目标拼接文本中各个分词分别对应的文本语义表示结果作为集合元素,一一加入到预设的有序集合内;步骤405,元素加入完毕后,将所述有序集合作为所述目标通话文本的文本语义表示结果。4.根据权利要求1至3任一项所述的海量数据动态增量聚类方法,其特征在于,所述预设的聚类模型包括四个组件,分别为基于Single Pass算法的聚类组件、基于时间分段的聚
类组件、基于业务状态的聚类组件和基于规则的筛选组件,所述根据所述每个坐席通话文本的文本语义表示结果、通话时间段、业务成败状态以及预设的聚类模型对所述批量坐席通话文本进行聚类处理,获得期望聚类结果的步骤,具体包括:根据所述每个坐席通话文本的文本语义表示结果以及所述基于Single Pass算法的聚类组件,对所述批量坐席通话文本进行第一次聚类,获得第一聚类结果;通过每个坐席通话文本的通话时间段以及所述基于时间分段的聚类组件,对所述第一聚类结果进行第二次聚类,获得第二聚类结果;根据每个坐席通话文本的业务成败状态以及所述基于业务状态的聚类组件,对所述第二聚类结果进行第三次聚类,获得第三聚类结果;根据所述基于规则的筛选组件,从所述第三聚类结果中筛选出符合预设期望规则的聚类结果,作为期望聚类结果。5.根据权利要求4所述的海量数据动态增量聚类方法,其特征在于,所述根据所述每个坐席通话文本的文本语义表示结果以及所述基于Single Pass算法的聚类组件,对所述批量坐席通话文本进行第一次聚类,获得第一聚类结果的步骤,具体包括:步骤601,随机从所述批量坐席通话文本中选择一个坐席通话文本作为初始化的聚类中心,将所述初始化的聚类中心设为目标聚类中心;步骤602,获取目标聚...
【专利技术属性】
技术研发人员:袁美璐,
申请(专利权)人:中国平安财产保险股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。