The invention proposes a method for realizing the active prediction of emergencies in the mobile customer service field based on the SinglePsss algorithm. It mainly includes six stages: preprocessing, constructing sentence vectors, clustering based on SinglePass algorithm, searching for burst words, calculating the correlation of burst words, and returning work orders. In the pre-processing stage, the work order data in the customer service field are pre-processed, such as word segmentation, stop words, training word vector and so on. In the construction of sentence vector phase, the vector addition method is used to add the word vectors of each word in the sentence to get the sentence vector. In the phase of clustering based on SinglePass algorithm, based on sentence vectors, using SinglePass algorithm, the work order data are clustered to get the topic of emergencies. In finding the burst word stage, we get the burst words under each topic based on the time series algorithm (Kleinberg). In the phase of calculating the correlation degree of burst words, the correlation degree between burst words and the burst topic heat degree are obtained by mutual information. In the process of returning to the work order of emergencies, the work order which contains the most relevant words in the text with the highest heat of emergencies topic is returned, that is, the emergencies are obtained.
【技术实现步骤摘要】
基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法
本专利技术涉及自然语言处理领域的一种主动预测移动客服领域中的突发事件方法。具体涉及一种基于SinglePass算法实现无标注语料主动预测移动客服领域中的突发事件方法。主要涉及专利分类号G06计算;推算;计数G06F电数字数据处理G06F17/00特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法G06F17/30信息检索;及其数据库结构。
技术介绍
随着数据的爆发式增长以及信息技术的快速发展,如何通过海量数据发现用户潜在的意图,主动预测突发事件成为目前人们关注的重点问题。突发事件是指突然发生并且短时间内受到广泛关注,且在短时间内给社会或人们带来不良影响,需要相关部门及时采取措施进行应对的事件。因此及时发现并妥善处理突发事件,对于相关部门进行更好的网络监管,维系社会和人民生活的稳定具有重要意义。目前基于网络信息的标注语料,预测突发事件的研究比较少。发现网络突发事件是一个聚类的过程,现有的相关研究大多采用布尔模型、tfidf的文本表示模型对突发事件文本进行聚类。这两种模型由于其简单性和快速性在突发事件预测中得到广泛应用。然而,这两种突发事件的文本表示模型却存在一些问题,比如布尔模型仅有两个取值,会丢失词汇的重要性量度;tfidf的文本表示模型能够较为准确的对词语的权重进行量化,通过计算tf和idf的值来量化词语的重要程度,这种方法虽然简单、计算速度快,但是却不能捕捉到文本句子内部词语间潜在语义信息。人类语言的本质是以语义为基础的,因此挖掘句子的语义信息对于突发事件的检测起 ...
【技术保护点】
1.一种基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,其特征在于包括如下步骤:—对当前待处理的客服工单数据进行至少包括分词、去停用词和训练词向量的预处理,得到所述客服工单数据每个词对应的词向量,进而得到所述客服工单数据每个句子对应的句子向量;—对所述的多个句子向量进行语义相似度计算,根据计算的句子间语义相似度结果进行聚类,得到移动客服领域突发事件话题;—通过分析构建所述突发事件话题下每个词在所有时刻的时间序列,即在监控时间段内出现该词的所有时间组成的时间序列,根据每个时刻该词的词频信息,得到所述每个词的突发强度,选择突发强度大于设定阈值的词作为突发事件的突发词;—分析计算多个突发词两两之间的相关度,选择相关度最高的两个突发词,作为共现突发词;基于共现突发词计算每个话题的突发热度,找到突发热度最高的话题,抽取并输出/返回包含共现突发词的客服突发事件工单数据,完成突发事件的预测。
【技术特征摘要】
1.一种基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,其特征在于包括如下步骤:—对当前待处理的客服工单数据进行至少包括分词、去停用词和训练词向量的预处理,得到所述客服工单数据每个词对应的词向量,进而得到所述客服工单数据每个句子对应的句子向量;—对所述的多个句子向量进行语义相似度计算,根据计算的句子间语义相似度结果进行聚类,得到移动客服领域突发事件话题;—通过分析构建所述突发事件话题下每个词在所有时刻的时间序列,即在监控时间段内出现该词的所有时间组成的时间序列,根据每个时刻该词的词频信息,得到所述每个词的突发强度,选择突发强度大于设定阈值的词作为突发事件的突发词;—分析计算多个突发词两两之间的相关度,选择相关度最高的两个突发词,作为共现突发词;基于共现突发词计算每个话题的突发热度,找到突发热度最高的话题,抽取并输出/返回包含共现突发词的客服突发事件工单数据,完成突发事件的预测。2.根据权利要求1所述的基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,其特征还在于采用SinglePass算法,根据客服突发事件工单数据在语义上的相似性,计算客服突发事件工单句子间的语义相似度,基于工单句子间语义相似度,对所述的句子向量进行聚类。3.根据权利要求2所述的基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,其特征还在于所述SinglePass算法具体构成如下:—接受移动客服领域一条工单记录R,初始化话题工单类Cluster={};—计算工单记录R与当前已有话题工单类中的各个话题所包含的每一条突发事件工单的语义相似度,取语义相似度最大值作为当前工单记录R与该话题工单类的相似度;—在所有话题工单类中选出与R相似度最大的一个类,并记录此时的相似度值S;相似度计算采用欧式距离;设两条工单记录R1和R2的句子向量分别为svec1={x1,x2,...xn}和svec2={y1,y2,...yn},其中n表示工单句子向量的维度,xi,yi分别表示R1、R2的工单句子向量第i维度上的值,欧式距离的计算公式如下式所示:—如果S大于聚类阈值Tc,工单R被分配给当前话题工单类,聚类结束,等待新工单数到来;—如果S小于聚类阈值Tc,工单R不属于当前已有的话题工单类,创建新话题工单类,并将工单R加入该话题工单类,完成当前聚类,继续等待新工单数据到来。4.根据权利要求1所述的基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,其特征还在于采用时间序列算法Kleinberg得到所述移动客服领域的突发词信息。5.根据权利要求4所述的基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,其特征还在于:所述时间序列算法Kleinberg算法通过提出状态模型来模拟突发行为;该模型设定低状态和高状态两个状态,突发事件行为可以被模拟成一段周期内高低状态的转换,一个事件中下一个消息到达时间间隔服从指数分布,如下式所示:f(x)=ae-ax其中时间间隔期望E(x)=a-1,其中a是数据到达速率;低状态下、高状态下消息到达的时间间隔均服从指数分布,速度率分别为a和s*a,其中s>1;两个状态之间的转移概...
【专利技术属性】
技术研发人员:徐俊利,赵江江,薛超,范林博,赵宁,祁泽川,魏强,谭乃瑜,
申请(专利权)人:中移在线服务有限公司,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。