基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法技术

技术编号:18972364 阅读:131 留言:0更新日期:2018-09-19 03:37
本发明专利技术提出了一种基于SinglePsss算法实现无标注语料主动预测移动客服领域突发事件的方法。主要包括预处理、构建句子向量、基于SinglePass算法聚类、寻找突发词、计算突发词相关度、返回突发事件工单六个阶段。在预处理阶段,对客服领域中的工单数据进行分词、去停用词、训练词向量等预处理。在构建句子向量阶段,采用向量相加的方法,分别将句子中每个词的词向量相加,得到句子向量。在基于SinglePass算法聚类阶段,基于句子向量,利用SinglePass算法,对工单数据进行聚类,得到突发事件的话题。在寻找突发词阶段,基于时间序列算法(Kleinberg)得到每个话题下的突发词。在计算突发词相关度阶段,利用互信息得到突发词之间的相关度和突发话题热度。在返回突发事件工单阶段,返回突发话题热度最高文本中包含突发词相关度最高的突发词的工单,即得到突发事件。

An algorithm for predicting unexpected events in mobile customer service domain based on SinglePass algorithm without annotation corpus

The invention proposes a method for realizing the active prediction of emergencies in the mobile customer service field based on the SinglePsss algorithm. It mainly includes six stages: preprocessing, constructing sentence vectors, clustering based on SinglePass algorithm, searching for burst words, calculating the correlation of burst words, and returning work orders. In the pre-processing stage, the work order data in the customer service field are pre-processed, such as word segmentation, stop words, training word vector and so on. In the construction of sentence vector phase, the vector addition method is used to add the word vectors of each word in the sentence to get the sentence vector. In the phase of clustering based on SinglePass algorithm, based on sentence vectors, using SinglePass algorithm, the work order data are clustered to get the topic of emergencies. In finding the burst word stage, we get the burst words under each topic based on the time series algorithm (Kleinberg). In the phase of calculating the correlation degree of burst words, the correlation degree between burst words and the burst topic heat degree are obtained by mutual information. In the process of returning to the work order of emergencies, the work order which contains the most relevant words in the text with the highest heat of emergencies topic is returned, that is, the emergencies are obtained.

【技术实现步骤摘要】
基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法
本专利技术涉及自然语言处理领域的一种主动预测移动客服领域中的突发事件方法。具体涉及一种基于SinglePass算法实现无标注语料主动预测移动客服领域中的突发事件方法。主要涉及专利分类号G06计算;推算;计数G06F电数字数据处理G06F17/00特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法G06F17/30信息检索;及其数据库结构。
技术介绍
随着数据的爆发式增长以及信息技术的快速发展,如何通过海量数据发现用户潜在的意图,主动预测突发事件成为目前人们关注的重点问题。突发事件是指突然发生并且短时间内受到广泛关注,且在短时间内给社会或人们带来不良影响,需要相关部门及时采取措施进行应对的事件。因此及时发现并妥善处理突发事件,对于相关部门进行更好的网络监管,维系社会和人民生活的稳定具有重要意义。目前基于网络信息的标注语料,预测突发事件的研究比较少。发现网络突发事件是一个聚类的过程,现有的相关研究大多采用布尔模型、tfidf的文本表示模型对突发事件文本进行聚类。这两种模型由于其简单性和快速性在突发事件预测中得到广泛应用。然而,这两种突发事件的文本表示模型却存在一些问题,比如布尔模型仅有两个取值,会丢失词汇的重要性量度;tfidf的文本表示模型能够较为准确的对词语的权重进行量化,通过计算tf和idf的值来量化词语的重要程度,这种方法虽然简单、计算速度快,但是却不能捕捉到文本句子内部词语间潜在语义信息。人类语言的本质是以语义为基础的,因此挖掘句子的语义信息对于突发事件的检测起着至关重要的作用。而且目前突发事件检测大多针对网络突发事件检测,尚没有基于移动客服领域,在没有标注语料的情况下,利用自然语言处理技术挖掘移动客服数据潜在的语义信息,主动预测突发事件的相关研究。因此,挖掘移动客服领域数据间潜在的语义信息,主动对移动客服领域的突发事件进行预警,更好地服务客户迫在眉睫,并需要有针对性的引入自然语言处理技术。本专利技术方法主要研究如何在没有标注移动客服领域突发事件的情况下,利用自然语言处理技术中的聚类方法,理解用户的意图,挖掘语义信息,主动预测移动客服领域中的突发事件。目前基于突发事件研究的关注点主要在基于网络突发事件标注语料(只有在已知网络突发事件的情况下才能将其检测出来)的基础上,从文档库中检测出相关联的、出现频率较高的突发词,然后再对这些突发词进行组合,从而能够使用突发特征来对突发事件进行描述。目前的研究仅限于网络信息领域的标注语料,不适应于移动客服领域的突发事件预警,并且不能很好满足舆情监控的需求。如果能够在突发事件尚未形成的时候将其检测出来并对其做出反应会有更加有意义。因此如何针对移动客服领域,基于无标注语料,利用自然语言处理技术,挖掘突发事件工单数据潜在的语义信息,主动预测移动客服领域的突发事件,成为移动客服领域亟待研究的重点内容。
技术实现思路
鉴于以上所述的问题,本专利技术的目的在于提供一种无监督(没有标注突发事件的语料)的移动客服领域主动突发事件预测的方法,用于解决如何在无标注移动客服领域突发事件语料的基础上,学习移动客服工单数据潜在的语义信息,帮助客服决策人员更好的进行突发事件监控,提高服务质量的问题。该方法不仅不需要人工标注突发事件语料,而且可以解决主动预测移动客服领域中突发事件的问题,提高服务监控质量。为实现上述目的,本专利技术基于移动客服领域,提出一种基于SinglePsss算法实现无标注语料主动预测移动客服领域突发事件预测的方法。本专利技术方案主要包括预处理、构建句子向量、基于SinglePass算法聚类、寻找突发词、计算突发词相关度、返回突发事件工单六个阶段。在预处理阶段,对移动客服领域中的工单数据进行分词、去停用词、训练词向量等预处理。在构建句子向量阶段,采用向量相加的方法,分别将句子中每个词的词向量相加,得到句子向量。在基于SinglePass算法聚类阶段,基于句子向量,利用SinglePass算法,对工单数据进行聚类,得到突发事件的话题。在寻找突发词阶段,基于时间序列算法(Kleinberg)得到每个话题下的突发词。在计算突发词相关度阶段,利用互信息得到突发词之间的相关度和突发话题热度。在返回突发事件工单阶段,在突发话题热度最高的工单数据中,返回包含突发词相关度最高的突发词的相应工单。本专利技术的技术方案如下:步骤一:语料预处理,对移动客服领域的工单数据进行分词,利用Word2vec工具包训练词向量,去除工单数据中的停用词及工单字段中的无关信息。步骤二:利用向量相加的方法,将句子中每个词的词向量相加,构建句子向量。步骤三:考虑到,本专利技术所述算法完全为无监督的主动预测算法,在算法开始运行之前并不知道聚类的确切个数,而且需要监控的数据量大,同时对实时性要求非常高,现有算法中的K-means算法和LDA等聚类算法均无法满足要求,故作为优选的实施方式:在本步骤中基于句子向量,利用SinglePass算法,采用欧式距离计算客服工单数据句子间语义的相似度,基于句子语义相似度结果进行聚类,得到突发事件的话题。步骤四:构建每个所述话题下每个词在所有时刻的时间序列,基于时间序列算法(Kleinberg)得到突发词信息,将突发强度大于2.0的词作为突发词,得到突发事件的突发词。关于突发强度的选值,由于突发强度依赖于噪音数据的数量,当突发强度为1.0时,会产生过多的噪音数据;当突发强度大于3.0时,会过滤掉有用的突发词;故作为优选的实施方式,本专利技术设定突发强度的阈值为2.0。步骤五:利用互信息计算突发词两两之间的相关度。步骤六:基于突发词相关度,得到相关度最高的共现突发词,计算每个话题的突发热度,得到突发热度最高的话题,并从该话题中抽取出包含突发词相关度最高的共现突发词的相应工单。由于采用了上述技术方案,本专利技术给出的基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,能够针对移动客服工单数据,进行标注语料的突发事件预测,相交于传统的给定语料算法,本专利技术更加适用于实际的客服工作场景,能够有效的预测移动客服领域突发事件的产生;而且相较于其它算法,本专利技术算法在计算量、预测准确度等各个方面均具有相当的优势,十分适于在移动客服领域推广使用。附图说明为了更清楚的说明本专利技术的实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动和不以商业为目的的前提下,还可以根据这些附图获得其它的附图。但是出于商业数据的保密性,如果需要得到移动客服工单数据,则需要和作者所在的公司协商,征求作者所在公司同意后方可得到移动客服领域突发事件的所有原始数据。附图1是本专利技术方法的基本流程图。附图2是摘自客服领域突发事件语料的例句样例图附图3是例句的分词结果图附图4是例句词向量的示意图附图5是例句的句子向量的示意图附图6基于SinglePass聚类算法的结果示意图附图7得到的突发词示意图附图8突发词相关度计算结果示意图附图9返回结果工单示意图具体实施方式下面结合附图1-9对本专利技术方法做详细说明,本实例以专利技术本文档来自技高网
...

【技术保护点】
1.一种基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,其特征在于包括如下步骤:—对当前待处理的客服工单数据进行至少包括分词、去停用词和训练词向量的预处理,得到所述客服工单数据每个词对应的词向量,进而得到所述客服工单数据每个句子对应的句子向量;—对所述的多个句子向量进行语义相似度计算,根据计算的句子间语义相似度结果进行聚类,得到移动客服领域突发事件话题;—通过分析构建所述突发事件话题下每个词在所有时刻的时间序列,即在监控时间段内出现该词的所有时间组成的时间序列,根据每个时刻该词的词频信息,得到所述每个词的突发强度,选择突发强度大于设定阈值的词作为突发事件的突发词;—分析计算多个突发词两两之间的相关度,选择相关度最高的两个突发词,作为共现突发词;基于共现突发词计算每个话题的突发热度,找到突发热度最高的话题,抽取并输出/返回包含共现突发词的客服突发事件工单数据,完成突发事件的预测。

【技术特征摘要】
1.一种基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,其特征在于包括如下步骤:—对当前待处理的客服工单数据进行至少包括分词、去停用词和训练词向量的预处理,得到所述客服工单数据每个词对应的词向量,进而得到所述客服工单数据每个句子对应的句子向量;—对所述的多个句子向量进行语义相似度计算,根据计算的句子间语义相似度结果进行聚类,得到移动客服领域突发事件话题;—通过分析构建所述突发事件话题下每个词在所有时刻的时间序列,即在监控时间段内出现该词的所有时间组成的时间序列,根据每个时刻该词的词频信息,得到所述每个词的突发强度,选择突发强度大于设定阈值的词作为突发事件的突发词;—分析计算多个突发词两两之间的相关度,选择相关度最高的两个突发词,作为共现突发词;基于共现突发词计算每个话题的突发热度,找到突发热度最高的话题,抽取并输出/返回包含共现突发词的客服突发事件工单数据,完成突发事件的预测。2.根据权利要求1所述的基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,其特征还在于采用SinglePass算法,根据客服突发事件工单数据在语义上的相似性,计算客服突发事件工单句子间的语义相似度,基于工单句子间语义相似度,对所述的句子向量进行聚类。3.根据权利要求2所述的基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,其特征还在于所述SinglePass算法具体构成如下:—接受移动客服领域一条工单记录R,初始化话题工单类Cluster={};—计算工单记录R与当前已有话题工单类中的各个话题所包含的每一条突发事件工单的语义相似度,取语义相似度最大值作为当前工单记录R与该话题工单类的相似度;—在所有话题工单类中选出与R相似度最大的一个类,并记录此时的相似度值S;相似度计算采用欧式距离;设两条工单记录R1和R2的句子向量分别为svec1={x1,x2,...xn}和svec2={y1,y2,...yn},其中n表示工单句子向量的维度,xi,yi分别表示R1、R2的工单句子向量第i维度上的值,欧式距离的计算公式如下式所示:—如果S大于聚类阈值Tc,工单R被分配给当前话题工单类,聚类结束,等待新工单数到来;—如果S小于聚类阈值Tc,工单R不属于当前已有的话题工单类,创建新话题工单类,并将工单R加入该话题工单类,完成当前聚类,继续等待新工单数据到来。4.根据权利要求1所述的基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,其特征还在于采用时间序列算法Kleinberg得到所述移动客服领域的突发词信息。5.根据权利要求4所述的基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,其特征还在于:所述时间序列算法Kleinberg算法通过提出状态模型来模拟突发行为;该模型设定低状态和高状态两个状态,突发事件行为可以被模拟成一段周期内高低状态的转换,一个事件中下一个消息到达时间间隔服从指数分布,如下式所示:f(x)=ae-ax其中时间间隔期望E(x)=a-1,其中a是数据到达速率;低状态下、高状态下消息到达的时间间隔均服从指数分布,速度率分别为a和s*a,其中s>1;两个状态之间的转移概...

【专利技术属性】
技术研发人员:徐俊利赵江江薛超范林博赵宁祁泽川魏强谭乃瑜
申请(专利权)人:中移在线服务有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1