一种基于学习的即时通信会话切分技术与方法技术

技术编号:16038116 阅读:35 留言:0更新日期:2017-08-19 19:56
本发明专利技术公开了一种基于学习的即时通信会话切分技术与方法,属于大数据分析领域;将即时通信会话用户两两划分为一组,并将每组的会话话单明细进行分类和基于时间排序;会话切分为:依次选取相邻两条话单R1和R2,计算时间间隔Δt,文本内容相似度Δsim和距离值F(R1,R2);如果F(R1,R2)<f,则话单R1和R2同属于一个会话;否则,话单R1和R2分别属于两个不同的会话;通过spark并行对所有用户组以及每个用户组的所有类话单明细数据分别同时操作,最终将所有即时通信的用户所有的会话进行切分。本发明专利技术综合考虑了会话时间距离影响因子和会话文本内容距离影响因子,实现了不同会话用户组差异化的会话切分标准,有效解决了大数据背景下海量即时通信文本会话切分的准确性和高效性问题。

【技术实现步骤摘要】
一种基于学习的即时通信会话切分技术与方法
本专利技术属于大数据分析领域,涉及一种基于学习的即时通信会话切分技术与方法。
技术介绍
随着大数据技术的成熟与普及,越来越多的企业和相关机构尝试基于用户的各种数据进行用户分析,例如基于用户的即时通信数据分析用户每个会话时所讨论的主题,再基于用户历史会话主题对用户进行分析和标签化。通常情况下,数据分析人员所面对的是即时通信双方的历史会话话单明细数据,这些明细数据并没有明确标识出其所属的会话,因此,如何基于已有的即时通信话单明细数据进行会话切分,对分析用户会话内容主题,进而对用户进行分析,具有至关重要的作用。即时通信会话切分具有以下特点和挑战:(1)即时通信文本一般情况下属于超短文本,因此很难基于会话文本内容,单纯使用文本分类聚类技术实现高效准确地即时通信文本切分;(2)即时通信会话具有时效性,一般来说,即时通信双方在某个连续时间段内的通信主题相同,因此可以通过考虑即时通信时间来协助完成会话切分;(3)由于性格、习惯、身份等特征,不同的即时通信会话回复的时间间隔不同,即便是相同的通信用户组,也可能由于客观导致某个会话参与者的回复时间间隔异于平常,因此不能简单地基于某个固定的时间间隔阈值来进行会话切分。
技术实现思路
本专利技术提供了一种基于学习的即时通信会话切分技术与方法,用于实现对海量及时通信明细数据进行会话切分,为会话主题分析、基于会话内容的用户分析提供数据支持。具体步骤如下:步骤一、针对所有的即时通信会话用户,按照每两个用户之间的通信联系,将该两个用户划分为一组;步骤二、针对某通信会话用户组,将原始会话话单明细数据进行记录并分类;话单明细数据R=(RS,RR,T,C);RS表示会话发起者(RecordSender),RR表示通信会话接收者(RecordReciver),T表示话单R的发送时间,C为话单R的文本内容;步骤三、将每类的会话话单明细数据按照发送时间的先后顺序排序;步骤四、针对每类排序后的会话话单明细数据,选取相邻两条话单R1和R2,计算该两条话单记录的时间间隔Δt;Δt=F2(T2-T1)=T2-T1;T2>T1T1为话单R1的发送时间;T2为话单R2的发送时间;步骤五、计算该相邻两条话单R1和R2记录的文本内容相似度Δsim;具体步骤如下:步骤501、利用word2vec得到话单R1的文本内容C1,以及话单R2的文本内容C2;步骤502、对文本内容C1和C2进行分词和去除停用词,得到词集。文本内容C1得到的单词为wc1个;文本内容C2得到的单词为wc2个;步骤503、计算相邻话单R1和R2的文本内容距离F3;sim(wc1i,wc2j)采用cos余弦方法进行计算;wc1i表示文本内容C1的第i个单词;wc2j表示文本内容C2里的第j个单词。步骤504、利用文本内容距离F3计算话单R1和R2的文本内容相似度Δsim;Δsim=F3(C1,C2)步骤六、采用话单距离算法计算出相邻话单R1和R2的距离值F(R1,R2);F(R1,R2)=α×Δt+β×Δsimα为会话时间距离影响因子,β为会话文本内容距离的值;步骤七、判断距离值F(R1,R2)是否小于阈值f,如果是,则话单R1和R2同属于一个会话;否则,话单R1和R2分别属于两个不同的会话;话单R1和R2分别属于两个不同的会话,即上一个会话的最后一条消息为R1,新会话的第一条消息为R2。步骤八、针对该通信会话用户组的所有类会话话单明细数据,通过spark计算将所有类并行切分;每个通信会话用户组的会话距离符合以下特征:若同属1个会话,则不同相邻话单记录的距离值集中分布;若不同属于1个会话,则不同相邻话单记录的距离值分布稀疏。步骤九、针对所有分组的即时通信会话用户,通过spark并行运算步骤二到步骤八,将所有通信会话用户组并行工作。本专利技术的优点在于:1)、一种基于学习的即时通信会话切分技术与方法,可以实现不同会话用户组差异化的会话切分标准。2)、一种基于学习的即时通信会话切分技术与方法,综合考虑了会话时间距离影响因子和会话文本内容距离影响因子,有效解决了大数据背景下海量即时通信文本会话切分的准确性和高效性问题。附图说明图1为本专利技术一种基于学习的即时通信会话切分技术与方法的原理示意图;图2为本专利技术一种基于学习的即时通信会话切分技术与方法的流程示意图;图3为本专利技术计算相邻两条话单R1和R2记录的文本内容相似度的方法流程图。具体实施例下面结合附图对本专利技术的具体实施方法进行详细说明。本专利技术提出了一种基于学习的即时通信会话切分技术与方法,综合了会话短文本内容相似性和话单记录时间间隔两种因素,提出了基于学习的切分方法。如图1所示,针对所有的即时通信会话用户,两两划分为一组,并将每个会话用户组的会话话单明细数据(RS,RR,T,C)进行分类和基于时间排序;通过spark并行对所有用户组以及每个用户组的所有类话单明细数据分别同时操作;具体会话切分为:依次选取相邻两条话单R1和R2,计算该两条话单记录的时间间隔Δt和文本内容相似度Δsim;采用多元线性函数拟合模型,得到会话时间距离影响因子α和会话文本内容距离因子β;进一步计算出相邻话单R1和R2的距离值F(R1,R2);训练距离阈值f,根据距离值F(R1,R2)与阈值f之间的大小判断话单R1和R2是否同属于相同会话:如果F(R1,R2)<f,则话单R1和R2同属于一个会话;否则,话单R1和R2分别属于两个不同的会话;即上一个会话的最后1条消息为R1,新会话的第一条消息为R2;最终将所有即时通信的用户所有的会话进行切分。如图2所示,具体步骤如下:步骤一、针对所有的即时通信会话用户,按照每两个用户之间的通信联系,将该两个用户划分为一组;所有的通信参与者包括消息发送者和消息接收者,根据通信联系将通信的两个用户划分为一组并去重;通信联系包括电话通信,邮件通信,微信通信以及短信通信等。步骤二、针对某通信会话用户组,将原始会话话单明细数据进行记录并分类;话单明细数据R=(RS,RR,T,C);RS表示会话发起者(RecordSender),RR表示通信会话接收者(RecordReciver),T表示话单R的发送时间,C为话单R的文本内容;按照不同的通信方式将该通信会话用户组的所有通信联系划分为不同的类,如微信通信的为一类,短信通信的为一类等。步骤三、将每类的会话话单明细数据按照发送时间的先后顺序排序;步骤四、针对每类排序后的会话话单明细数据,选取相邻两条话单R1和R2,计算该两条话单记录的时间间隔Δt;Δt=F2(T2-T1)=T2-T1;T2>T1话单明细数据R1=(RS1,RR1,T1,C1);话单明细数据R2=(RS2,RR2,T2,C2);RS1,RR1,RS2,RR2为通信参与者组的用户ID;T1为话单R1的发送时间;T2为话单R2的发送时间;C1为话单R1的文本内容;C2为话单R2的文本内容;步骤五、计算该相邻两条话单R1和R2记录的文本内容相似度Δsim;适用于即时通信文本会话切分的文本内容距离相似度计算算法,基于word2vec和余弦距离设计实现。如图3所示,具体步骤如下:步骤501、利用word2vec得到话单R1的文本内容C1,以及话单R2的文本内容C2;本文档来自技高网...
一种基于学习的即时通信会话切分技术与方法

【技术保护点】
一种基于学习的即时通信会话切分技术与方法,其特征在于,具体步骤如下:步骤一、针对所有的即时通信会话用户,按照每两个用户之间的通信联系,将该两个用户划分为一组;步骤二、针对某通信会话用户组,将原始会话话单明细数据进行记录并分类;步骤三、将每类的会话话单明细数据按照发送时间的先后顺序排序;步骤四、针对每类排序后的会话话单明细数据,选取相邻两条话单R1和R2,计算该两条话单记录的时间间隔Δt;Δt=F2(T2‑T1)=T2‑T1;T2>T1T1为话单R1的发送时间;T2为话单R2的发送时间;步骤五、计算该相邻两条话单R1和R2记录的文本内容相似度Δsim;Δsim=F3(C1,C2)C1为话单R1的文本内容,C2为话单R2的文本内容;步骤六、采用话单距离算法计算出相邻话单R1和R2的距离值F(R1,R2);F(R1,R2)=α×Δt+β×Δsimα为会话时间距离影响因子,β为会话文本内容距离的值;步骤七、判断距离值F(R1,R2)是否小于阈值f,如果是,则话单R1和R2同属于一个会话;否则,话单R1和R2分别属于两个不同的会话;话单R1和R2分别属于两个不同的会话,即上一个会话的最后一条消息为R1,新会话的第一条消息为R2;步骤八、针对该通信会话用户组的所有类会话话单明细数据,通过spark计算将所有类并行切分;步骤九、针对所有分组的即时通信会话用户,通过spark并行运算步骤二到步骤八,将所有通信会话用户组并行工作。...

【技术特征摘要】
1.一种基于学习的即时通信会话切分技术与方法,其特征在于,具体步骤如下:步骤一、针对所有的即时通信会话用户,按照每两个用户之间的通信联系,将该两个用户划分为一组;步骤二、针对某通信会话用户组,将原始会话话单明细数据进行记录并分类;步骤三、将每类的会话话单明细数据按照发送时间的先后顺序排序;步骤四、针对每类排序后的会话话单明细数据,选取相邻两条话单R1和R2,计算该两条话单记录的时间间隔Δt;Δt=F2(T2-T1)=T2-T1;T2>T1T1为话单R1的发送时间;T2为话单R2的发送时间;步骤五、计算该相邻两条话单R1和R2记录的文本内容相似度Δsim;Δsim=F3(C1,C2)C1为话单R1的文本内容,C2为话单R2的文本内容;步骤六、采用话单距离算法计算出相邻话单R1和R2的距离值F(R1,R2);F(R1,R2)=α×Δt+β×Δsimα为会话时间距离影响因子,β为会话文本内容距离的值;步骤七、判断距离值F(R1,R2)是否小于阈值f,如果是,则话单R1和R2同属于一个会话;否则,话单R1和R2分别属于两个不同的会话;话单R1和R2分别属于两个不同的会话,即上一个会话的最后一条消息为R1,新会话的第一条消息为R2;步骤八、针对该通信会话用户组的所有类会话话单明细数据,通过spark计算将所有类并行切分;步骤九、针对所有分组的即时通信会话用户,通过spark并行运算步骤二到步骤八,将所有通信会话用户组并行工作。2.如权利...

【专利技术属性】
技术研发人员:唐积强马秀娟李传海毛洪亮吴震李焱余苏沐冉王秀文徐小磊张露晨王海平王峰
申请(专利权)人:国家计算机网络与信息安全管理中心北京赛思信安技术股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1