一种基于学习的即时通信会话切分技术与方法技术

技术编号:16038116 阅读:51 留言:0更新日期:2017-08-19 19:56
本发明专利技术公开了一种基于学习的即时通信会话切分技术与方法,属于大数据分析领域;将即时通信会话用户两两划分为一组,并将每组的会话话单明细进行分类和基于时间排序;会话切分为:依次选取相邻两条话单R1和R2,计算时间间隔Δt,文本内容相似度Δsim和距离值F(R1,R2);如果F(R1,R2)<f,则话单R1和R2同属于一个会话;否则,话单R1和R2分别属于两个不同的会话;通过spark并行对所有用户组以及每个用户组的所有类话单明细数据分别同时操作,最终将所有即时通信的用户所有的会话进行切分。本发明专利技术综合考虑了会话时间距离影响因子和会话文本内容距离影响因子,实现了不同会话用户组差异化的会话切分标准,有效解决了大数据背景下海量即时通信文本会话切分的准确性和高效性问题。

【技术实现步骤摘要】
一种基于学习的即时通信会话切分技术与方法
本专利技术属于大数据分析领域,涉及一种基于学习的即时通信会话切分技术与方法。
技术介绍
随着大数据技术的成熟与普及,越来越多的企业和相关机构尝试基于用户的各种数据进行用户分析,例如基于用户的即时通信数据分析用户每个会话时所讨论的主题,再基于用户历史会话主题对用户进行分析和标签化。通常情况下,数据分析人员所面对的是即时通信双方的历史会话话单明细数据,这些明细数据并没有明确标识出其所属的会话,因此,如何基于已有的即时通信话单明细数据进行会话切分,对分析用户会话内容主题,进而对用户进行分析,具有至关重要的作用。即时通信会话切分具有以下特点和挑战:(1)即时通信文本一般情况下属于超短文本,因此很难基于会话文本内容,单纯使用文本分类聚类技术实现高效准确地即时通信文本切分;(2)即时通信会话具有时效性,一般来说,即时通信双方在某个连续时间段内的通信主题相同,因此可以通过考虑即时通信时间来协助完成会话切分;(3)由于性格、习惯、身份等特征,不同的即时通信会话回复的时间间隔不同,即便是相同的通信用户组,也可能由于客观导致某个会话参与者的回复时间间隔异于平常,本文档来自技高网...
一种基于学习的即时通信会话切分技术与方法

【技术保护点】
一种基于学习的即时通信会话切分技术与方法,其特征在于,具体步骤如下:步骤一、针对所有的即时通信会话用户,按照每两个用户之间的通信联系,将该两个用户划分为一组;步骤二、针对某通信会话用户组,将原始会话话单明细数据进行记录并分类;步骤三、将每类的会话话单明细数据按照发送时间的先后顺序排序;步骤四、针对每类排序后的会话话单明细数据,选取相邻两条话单R1和R2,计算该两条话单记录的时间间隔Δt;Δt=F2(T2‑T1)=T2‑T1;T2>T1T1为话单R1的发送时间;T2为话单R2的发送时间;步骤五、计算该相邻两条话单R1和R2记录的文本内容相似度Δsim;Δsim=F3(C1,C2)C1为话单R1的...

【技术特征摘要】
1.一种基于学习的即时通信会话切分技术与方法,其特征在于,具体步骤如下:步骤一、针对所有的即时通信会话用户,按照每两个用户之间的通信联系,将该两个用户划分为一组;步骤二、针对某通信会话用户组,将原始会话话单明细数据进行记录并分类;步骤三、将每类的会话话单明细数据按照发送时间的先后顺序排序;步骤四、针对每类排序后的会话话单明细数据,选取相邻两条话单R1和R2,计算该两条话单记录的时间间隔Δt;Δt=F2(T2-T1)=T2-T1;T2>T1T1为话单R1的发送时间;T2为话单R2的发送时间;步骤五、计算该相邻两条话单R1和R2记录的文本内容相似度Δsim;Δsim=F3(C1,C2)C1为话单R1的文本内容,C2为话单R2的文本内容;步骤六、采用话单距离算法计算出相邻话单R1和R2的距离值F(R1,R2);F(R1,R2)=α×Δt+β×Δsimα为会话时间距离影响因子,β为会话文本内容距离的值;步骤七、判断距离值F(R1,R2)是否小于阈值f,如果是,则话单R1和R2同属于一个会话;否则,话单R1和R2分别属于两个不同的会话;话单R1和R2分别属于两个不同的会话,即上一个会话的最后一条消息为R1,新会话的第一条消息为R2;步骤八、针对该通信会话用户组的所有类会话话单明细数据,通过spark计算将所有类并行切分;步骤九、针对所有分组的即时通信会话用户,通过spark并行运算步骤二到步骤八,将所有通信会话用户组并行工作。2.如权利...

【专利技术属性】
技术研发人员:唐积强马秀娟李传海毛洪亮吴震李焱余苏沐冉王秀文徐小磊张露晨王海平王峰
申请(专利权)人:国家计算机网络与信息安全管理中心北京赛思信安技术股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1