【技术实现步骤摘要】
一种基于学习的即时通信会话切分技术与方法
本专利技术属于大数据分析领域,涉及一种基于学习的即时通信会话切分技术与方法。
技术介绍
随着大数据技术的成熟与普及,越来越多的企业和相关机构尝试基于用户的各种数据进行用户分析,例如基于用户的即时通信数据分析用户每个会话时所讨论的主题,再基于用户历史会话主题对用户进行分析和标签化。通常情况下,数据分析人员所面对的是即时通信双方的历史会话话单明细数据,这些明细数据并没有明确标识出其所属的会话,因此,如何基于已有的即时通信话单明细数据进行会话切分,对分析用户会话内容主题,进而对用户进行分析,具有至关重要的作用。即时通信会话切分具有以下特点和挑战:(1)即时通信文本一般情况下属于超短文本,因此很难基于会话文本内容,单纯使用文本分类聚类技术实现高效准确地即时通信文本切分;(2)即时通信会话具有时效性,一般来说,即时通信双方在某个连续时间段内的通信主题相同,因此可以通过考虑即时通信时间来协助完成会话切分;(3)由于性格、习惯、身份等特征,不同的即时通信会话回复的时间间隔不同,即便是相同的通信用户组,也可能由于客观导致某个会话参与者的回 ...
【技术保护点】
一种基于学习的即时通信会话切分技术与方法,其特征在于,具体步骤如下:步骤一、针对所有的即时通信会话用户,按照每两个用户之间的通信联系,将该两个用户划分为一组;步骤二、针对某通信会话用户组,将原始会话话单明细数据进行记录并分类;步骤三、将每类的会话话单明细数据按照发送时间的先后顺序排序;步骤四、针对每类排序后的会话话单明细数据,选取相邻两条话单R1和R2,计算该两条话单记录的时间间隔Δt;Δt=F2(T2‑T1)=T2‑T1;T2>T1T1为话单R1的发送时间;T2为话单R2的发送时间;步骤五、计算该相邻两条话单R1和R2记录的文本内容相似度Δsim;Δsim=F3(C1,C ...
【技术特征摘要】
1.一种基于学习的即时通信会话切分技术与方法,其特征在于,具体步骤如下:步骤一、针对所有的即时通信会话用户,按照每两个用户之间的通信联系,将该两个用户划分为一组;步骤二、针对某通信会话用户组,将原始会话话单明细数据进行记录并分类;步骤三、将每类的会话话单明细数据按照发送时间的先后顺序排序;步骤四、针对每类排序后的会话话单明细数据,选取相邻两条话单R1和R2,计算该两条话单记录的时间间隔Δt;Δt=F2(T2-T1)=T2-T1;T2>T1T1为话单R1的发送时间;T2为话单R2的发送时间;步骤五、计算该相邻两条话单R1和R2记录的文本内容相似度Δsim;Δsim=F3(C1,C2)C1为话单R1的文本内容,C2为话单R2的文本内容;步骤六、采用话单距离算法计算出相邻话单R1和R2的距离值F(R1,R2);F(R1,R2)=α×Δt+β×Δsimα为会话时间距离影响因子,β为会话文本内容距离的值;步骤七、判断距离值F(R1,R2)是否小于阈值f,如果是,则话单R1和R2同属于一个会话;否则,话单R1和R2分别属于两个不同的会话;话单R1和R2分别属于两个不同的会话,即上一个会话的最后一条消息为R1,新会话的第一条消息为R2;步骤八、针对该通信会话用户组的所有类会话话单明细数据,通过spark计算将所有类并行切分;步骤九、针对所有分组的即时通信会话用户,通过spark并行运算步骤二到步骤八,将所有通信会话用户组并行工作。2.如权利...
【专利技术属性】
技术研发人员:唐积强,马秀娟,李传海,毛洪亮,吴震,李焱余,苏沐冉,王秀文,徐小磊,张露晨,王海平,王峰,
申请(专利权)人:国家计算机网络与信息安全管理中心,北京赛思信安技术股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。