【技术实现步骤摘要】
数据处理方法、装置以及计算机可读存储介质
本公开涉及计算机
,特别涉及一种数据处理方法、装置以及计算机可读存储介质。
技术介绍
随着互联网电子商务的蓬勃发展,在线客服系统已成为电子商务网站的重要组成部分,也是展示企业网站形象,加强企业与访客互动的必备工具。在线客服中有时候客服需要一下子理解客户的大量咨询记录信息。比如在客服转接时,需要短时间内快速理解前一个客服和顾客的咨询记录信息。再比如顾客留言,收到留言时可能顾客说了一大堆问题描述,客服需要阅读顾客大量留言信息。即使在正常接线中,遇到促销活动时刻,每个客服同时接待很多顾客,难以快速响应,这时候顾客可能就会连续输入很多咨询记录信息,客服接待到当前顾客时需要快速阅读顾客咨询记录信息,并做出响应。于是从这些大量的咨询记录信息中摘出最关键的少量能代表顾客咨询含义的咨询记录信息有了迫切需求。一些相关技术中,通过判断咨询记录中各个句子与整通会话的相似度,来筛选出相似度高的句子,作为摘要句子进行显示。
技术实现思路
专利技术人发现:顾客咨询的一通会话通常包含着多种咨询主题。比如在咨询业务问题的时候不可避免的有一些闲聊;咨询退 ...
【技术保护点】
1.一种数据处理方法,包括:确定客户的咨询记录中各个句子在各个主题上的概率分布;根据所述咨询记录中各个句子在各个主题上的概率分布,确定各个主题对所述咨询记录中的贡献因子;根据各个主题在所述咨询记录中的贡献因子选取预设数量的主题;根据各个句子在选取的主题上的概率分布,确定作为咨询摘要的句子。
【技术特征摘要】
1.一种数据处理方法,包括:确定客户的咨询记录中各个句子在各个主题上的概率分布;根据所述咨询记录中各个句子在各个主题上的概率分布,确定各个主题对所述咨询记录中的贡献因子;根据各个主题在所述咨询记录中的贡献因子选取预设数量的主题;根据各个句子在选取的主题上的概率分布,确定作为咨询摘要的句子。2.根据权利要求1所述的数据处理方法,其中,所述确定客户的咨询记录中各个句子在各个主题上的概率分布包括:将所述咨询记录划分为不同的句子,并对各个句子进行分词;将分词后的每个句子生成一个训练样本,并将所述咨询记录对应的全部训练样本输入隐式狄利克雷分布LDA模型进行训练,得到所述咨询记录中各个句子在各个主题上的概率分布。3.根据权利要求2所述的数据处理方法,其中,所述将所述咨询记录对应的全部训练样本输入LDA模型进行训练包括:对所述咨询记录中每个词语随机赋予一个主题编号;根据以下吉布斯采样公式重新采样所述咨询记录中每个词语对应的主题编号,重复该步骤,直至吉布斯采样收敛,其中,zi表示第i个词语对应的主题编号,i表示去除下标为i的部分,表示第m个句子中的词语,表示第m个句子中的词语对应的主题编号,表示第m个句子中第k个主题产生的词语的个数,αk表示句子主题狄利克雷分布中事件的先验的伪计数,βt表示主题词语狄利克雷分布中事件的先验的伪计数,K表示主题的个数,V表示主题对应的词语的个数;统计各个句子中各个词语在各个主题上的概率,得到各个句子在各个主题上的概率分布。4.根据权利要求1所述的数据处理方法,其中,所述确定各个主题对所述咨询记录中的贡献因子包括:将各个句子在同一主题上的概率值相加得到该主题在所述咨询记录中的贡献因子。5.根据权利要求1所述的数据处理方法,其中,所述确定各个主题对所述咨询记录中的贡献因子包括:根据所述的咨询记录中各个句子在各个主题上的概率分布以及当前在线客服的职能,确定各个主题对所述咨询记录中的贡献因子。6.根据权利要求5所述的数据处理方法,其中,所述确定各个主题对所述咨询记录中的贡献因子包括:根据所述咨询记录中各个词语在各个主题上的概率分布,确定各个主题与当前在线客服的职能的相关度;将各个句子在同一主题上的概率分布值之和,与该主题与当前在线客服的职能的相关度之积,确定为该主题在所述咨询记录中的贡献因子。7.根据权利要求1-6任一项所述的数据处理方法,其中,所述咨询记录中主题的数量根据业务场景和咨询记录的长度确定;或者,选取主题的预设数量根据业务场景和咨询记录的长度确定;或者,咨询摘要的句子的数量根据业务场景、咨询记录的长度和选取的主题数量确定。8.一种数据处理装置,包括:句子概率确定模块,用于确定客户的咨询记录中各个句子在各个主题上的概率分布;主题贡献确定模块...
【专利技术属性】
技术研发人员:何刚,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。