【技术实现步骤摘要】
数据处理的方法、装置和系统
本专利技术涉及互联网
,具体而言,涉及一种数据处理的方法、装置和系统。
技术介绍
在互联网发展趋势下,电商平台在提供在线购物或咨询业务的过程中,为减轻人工客服的工作量,基于互联网技术,结合计算机技术,开始逐步发展智能客服应答系统,其中,基于人类的沟通习惯,常常会出现长问句的形式,即,以一个长query向智能客服系统提问,由于长句本身所附带的大量信息,容易导致在对长query进行问答匹配过程中,准确率降低的情况发生。在相关技术中,用户输入的疑问句长query不受限制,因此会有部分用户输入的疑问句长query非常长,表达冗余,难以匹配到问答库中的问题。相关技术中,将query中的所有词的静态向量取平均作为query的向量,和问答库中的问题向量计算相似度,达到匹配的目的。该方案的缺点主要有三:一是静态词向量无法利用上下文的信息,无法解决多义词的问题。二是词向量平均作为句向量的过于粗糙,所有词都是相同权重处理。三是原有语言模型并没有利用到问答库的句子隶属关系信 ...
【技术保护点】
1.一种数据处理的系统,包括:/n预测子系统,用于获取用户输入的问询长句;/n离线训练子系统,用于依据所述用户输入的问询长句与离线训练得到的语言模型中的问题进行匹配,得到简写问题,并将所述简写问题返回所述预测子系统。/n
【技术特征摘要】
1.一种数据处理的系统,包括:
预测子系统,用于获取用户输入的问询长句;
离线训练子系统,用于依据所述用户输入的问询长句与离线训练得到的语言模型中的问题进行匹配,得到简写问题,并将所述简写问题返回所述预测子系统。
2.根据权利要求1所述的系统,其中,所述离线训练,用于根据所述用户输入的问题和问答库语料通过优化损失函数对所述语言模型进行优化,并依据优化后的所述语言模型通过序列对序列的方式对简写模型进行训练,获取所述问询长句的词向量,并依据所述词向量对所述问询长句进行改写得到所述简写问题。
3.根据权利要求1所述的系统,其中,所述预测子系统包括:在线预测子系统。
4.一种数据处理的方法,包括:
获取用户输入的问询长句;
通过语言模型获取所述问询长句的词向量;
依据所述词向量通过简写模型对所述问询长句进行改写,得到简写问题。
5.根据权利要求4所述的方法,其中,所述方法还包括:
根据所述用户输入的问题和问答库语料通过优化损失函数对所述语言模型进行优化,得到优化后的语言模型。
6.根据权利要求5所述的方法,其中,所述根据所述用户输入的问题和问答库语料通过优化损失函数对所述语言模型进行优化包括:
根据所述问答库中的语料,增加所述语料中句子所属同一问题的信息,并通过所述优化损失函数对所述语言模型进行优化。
7.根据权利要求4所述的方法,其中,所述依据所述词向量通过简写模型对所述问询长句进行改写,得到简写问题包括:
通过所述简写模型从所述词向量中获取满足预设条件的词,其中,所述预设条件为获取所述词向量中的权重满足预设阈值的词;
通过所述获取满足预设条件的词对所述问询长句进行改写,得到简写问题。
8.根据...
【专利技术属性】
技术研发人员:赵鹏,徐光伟,李辰,包祖贻,刘恒友,李林琳,张佶,杜河禄,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。