当前位置: 首页 > 专利查询>上海大学专利>正文

一种基于语义的物流智能客服问题相似度计算方法技术

技术编号:24457805 阅读:43 留言:0更新日期:2020-06-10 16:04
本发明专利技术涉及一种基于语义的物流智能客服问题的一种语义相似度计算方法,步骤为:根据收集的物流智能客服问题数据,利用物流领域的语义特征词、词的同义关系、词的词性关系,构建专业词典、同义词典和语义特征词典;获取待判断语义相似度的两句话;确定两句话中的语义特征词,并确定两个语义特征词的交集,对两句话已获得的语义向量进行更新;并根据阈值确定最终的相似度;在从收集的物流新闻、来自实际生产环境的客户问题以及该公司人工客服收集整理的标准问题的数据上进行了大量实验。实验表明本发明专利技术不但在处理相同上下文但语义不同的问题上,有良好的判别能力,在基本的问题上也具有比较不错的效果,能够有效的利用先验知识。

A similarity calculation method of Logistics Intelligent Customer Service Based on semantics

【技术实现步骤摘要】
一种基于语义的物流智能客服问题相似度计算方法
本专利技术主要是针对物流智能客服领域的一种基于语义的物流智能客服问题相似度计算方法。涉及到词向量、词向量空间、语义特征词、广义同义词、Word2vec和Jieba。改进原始的短文本计算方法,结合上述物流领域的特征进行短文本的相似度计算。
技术介绍
互联网的飞速发展,催生了和发展了很多产业,带给大家新的生活方式。其中物流的兴盛和发展是我们始料未及的事情,也随着物流的发展,与之相关的服务也随之兴起。在这个领域内,需要人工客服去对用户的问题进行解答,随之而来的就是产生了大量的短文本,包括用户的咨询、下单等相关问题。所以客服人员面临着极大的工作压力,此外,客服还有着招聘困难、人力成本高、流失率居高等特点,这样的困境对于物流整个行业来说都是需要解决的问题。智能客服的出现极大的缓解了以上问题,但也因为短文本包含的信息少,对其中的语义挖掘也变的越发困难。使得智能客服的服务质量没有很好的达到人们的要求。从而造成了用户体验差、用户流失的后果。为此,提升智能客服的理解能力是亟待解决的事情。模仿人类的思考过程,可以先让智能客服学习一些先验知识,当面对新的问题,就可以利用先验知识去理解这句话的语义信息,从而给出准确的答复。鉴于一般的用户问题符合上述短文本的特点,利用短文本的语义相似性来提高智能客服的理解能力成为了可能。但人们在物流领域上的短文本相似度的研究并不多,使得这样一个问题一直得不到很好的解决。短文本这类数据包含的信息少,对其中的语义挖掘也越发困难。以往的研究没有针对物流智能客服领域,但基本的文本处理方式是通用的。采用的技术大都是将文本表示为向量,通过这些向量来表达出完整的信息。但是这些向量往往只是当前词的一种表示形式,并没有考虑到词与词之间的关系,即语义关系。其他语义相似的方法,对普通的数据是比较有用,而对于物流智能客服领域来说,这些方法没有考虑到特定领域的特性,所以并不一定适合。以往的研究中,计算语义相似的方法被分成两类,一类是基于词典或者索引集的方法,另一类是基于信息理论或者语料库的方法。现在越来越多的人会使用深度学习计算语义相似,但这种方法需要大量的数据和资源,对于物流智能客服领域来说,存在缺乏数据和需要不断更新的问题,其应用性也因此受到了限制。
技术实现思路
本专利技术的目的是针对现有的短文本相似度计算方法没有考虑物流智能客服领域的特性、需要大量数据和不断更新的问题而提出的一种结合物流智能客服的基于语义的物流智能客服问题相似度计算方法。生成需要对比的短文本的词向量空间,并利用Jieba获取相同词性的词向量空间。在该向量空间上利用Word2vec模型判断词之间的相似度,再结合物流智能客服领域的语义特征词,对短文本对进行最后的语义相似性判断。来达到提高智能客服的理解能力,满足用户基本问题需求的目的。为了达到上述目的,本专利技术的构思是:(1)原始数据的收集与整理,主要包括获取用户问题、构建专业词典、同义词典和语义特征词典。本专利技术使用到的数据是从某物流公司获得的大量用户问题、物流新闻和物流人工客服整理的标准问题。从这些问题中去除重复、包含订单号的问题。在构建专业词典阶段,使用Jieba分词工具,对这些问题进行分词,并人工进行校验。对分词和词性标注错误的词进行收集和整理,获得物流领域的专业词典。用于提高分词工具在物流领域的分词和词性标注的能力。构建同义词典和语义特征词(SFW)典,先训练Word2vec模型,该模型的训练过程,接收的是词列表,并且每句或每段话要有明显的分割标志,以确定当前的词列表的上下文信息。在进行分词之前,加载构建的专业词典,使得分词和词性标注更好的适应物流领域。得到的词列表放入Word2vec进行训练。根据物流智能客服领域的特性,利用Word2vec对一些同义词进行提取,如“快递”与“包裹”、“快件”等,并由人工进行校验。在语义特征词的构建中,使用该领域所出现的行为动词,主要包括“寄件”、“查”、“破损”等具有明显的业务意图的词。(2)接收用户问题,在一个完整的问答系统中,由前端界面提供的对话窗口功能,接收用户的问题,并把问题传递到后端,进行下一步操作。(3)问题处理,接收到用户问题之后,需要对用户问题进行分词和词性标注工作,在这一步需要利用到Jieba分词工具和数据处理阶段创建的专业词典,在去除停用词之后获得词列表。(4)获得语义向量,对当前接收的用户问题和已有的先验问题进行语义计算,获得对比问题的语义向量。(5)确定语义相似,在得到语义向量之后,计算对比语句语义向量之间的距离,即余弦值,根据阈值确定最终的语义相似结果。(6)问题回复,在具有语义相似的对比问题上,将已有的先验知识的答案回复给用户,用以解决用户询问的问题。一种基于语义的物流智能客服问题相似度计算方法,根据上述构思,本专利技术采用了下述技术方案:1)构建专业词典、同义词典和语义特征词典。2)获得待判断语义相似度的两句话的词、词性和每种词性对应的词列表s1、s2,POS,SPOS1、SPOS2,并初始化这两句话的语义向量sim1,sim2。遍历其中一句话的词列表s1,获得当前词w1i,同时遍历另外一句话的词列表s2,获得另外一句话的词列表中与当前词具有相同词性的词w2j。3)更新当前位置的语义向量值sim1i,若w1i与w2j相同,则对应位置sim1i的值置为1.0。若不同,则判断是否具有同义关系。利用结合了物流领域的同义词典S,判断当前词对是否具有严格的同义关系。若在该同义词典中没有找到当前词对,则使用Word2Vec模型,获得两个词之间的相似度wsim,若相似度大于指定阈值t,则认为二者是同义词,相应的位置仍置为1.0。若小于指定的阈值t,则相应的位置置为该词对之间的相似度wsim。4)同样的方式获得sim2。5)在遍历两句话词表的过程中,分别得出语句对的语义特征词集合Q1={q11,q12,…,q1n},Q2={q21,q22,…,q2m}。判断该语句对是否具有相同或相似的语义特征词,从Q1和Q2中去除相同或相似的语义特征词。若Q1与Q2均不为空,则对两句话的语义向量进行更新,扩大二者之间的语义距离,即两句话表达的意思是不相同。6)计算sim1和sim2的余弦值,根据阈值判断两个句子是否具有语义相似。以上的步骤描述中,获取词性、指定词性的词集合的计算公式如下所示:其中,pi(i=1,2…f)是来自s1和s2的所有词性集合,prsij(r=1,2…min(k,l),i=1,2,j=1,2…min(m,n))代表第i句话,属于第r的词性的第j个词集合。k,l分别为两句话中的词性种类数。选取下一个单词公式为:对于任意一个属于某个词性的词集合pks1i的词w1i,需要从prs2j中选择词w2j,即选择第二句话中与w1i具有相同词性pr的词。w2(j+1)代表第二句话中的下一个词。选取了当前对比词对之后,需要更新对应位置的语义向量值sim1i,计算公式如下:首先,使用同义词典S去判断w1i和w2j是否具本文档来自技高网
...

【技术保护点】
1.一种基于语义的物流智能客服问题相似度计算方法,其特征在于操作步骤如下:/n1)构建专业词典、同义词典和语义特征词典;/n2)获得待判断语义相似度的两句话的词、词性和每种词性对应的词列表s

【技术特征摘要】
1.一种基于语义的物流智能客服问题相似度计算方法,其特征在于操作步骤如下:
1)构建专业词典、同义词典和语义特征词典;
2)获得待判断语义相似度的两句话的词、词性和每种词性对应的词列表s1、s2,POS,SPOS1、SPOS2,并初始化两句话的语义向量sim1,sim2;遍历其中一句话的词列表s1,获得当前词w1i,同时遍历另外一句话的词列表s2,获得另外一句话的词列表中与当前词具有相同词性的词w2j;
3)更新当前位置的语义向量值sim1i,若w1i与w2j相同,则对应位置sim1i的值置为1.0;若不同,则判断是否具有同义关系;利用结合了物流领域的同义词典S,判断当前词对是否具有严格的同义关系;若在该同义词典中没有找...

【专利技术属性】
技术研发人员:彭俊杰胡敬响胡淼张换香谭书华
申请(专利权)人:上海大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1