数据应答处理方法、装置及服务器制造方法及图纸

技术编号:17265293 阅读:38 留言:0更新日期:2018-02-14 12:45
本说明书实施例提供一种数据应答处理方法、装置及服务器。该方法包括:获取用户的提问数据;基于预设词向量集合确定该提问数据的词向量;计算该词向量与预设数量的索引词向量之间的匹配度,将与该词向量匹配度最小的索引词向量所对应的应答数据反馈给目标用户。

Data response processing methods, devices and servers

The specification embodiment provides a data response processing method, device and server. The method includes: obtaining user data questions; default word vector set the word vector based on the data of the question; and calculate the default word vector matching degree between index vector quantity, and the word vector matching corresponding to the minimum degree of the index vector according to the feedback responses to target users.

【技术实现步骤摘要】
数据应答处理方法、装置及服务器
本说明书实施例涉及互联网
,特别涉及一种数据应答处理方法、装置及服务器。
技术介绍
在互联网时代,人们日常生活中的事务常常在互联网进行处理。用户在互联网业务系统使用产品或者服务的过程中,经常会有咨询问题、查询业务等获取数据的需求。业务系统往往会通过自动化应答的方式,来满足用户使用过程中获取数据的需求。现有技术中一般采用关键词识别匹配的方式来实现自动化数据应答处理,具体的,可以包括预先设置关键词识别组合规则以识别并组合提问数据中的关键词,然后,建立提问数据中的一个或多个关键词与应答数据之间的映射关系;接着,基于建立的映射关系匹配用户输入的提问数据中关键词与相应的应答数据;最后,将匹配到的应答数据反馈给用户,以达到为用户提供需求数据的目的。例如,建立的映射关系包括关键词“谢谢”和应答数据“不客气”相对应,相应的,当用户提问数据中包括关键词“谢谢”时,就可以匹配到应答数据“不客气”,将应答数据“不客气”反馈给用户。但是,在实际应用中,中文的同义词很多,且多个关键词组成的句子可以表达不同的意思。因此,现有技术中基于建立的关键词与应答数据之间的映射关系进行关键词识别匹配的方法存在匹配成功率低的问题,需要提供更可靠的方案。
技术实现思路
本说明书实施例的目的是提供一种数据应答处理方法、装置及服务器,可以提高对提问数据的识别成功率,快速准确的为用户提供需求的数据。本说明书实施例是这样实现的:一种数据应答处理方法,包括:获取目标提问数据;基于预设词向量集合确定所述目标提问数据的目标词向量;计算所述目标词向量与预设数量的索引词向量之间的匹配度,将与所述目标词向量匹配度最小的索引词向量所对应的应答数据反馈给目标用户。一种数据应答处理装置,包括:目标提问数据获取模块,用于获取目标提问数据;目标词向量确定模块,用于基于预设词向量集合确定所述目标提问数据的目标词向量;匹配度计算模块,用于计算所述目标词向量与预设数量的索引词向量之间的匹配度;应答数据反馈模块,用于将与所述目标词向量匹配度最小的索引词向量所对应的应答数据反馈给目标用户。一种数据应答处理服务器,包括处理器及存储器,所述存储器存储由所述处理器执行的计算机程序指令,所述计算机程序指令包括:获取目标提问数据;基于预设词向量集合确定所述目标提问数据的目标词向量;计算所述目标词向量与预设数量的索引词向量之间的匹配度,将与所述目标词向量匹配度最小的索引词向量所对应的应答数据反馈给目标用户。由以上可见,本说明书一个或多个实施例通过将目标提问数据和索引数据转换成相应的包含词语语义的词向量后进行匹配,由于同义词的词向量之间的向量距离较近,保证匹配过程中,可以以较小的误差相互代替,同时,本说明书实施例使用的是整个目标提问数据和索引数据的词向量的匹配,包含了目标提问数据和索引数据中所有词语的语义,保证了词向量可以准确表示目标提问数据和索引数据的语义,进而可以提高对提问数据的识别成功率,快速准确的为用户提供需求的数据。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是说明书提供的数据应答处理方法的一种实施例的流程示意图;图2是本说明书提供的词向量模型训练及应用的一种实施例的示意图;图3是本说明书提供的基于预设词向量集合确定所述目标提问数据的目标词向量的一种实施例的流程示意图;图4是本说明书提供的将与所述目标词向量匹配度最小的索引词向量所对应的应答数据反馈给目标用户一种实施例的流程示意图;图5是本说明书提供的数据应答处理装置的一种实施例的结构示意图。具体实施方式本说明书实施例提供一种数据应答处理方法、装置及服务器。为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。但实际应用中,由于中文的同义词很多,而且考虑到特定领域的场景,可扩展的同义词数量更多。以金融领域的“如何购买基金”中的“购买”为例,在该语境下,同义词包括但不限于“申购”、“入手”、“买入”、“进场”等。同时多个关键词在不同语境中表达不同的语义,例如提问数据“什么是基金”中的关键词为“基金”和“什么”。但是,这两个关键词的组合处理可以与索引数据“什么是基金”匹配,也可以与“基金有什么用”、“什么基金适合初级理财者购买”等较复杂的语义的索引数据匹配。而“什么是基金”、“基金有什么用”、“什么基金适合初级理财者购买”所对应的应答数据显然不同。因此,利用关键词识别匹配来实现数据应答处理,常常因关键词的同义词扩展不够,关键词识别组合规则对关键词的语义覆盖范围不足等,出现匹配成功率低的问题。考虑到,一般每个词语都有多个语义,这里的词与可以包括一个或多个字。例如“咖”,可以表示颜色咖色,也可以表示咖啡、还可以表示咖喱等等。基于此,本说明书实施例引入可以直接反映词语的语义信息的“词向量”,具体的,“词向量”可以包括使用K维表示词语与词语之间语义关联度的实数向量,两个词语之间的语义关联度越高,相应的两个词语的词向量之间距离越近。例如词语“手机”与“电脑”因均为电子产品,存在语义关联度要高于词语“手机”与“马路”之间的语义关联度。相应的,“手机”与“电脑”所对应的两个词向量之间的距离要比“手机”与“马路”所对应的两个词向量之间的距离更近。因此,可以将提问数据和索引数据转换成相应的词向量,然后基于词向量之间的距离的判断实现提问数据与索引数据之间的匹配,最终,将匹配到的应答数据反馈给用户,以达到为用户提供需求数据的目的。以下介绍说明书一种数据应答处理方法的具体实施例。图1是说明书提供的数据应答处理方法的一种实施例的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示,所述方法可以包括:S102:获取目标提问数据。本说明书实施例中所述目标提问数据可以包括用户在预设搜索界面输入的待获取数据的标识数据。具体的,例如,当用户需要在互联网搜索某一数据时,往往会输入能够作为该数据的标识的提问数据。相应的,互联网业务系统会为业务数据设置能够作为该业务数据的关键信息标识的索引数据来与提问数据进行匹配以实现为用户提供需求数据的目的。一般的,索引数据可以为标题或问答系统中的问题数据等形式。S104:基于预设词向量集合确定所述目标提问数据的目标词向量。本说明书实施例中,可以预先基于对预设语料数据进行训练得到的表征词语的语义关联度的词向量的集合(本文档来自技高网
...
数据应答处理方法、装置及服务器

【技术保护点】
一种数据应答处理方法,包括:获取目标提问数据;基于预设词向量集合确定所述目标提问数据的目标词向量;计算所述目标词向量与预设数量的索引词向量之间的匹配度,将与所述目标词向量匹配度最小的索引词向量所对应的应答数据反馈给目标用户。

【技术特征摘要】
1.一种数据应答处理方法,包括:获取目标提问数据;基于预设词向量集合确定所述目标提问数据的目标词向量;计算所述目标词向量与预设数量的索引词向量之间的匹配度,将与所述目标词向量匹配度最小的索引词向量所对应的应答数据反馈给目标用户。2.根据权利要求1所述的方法,其中,所述基于预设词向量集合确定所述目标提问数据的目标词向量包括:对所述目标提问数据进行分词处理,得到多个分词;从所述预设词向量集合中查询所述多个分词的词向量;对查询到的分词的词向量进行加权平均计算,将计算得到的词向量作为所述目标提问数据的目标词向量;其中,所述预设词向量集合包括基于对预设语料数据进行训练得到的表征词语的语义关联度的词向量的集合。3.根据权利要求1所述的方法,其中,所述预设数量的索引词向量包括采用下述方法确定:获取预先建立的知识库中的索引数据,遍历所述预先建立的知识库中的每一索引数据,在遍历每一索引数据时执行下述确定索引数据的索引词向量的步骤:将索引数据进行分词处理,得到所述索引数据的多个分词;从所述预设词向量集合中查询所述多个分词的词向量;对查询到的分词的词向量进行加权平均计算,将计算得到的词向量作为所述索引数据的索引词向量;其中,所述预设词向量集合包括基于对预设语料数据进行训练得到的表征词语的语义关联度的词向量的集合。4.根据权利要求1所述的方法,其中,所述将与所述目标词向量匹配度最小的索引词向量所对应的应答数据反馈给目标用户包括:确定与所述目标词向量匹配度最小的索引词向量;查询预设映射关系表确定所述匹配度最小的索引词向量所对应的应答数据;将所述应答数据反馈给目标用户。5.根据权利要求1所述的方法,其中,所述匹配度至少包括下述之一:欧氏距离、余弦距离、曼哈顿距离。6.一种数据应答处理装置,包括:目标提问数据获取模块,用于获取目标提问数据;目标词向量确定模块,用于基于预设词向量集合确定所述目标提问数据的目标词向量;匹配度计算模块,用于计算所述目标词向量与预设数量的索引词向量之间的匹配度;应答数据反馈模块,用于将与所述目标词向量匹配度最小的索引词向量所对应的应答数据反馈给目标用户。7.根据权利要求6所述的装置,其中,所述目标词向量确定模块包括:分词处理单元,用于对所述目标提问数据进行分词处理,得到多个分词;查询单元,用于从所述预设词向量集合中查询所述多个分词的词向量;计算单元,用于对查询到的分词的词向量进行加权平均计算,将计算得到的词向量作为所述目标提问数据的目标词向量;其中,所述预设词向量集合包括基于对预设语料数据进行训练得到的表征词语的语义关联度的词向量的集合。8.根据权利要求6所述的装置,其中,所述预设数量的索引词向量包括采用下述方法确定:获取预先建立的知识库中的索引数据,遍历所述预先建立的知...

【专利技术属性】
技术研发人员:陈召群崔恒斌
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1