数据处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:19903640 阅读:32 留言:0更新日期:2018-12-26 02:58
本发明专利技术涉及一种数据处理方法、装置、计算机设备和存储介质,该方法包括:获取问题数据和候选文档;分别通过多个处理层逐层处理问题数据的信息和候选文档的信息,获得问题特征向量和文档特征向量,且在每个处理层处理时将相同处理层中问题数据的信息和候选文档的信息相互参考;根据问题特征向量和文档特征向量,确定候选文档中每个候选答案对应的答案相似度;按照答案相似度筛选对应的候选答案,获得与问题数据对应的答案数据。本申请方案根据问题特征向量和文档特征向量,确定候选文档中每个候选答案对应的答案相似度,提高了答案相似度的准确性,根据答案相似度确定答案数据,从而提高了确定答案数据的准确性。

【技术实现步骤摘要】
数据处理方法、装置、计算机设备和存储介质
本专利技术涉及计算机
,特别是涉及一种数据处理方法、装置、计算机设备和存储介质。
技术介绍
随着计算技术飞速发展,越来越多的数据需要通过计算机进行处理,基于数据对计算机的需求,使得数据处理技术也得到了发展。然而,伴随着数据处理技术的众多应用,对于数据处理准确度的要求越来越高,例如根据问题数据确定答案数据的业务,对确定答案数据的准确率要求较高。传统的确定答案数据的过程中,直接根据问题数据查询匹配的答案数据,查询到的答案数据千差万别,使得查询到的答案数据的准确率较低。
技术实现思路
基于此,有必要针对查询到的答案数据的准确率较低的问题,提供一种问答数据处理方法、装置、计算机设备和存储介质。一种数据处理方法,所述方法包括:获取问题数据和候选文档;分别通过多个处理层逐层处理所述问题数据的信息和所述候选文档的信息,获得问题特征向量和文档特征向量,且在每个处理层处理时将相同处理层中问题数据的信息和候选文档的信息相互参考;根据所述问题特征向量和所述文档特征向量,确定所述候选文档中每个候选答案对应的答案相似度;按照所述答案相似度筛选对应的候选答案,获得与所述问题数据对应的答案数据。一种数据处理装置,所述装置包括:数据获取模块,用于获取问题数据和候选文档;向量获得模块,用于分别通过多个处理层逐层处理所述问题数据的信息和所述候选文档的信息,获得问题特征向量和文档特征向量,且在每个处理层处理时将相同处理层中问题数据的信息和候选文档的信息相互参考;相似度确定模块,用于根据所述问题特征向量和所述文档特征向量,确定所述候选文档中每个候选答案对应的答案相似度;答案获得模块,用于按照所述答案相似度筛选对应的候选答案,获得与所述问题数据对应的答案数据。一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:获取问题数据和候选文档;分别通过多个处理层逐层处理所述问题数据的信息和所述候选文档的信息,获得问题特征向量和文档特征向量,且在每个处理层处理时将相同处理层中问题数据的信息和候选文档的信息相互参考;根据所述问题特征向量和所述文档特征向量,确定所述候选文档中每个候选答案对应的答案相似度;按照所述答案相似度筛选对应的候选答案,获得与所述问题数据对应的答案数据。一种存储有计算机程序的存储介质,所述计算机程序被处理器执行时,使得处理器执行如下步骤:获取问题数据和候选文档;分别通过多个处理层逐层处理所述问题数据的信息和所述候选文档的信息,获得问题特征向量和文档特征向量,且在每个处理层处理时将相同处理层中问题数据的信息和候选文档的信息相互参考;根据所述问题特征向量和所述文档特征向量,确定所述候选文档中每个候选答案对应的答案相似度;按照所述答案相似度筛选对应的候选答案,获得与所述问题数据对应的答案数据。上述数据处理方法、装置、计算机设备和存储介质,通过多个处理层逐层对问题数据的信息和候选文档的信息进行处理,且在每个处理层处理时相同处理层中问题数据的信息和候选文档的信息进行了相互参考,从而使得获得的问题特征向量和文档特征向量之间相互关联。根据问题特征向量和文档特征向量,确定候选文档中每个候选答案对应的答案相似度,提高了答案相似度的准确性,根据答案相似度确定答案数据,从而提高了确定答案数据的准确性。附图说明图1为本专利技术一个实施例中实施数据处理方法的系统架构示意图;图2为本专利技术一个实施例中数据处理方法的流程示意图;图3为本专利技术一个实施例中确定特征向量的步骤的流程示意图;图4为本专利技术一个实施例中处理原始向量的步骤的流程示意图;图5为本专利技术一个实施例中确定答案数据的步骤的流程示意图;图6为本专利技术另一个实施例中数据处理方法的流程示意图;图7为本专利技术一个实施例中数据处理装置的功能结构框图;图8为本专利技术一个实施例中计算机设备的硬件结构示意图;图9为本专利技术一个实施例中智能音响设备的硬件结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。图1为一个实施例中数据处理方法的应用场景图。参照图1,该应用场景中包括终端110和服务器120。终端110与服务器120通过网络连接。终端120具体可以是台式终端或移动终端,移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以是单个服务器,也可以是由多台服务器组成的服务器集群。如图2所示,在一个实施例中,提供一种数据处理方法,该数据处理方法可以应用于上述图1中的终端110,也可以应用于上述图1中的服务器120。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图2,该数据处理方法,具体包括以下步骤:S202,获取问题数据和候选文档。其中,问题数据为表达问题语义的数据。候选文档为包括与问题数据对应的候选答案的数据文档。数据文档为展示数据的文件。问题数据可以语音数据和文字数据。问题数据可以是用户通过终端输入的,还可以是根据用户输入的关键数据从数据库检索得到的。举例说明,问题数据可以是“A的老婆是XXX”,则候选文档可以是介绍A的文章,而候选文档中的每个字、词、短语或短句都可以是候选答案。具体地,用户通过输入装置向终端输入问题数据和候选文档。终端获取输入的问题数据和候选文档。终端可以通过声音采集装置采集用户输入的语音数据。在一个实施例中,终端获取用户输入的文字信息,从获取到的文字信息中提取问题数据和候选文档。在一个实施例中,S202具体包括:获取问题数据;提取问题数据中的问题关键数据;根据问题关键数据进行检索,得到与所述问题数据匹配的候选文档。具体地,终端获取输入的问题数据,从问题数据中提取问题关键数据,根据问题关键数据进行检索,通过检索得到与问题数据匹配的候选文档。在一个实施例中,终端从问题数据中提取问题关键数据,根据问题关键数据从网页内容数据库进行检索,得到检索到的候选文档。终端确定检索到的各候选文档与问题关键数据的相似度,根据相似度从各候选文档中筛选与问题数据匹配的候选文档。在一个实施例中,对于单个候选文档,终端确定候选文档的总词量和问题关键数据对应的关键词,在每个候选文档查询关键词的出现次数,将出现次数除以候选文档的总词量,得到候选文档与问题关键数据的相似度。在一个实施例中,终端将各候选文档对应的相似度进行比较,确定最高相似度对应的候选文档,筛选出确定的候选文档作为与问题数据匹配的候选文档。S204,分别通过多个处理层逐层处理问题数据的信息和候选文档的信息,获得问题特征向量和文档特征向量,且在每个处理层处理时将相同处理层中问题数据的信息和候选文档的信息相互参考。其中,多个处理层为对问题数据的信息和候选文档的信息进行参考处理,得到存在相互关联性的问题特征向量和文档特征向量的信息处理逻辑层。问题数据的信息为处理层对问题数据进行参考处理过程中生成的信息。候选文档的信息为处理层对候选文档进行参考处理过程中生成的信息。问题特征向量为用于表示问题数据特征的向量。文档特征向量为用于表示候选文档特征的向量。相互参考为根据问题数据和候选文档,确定问题数据本文档来自技高网...

【技术保护点】
1.一种数据处理方法,所述方法包括:获取问题数据和候选文档;分别通过多个处理层逐层处理所述问题数据的信息和所述候选文档的信息,获得问题特征向量和文档特征向量,且在每个处理层处理时将相同处理层中问题数据的信息和候选文档的信息相互参考;根据所述问题特征向量和所述文档特征向量,确定所述候选文档中每个候选答案对应的答案相似度;按照所述答案相似度筛选对应的候选答案,获得与所述问题数据对应的答案数据。

【技术特征摘要】
1.一种数据处理方法,所述方法包括:获取问题数据和候选文档;分别通过多个处理层逐层处理所述问题数据的信息和所述候选文档的信息,获得问题特征向量和文档特征向量,且在每个处理层处理时将相同处理层中问题数据的信息和候选文档的信息相互参考;根据所述问题特征向量和所述文档特征向量,确定所述候选文档中每个候选答案对应的答案相似度;按照所述答案相似度筛选对应的候选答案,获得与所述问题数据对应的答案数据。2.根据权利要求1所述的方法,其特征在于,所述获取问题数据和候选文档包括:获取问题数据;提取所述问题数据中的问题关键数据;根据所述问题关键数据进行检索,得到与所述问题数据匹配的候选文档。3.根据权利要求1所述的方法,其特征在于,所述分别通过多个处理层逐层处理所述问题数据的信息和所述候选文档的信息,获得问题特征向量和文档特征向量包括:分别获取所述问题数据的问题原始向量和所述候选文档的文档原始向量;将所述问题原始向量和所述文档原始向量输入当前处理层,在当前处理层中将问题原始向量和文档原始向量相互参考进行处理,得到当前层文档向量;以所述当前层文档向量作为文档原始向量,且以下一处理层作为当前处理层,返回所述将所述问题原始向量和所述文档原始向量输入当前处理层,在当前处理层中将问题原始向量和文档原始向量相互参考进行处理,得到当前层文档向量继续执行,直至最后一个处理层;根据最后一个处理层输出的当前层文档向量确定文档特征向量,并根据所述问题原始向量确定问题特征向量。4.根据权利要求3所述的方法,其特征在于,所述将所述问题原始向量和所述文档原始向量输入当前处理层,在当前处理层中将问题原始向量和文档原始向量相互参考进行处理,得到当前层文档向量包括:通过当前处理层中的门控循环单元,分别对所述问题原始向量和所述文档原始向量进行处理,得到问题待参考向量和文档待参考向量;将所述问题待参考向量和所述文档待参考向量输入向量参考单元,得到当前层问题向量;将所述当前层问题向量和所述文档待参考向量输入向量参考单元,得到当前层文档向量。5.根据权利要求4所述的方法,其特征在于,所述将所述问题待参考向量和所述文档待参考向量输入向量参考单元,得到当前层问题向量包括:根据所述问题待参考向量和所述文档待参考向量,确定文档向量对齐权重;将所述文档待参考向量与所述文档向量对齐权重相乘,生成文档对齐向量;对所述文档对齐向量与所述问题待参考向量进行元素积运算,得到当前层问题向量。6.根据权利要求5所述的方法,其特征在于,所述当前层问题向量通过以下公式计算得到:βj=softmax(DTqj)Z=[z1,z2,…,z|Q|]其中,D为文档待参考向量,DT为对文档待参考向量进行转置,qj表示问题待参考向量的第j个向量,βj表示文档向量对齐权重的第j个权重值,DTqj表示转置后的文档待参考向量DT与qj的乘积,softmax(DTqj)表示对DTqj进行归一化处理;表示文档对齐向量,Dβj表示D与βj的乘积;zj表示当前层问题向量中的第j个向量,表示qj与对应的进行元素积运算;Z为当前层问题向量,|Q|表示当前层问题向量的长度,1≤j≤|Q|。7.根据权利要求4所述的方法,其特征在于,所述将所述当前层问题向量和所述文档待参考向量输入向量参考单元,得到当前层文档向量包括:根据所述当前层问题向量和所述文档待参考向量,确定问题向量对齐权重;将所述问题向量对齐权重与所述当前层问题向量相乘,生成问题对齐向量;对所述问题对齐向量与所述文档待参考向量进行元素积运算,得到当前层文档向量。8.根据权...

【专利技术属性】
技术研发人员:譚翊章邓浩辉田乐
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1