问答模型训练方法、问答方法、装置、设备、存储介质制造方法及图纸

技术编号:37269200 阅读:15 留言:0更新日期:2023-04-20 23:39
本公开提供了问答模型训练方法、问答方法、装置、设备、存储介质,涉及数据处理技术领域,尤其涉及问答技术领域。问答方法的具体实现方案为:获取待处理问题;根据表格的单元格之间的邻接关系,从所述表格中确定与所述待处理问题相匹配的答案。理问题相匹配的答案。理问题相匹配的答案。

【技术实现步骤摘要】
问答模型训练方法、问答方法、装置、设备、存储介质


[0001]本公开涉及数据处理
,尤其涉及表格问答


技术介绍

[0002]表格承载了大量有价值的数据,表格问答技术旨在从表格中查找给出待处理问题的答案。目前,表格问答技术大多依托于数据库,需要人工标注表格的表头的位置,将表格存储于预先定义了表头的数据库中,在数据库中查询与待处理问题相匹配的答案,操作繁琐,效率较低。

技术实现思路

[0003]本公开提供了一种问答模型训练方法、问答方法、装置、设备、存储介质。
[0004]根据本公开的第一方面,提供了一种问答方法,包括:
[0005]获取待处理问题;
[0006]根据表格的单元格之间的邻接关系,从所述表格中确定与所述待处理问题相匹配的答案。
[0007]根据本公开的第二方面,提供了一种问答模型训练方法,包括:
[0008]获取多组训练样本,每组训练样本包括待处理问题、表格的单元格之间的邻接关系以及从所述表格确定的与所述待处理问题相匹配的标注答案;
[0009]将所述训练样本输入问答模型,根据所述问答模型从所述表格中确定与所述待处理问题相匹配的预测答案;
[0010]根据所述标注答案和所述预测答案计算损失误差,并根据所述损失误差对所述问答模型的模型参数进行调节。
[0011]本公开的第三方面,提供了一种问答装置,包括:
[0012]获取模块,用于获取待处理问题;
[0013]确定模块,用于根据表格的单元格之间的邻接关系,从所述表格中确定与所述待处理问题相匹配的答案。
[0014]本公开的第四方面,提供了一种问答模型训练装置,包括:
[0015]获取模块,用于获取多组训练样本,每组训练样本包括待处理问题、表格的单元格之间的邻接关系以及从所述表格确定的与所述待处理问题相匹配的标注答案;
[0016]输入模块,用于将所述训练样本输入问答模型,根据所述问答模型从所述表格中确定与所述待处理问题相匹配的预测答案;
[0017]训练模块,用于根据所述标注答案和所述预测答案计算损失误差,并根据所述损失误差对所述问答模型的模型参数进行调节。
[0018]本公开的第五方面,提供了一种电子设备,包括:
[0019]至少一个处理器;以及
[0020]与所述至少一个处理器通信连接的存储器;其中,
[0021]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
[0022]本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据第一方面所述的方法。
[0023]本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面所述的方法。
[0024]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0025]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0026]图1为本公开一示例性实施例提供的一种问答方法的流程图;
[0027]图2是根本公开一示例性实施例提供的一种问答方法的部分流程图;
[0028]图3为本公开一示例性实施例提供的一种问答方法采用的问答模型的架构示意图;
[0029]图4为本公开一示例性实施例提供的一种问答模型训练方法的流程图;
[0030]图5为本公开一示例性实施例提供的一种问答装置的模块示意图;
[0031]图6为本公开一示例性实施例提供的一种问答模型训练装置的模块示意图;
[0032]图7为本公开一示例性实施例提供的一种电子设备的结构示意图。
具体实施方式
[0033]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0034]图1为本公开一示例性实施例提供的一种问答方法的流程图,该问答方法可以应用于智能对话、基于企业文档的搜索问答等场景,参见图1,该问答方法包括以下步骤:
[0035]步骤101、获取待处理问题。
[0036]该待处理问题为用户想要从表格中获得答案的问题,具体待处理问题可以根据实际需求自行设置。
[0037]表格可以是表格文档中的表格,可以是本文中插入的表格,还可以是为富文档中的表格。表格可以是应用于医疗、金融、能源等领域的表格。本公开实施例对表格的具体形式、应用领域不作特别限定。
[0038]步骤102、根据表格的单元格之间的邻接关系,从表格中确定与待处理问题相匹配的答案。
[0039]上述邻接关系可以是预先确定的;也可以在获取到待处理问题时,构建获取待处理问题对应的表格的邻接关系。
[0040]表格包括至少两个单元格,单元格的内容包括文字和/或图片。邻接关系表征各个单元格之间的位置关系以及单元格的内容的关联关系。将表格通过邻接关系表征,在确定
待处理问题的答案时不仅分析了表格的内容,还结合了表格的结构信息,从而能够得到更加准确的答案。
[0041]本公开实施中,基于表格的单元格之间的邻接关系,能够实现表格与待处理问题的联合理解,使得表格具有与待处理问题进行交互的能力,能够从表格中直接确定与待处理问题相匹配的答案。且通过该邻接关系能够表征任意结构的复杂表格,摆脱了对于关系型数据库表格的约束,无需预先人工标注表格的表头以及定义表头与数据库的关系,不依托于数据库即可基于表格直接给出与待处理问题相匹配的答案,效率较高,能够满足高效答案获取的需求。
[0042]在一个实施例中,参见图2,步骤102包括以下步骤:
[0043]步骤102

1、根据邻接关系,确定表格中与待处理问题相匹配的目标单元格。
[0044]在一个实施例中,步骤102

1根据预先训练的问答模型确定目标单元格。示例性的,将邻接关系和待处理问题输入问答模型,根据问答模型确定待处理问题与各个单元格的匹配度;进而可以根据该匹配度确定目标单元格,例如将匹配度大于匹配度阈值的单元格确定为目标单元格。
[0045]其中,问答模型由训练样本对图神经网络训练得到。模型的具体训练过程参见下文描述,此处不再赘述。
[0046]步骤102

2、根据目标单元格的内容确定答案。
[0047]步骤102

1中确定的目标单元格的数量可以是1个,也可以是多个,还可以是0个。若目标单元格的数量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种问答方法,包括:获取待处理问题;根据表格的单元格之间的邻接关系,从所述表格中确定与所述待处理问题相匹配的答案。2.根据权利要求1所述的问答方法,其中,根据表格的单元格之间的邻接关系,从所述表格中确定与所述待处理问题相匹配的答案,包括:根据所述邻接关系,确定所述表格中与所述待处理问题相匹配的目标单元格;根据所述目标单元格的内容确定所述答案。3.根据权利要求1所述的问答方法,其中,所述根据表格的单元格之间的邻接关系,从所述表格中确定与所述待处理问题相匹配的答案,包括:将所述邻接关系和所述待处理问题输入问答模型,根据所述问答模型确定所述待处理问题与各个单元格的匹配度;其中,所述问答模型由训练样本对图神经网络训练得到;根据所述匹配度确定所述答案。4.根据权利要求3所述的问答方法,其中,所述问答模型包括序列生成神经网络层和输出层;将所述邻接关系和所述待处理问题输入问答模型,根据所述问答模型确定所述待处理问题与各个单元格的匹配度,包括:将所述邻接关系和所述待处理问题输入所述序列生成神经网络层,根据所述序列生成神经网络层得到各个单元格的第一特征编码以及所述待处理问题的第二特征编码;所述第一特征编码通过对所述待处理问题进行联合理解得到,所述第二特征编码通过对单元格的内容进行联合理解得到;将所述第一特征编码和所述第二特征编码输入所述输出层,根据所述输出层确定所述匹配度。5.根据权利要求3所述的问答方法,其中,所述邻接关系通过邻接矩阵和内容序列表征,所述内容序列根据各个单元格的内容确定;所述将所述邻接关系和所述待处理问题输入问答模型,包括:将所述内容序列与所述待处理问题进行拼接;将拼接结果和所述邻接矩阵输入问答模型。6.根据权利要求1所述的问答方法,其中,所述邻接关系由所述表格的拓扑图确定;一个单元格对应所述拓扑图的一个节点;所述拓扑图的边表征单元格之间的位置关系。7.根据权利要求6所述的问答方法,其中,所述拓扑图采用广度优先遍历算法对所述表格的单元格建立得到。8.根据权利要求1

7中任一项所述的问答方法,其中,所述表格为富文档中的表格;和/或,单元格的内容包括文字和/或图片。9.一种问答模型训练方法,包括:获取多组训练样本,每组训练样本包括待处理问题、表格的单元格之间的邻接关系以及从所述表格确定的与所述待处理问题相匹配的标注答案;将所述训练样本输入问答模型,根据所述问答模型从所述表格中确定与所述待处理问题相匹配的预测答案;
根据所述标注答案和所述预测答案计算损失误差,并根据所述损失误差对所述问答模型的模型参数进行调节。10.根据权利要求9所述的问答模型训练方法,将所述训练样本输入问答模型,根据所述问答模型从所述表格中确定与所述待处理问题相匹配的预测答案,包括:将所述邻接关系和所述待处理问题输入问答模型,根据所述问答模型确定所述待处理问题与各个单元格的匹配度;根据所述匹配度确定所述答案。11.根据权利要求10所述的问答模型训练方法,所述问答模型包括序列生成神经网络层和输出层;将所述邻接关系和所述待处理问题输入问答模型,根据所述问答模型确定所述待处理问题与各个单元格的匹配度,包括:将所述邻接关系和所述待处理问题输入所述序列生成神经网络层,根据所述序列生成神经网络层得到各个单元格的第一特征编码以及所述待处理问题的第二特征编码;所述第一特征编码通过对所述待处理问题进行联合理解得到,所述第二特征编码通过对单元格的内容进行联合理解得到;将所述第一特征编码和所述第二特征编码输入所述输出层,根据所述输出层确定所述匹配度。12.根据权利要求9所述的问答模型训练方法,所述邻接关系由邻接矩阵和内容序列表征,所述内容序列根据各个单元格的内容确定;所述将所述训练样本输入问答模型,包括:将所述内容序列与所述待处理问题进行拼接;将拼接结果和所述邻接矩阵输入问答模型。13.根据权利要求9所述的问答模型训练方法,还包括:构建所述表格的拓扑图;所述表格的一个单元格对应所述拓扑图的一个节点;所述拓扑图的边表征单元格之间的位置关系;根据所述拓扑图确定所述邻接关系;所述邻接关系用于构建所述训练样本。14.根据权利要求13所述的问答模型训练方法,其中,所述构建所述表格的拓扑图,包括:采用广度优先遍历算法构建所述表格的拓扑图。15.一种问答装置,包括:获取模块,用于获取待处理问题;确定模块,用于根据表格的单元格之间的邻接关系,从所述表格中确定与所述待处理问题相匹配的答案。16.根据权利要求15所述的问答装置,其中,所...

【专利技术属性】
技术研发人员:郝洋姜文斌崔骁鹏吕雅娟佘俏俏
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1