一种异构知识问答模型的构建方法技术

技术编号:39573584 阅读:12 留言:0更新日期:2023-12-03 19:25
本发明专利技术提供了一种异构知识问答模型的构建方法

【技术实现步骤摘要】
一种异构知识问答模型的构建方法、信息提取方法及系统


[0001]本专利技术涉及模型问答智能
,具体涉及一种异构知识问答模型的构建方法

信息提取方法及系统


技术介绍

[0002]异构知识库是由多个不同领域的知识库组成的集合,它们包含了各种类型的信息,如文本

表格

语义关系等

这些知识库存储了大量的结构化和非结构化数据,可以用于各种任务,如信息提取

实体链接和推理等

[0003]表格问答是一种基于表格的自然语言处理任务,其目标是从给定的表格中回答用户提出的问题

表格问答的意义在于它可以处理结构化数据,从而从大规模的异构知识库中获取有用的信息

与传统的文本问答任务相比,表格问答通过结构化数据的利用,可以更加精确地回答问题,并提供更具体和详细的信息

[0004]由于异构知识库提供了大量的数据和知识,但由于其数量庞大和多样性,直接从中提取有用的信息并回答用户问题变得困难

表格问答可以在这一过程中发挥重要作用,通过将异构知识库中的数据转化为结构化的表格形式,表格问答任务可以轻松地处理和理解这些数据,并从中获取有用的信息

同时,由于表格具有明确的列和行,可以方便地进行查询和计算,可以更准确地回答问题,不会产生模糊或歧义的结果

[0005]但是单纯的表格问答应用在异构知识上面并不容易,同时在下游任务上表现的往往不够好

而且由于异构知识库存在大量的表格和文本数据,但由于其数量庞大和多样性,直接从中提取有用的信息并回答用户问题变得困难


技术实现思路

[0006]为了解决现有技术由于异构知识库存在大量的表格和文本数据,但由于其数量庞大和多样性,直接从中提取有用的信息并回答用户问题变得困难的问题,本专利技术提出了一种异构知识问答模型的构建方法,包括:对异构知识中的表格信息进行文本转换处理,得到文本化表述的表格信息;利用文本化表述的表格信息对生成式模型进行
SQL
隐式训练,得到能感知和理解表格的生成式模型;采用追一数据集对所述能感知和理解表格的生成式模型进行问答训练,得到含表格信息的异构知识问答模型

[0007]可选的,所述对异构知识中的表格信息进行文本转换处理,得到文本化表述的表格信息,包括:将所述异构知识中的表格信息进行扁平化处理,得到拉平的表格信息;对所述拉平的表格信息中两个信息元素之间加入设定的符号,将信息元素区分,并在表格之间插入代表表头的第一标记符和代表表值的第二标记符,得到文本化表述的表格信息

[0008]可选的,所述第一标记符包括:表头;所述第二标记符包括:行
+
数字

[0009]可选的,所述利用文本化表述的表格信息对生成式模型进行
SQL
隐式训练训练,得到能感知和理解表格的生成式模型,包括:将表头

表值用文本化表述的表格信息随机填充到
SQL
语句中,执行
SQL
语句,得到所述
SQL
语句对应的搜索结果;将所述搜索结果对应的文本化表述的表格信息和
SQL
语句,结合搜索结果构成三元组
[
表名
, SQL
语句
, 搜索结果
];将表名
、SQL
语句和搜索结果构成监督单元;基于所述监督单元对生成式模型进行训练得到能感知和理解表格的生成式模型;其中,所述表格信息包括表名

[0010]可选的,所述采用追一数据集对所述能感知和理解表格的生成式模型进行问答训练,得到含表格信息的异构知识问答模型,包括:将所述追一数据集按照
[
表名
,
问题,搜索结果
]的形式组成三元组;将三元组中的 [
表名
,
问题
] 拼接成一个字段作为所述生成式模型的输入数据;以所述搜索结果作为监督信号对所述能感知和理解表格的生成式模型进行问答训练,得到含表格信息的异构知识问答模型

[0011]可选的,还包括:基于人工智能技术驱动的自然语言处理工具对追一数据集进行问题扩充

[0012]可选的,所述基于人工智能技术驱动的自然语言处理工具对追一数据集进行问题扩充,包括:将三元组中的问题输入到人工智能技术驱动的自然语言处理工具中,生成多个相似的新问题;将生成的多个相似的新问题填充到三元组中,形成包括
[
表名
,
新问题,搜索结果
]的多条新的数据

[0013]可选的,在对异构知识中的表格信息进行文本转换处理,得到文本化表述的表格信息之前,还包括从文本信息中识别表格信息

[0014]再一方面,本申请还提供了一种异构知识问答模型的构建系统,包括:预处理模块,用于对异构知识中的表格信息进行文本转换处理,得到文本化表述的表格信息;隐式训练模块,用于利用文本化表述的表格信息对生成式模型进行
SQL
隐式训练,得到能感知和理解表格的生成式模型;问答训练模块,用于采用追一数据集对所述能感知和理解表格的生成式模型进行问答训练,得到含表格信息的异构知识问答模型

[0015]可选的,所述预处理模块具体用于:将所述异构知识中的表格信息进行扁平化处理,得到拉平的表格信息;对所述拉平的表格信息中两个信息元素之间加入设定的符号,将信息元素区分,并在表格之间插入代表表头的第一标记符和代表表值的第二标记符,得到文本化表述的表格信息

[0016]可选的,所述第一标记符包括:表头;所述第二标记符包括:行
+
数字

[0017]可选的,所述隐式训练模块具体用于:将表头

表值用文本化表述的表格信息随机填充到
SQL
语句中,执行
SQL
语句,得到所述
SQL
语句对应的搜索结果;将所述搜索结果对应的文本化表述的表格信息和
SQL
语句,结合搜索结果构成三元组
[
表名
, SQL
语句
, 搜索结果
];将表名
、SQL
语句和搜索结果构成监督单元;基于所述监督单元对生成式模型进行训练得到能感知和理解表格的生成式模型;其中,所述表格信息包括表名

[0018]可选的,问答训练模块,具体用于:将所述追一数据集按照
[
表名
,
问题,搜索结果
]的形式组成三元组;将三元组中的 [
表名
, 问题
] 拼接成一个字段作为所述生成式模型的输入数据;以所述搜索本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种异构知识问答模型的构建方法,其特征在于,包括:对异构知识中的表格信息进行文本转换处理,得到文本化表述的表格信息;利用文本化表述的表格信息对生成式模型进行
SQL
隐式训练,得到能感知和理解表格的生成式模型;采用追一数据集对所述能感知和理解表格的生成式模型进行问答训练,得到含表格信息的异构知识问答模型
。2.
如权利要求1所述的方法,其特征在于,所述对异构知识中的表格信息进行文本转换处理,得到文本化表述的表格信息,包括:将所述异构知识中的表格信息进行扁平化处理,得到拉平的表格信息;对所述拉平的表格信息中两个信息元素之间加入设定的符号,将信息元素区分,并在表格之间插入代表表头的第一标记符和代表表值的第二标记符,得到文本化表述的表格信息
。3.
如权利要求2所述的方法,其特征在于,所述第一标记符包括:表头;所述第二标记符包括:行
+
数字
。4.
如权利要求1所述的方法,其特征在于,所述利用文本化表述的表格信息对生成式模型进行
SQL
隐式训练,得到能感知和理解表格的生成式模型,包括:将表头

表值用文本化表述的表格信息随机填充到
SQL
语句中,执行
SQL
语句,得到所述
SQL
语句对应的搜索结果;将所述搜索结果对应的文本化表述的表格信息和
SQL
语句,结合搜索结果构成三元组
[
表名
, SQL
语句
,
搜索结果
]
;将表名
、SQL
语句和搜索结果构成监督单元;基于所述监督单元对生成式模型进行训练,得到能感知和理解表格的生成式模型;其中,所述表格信息包括表名
。5.
如权利要求1所述的方法,其特征在于,所述采用追一数据集对所述能感知和理解表格的生成式模型进行问答训练,得到含表格信息的异构知识问答模型,包括:将所述追一数据集按照
[
表名
,
问题
,
搜索结果
]
的形式组成三元组;将三元组中的
[
表名
,
问题
]
拼接成一个字段作为所述生成式模型的输入数据;以所述搜索结果作为监督信号对所述能感知和理解表格的生成式模型进行问答训练,得到含表格信息的异构知识问答模型
。6.
如权利要求5所述的方法,其特征在于,还包括:基于人工智能技术驱动的自然语言处理工具对追一数据集进行问题扩充
。7.
如权利要求6所述的方法,其特征在于,所述基于人工智能技术驱动的自然语言处理工具对追一数据集进行问题扩充,包括:将三元组中的问题输入到人工智能技术驱动的自然语言处理工具中,生成多个相似的新问题;将生成的多个相似的新问题填充到三元组中,形成包括
[

【专利技术属性】
技术研发人员:郑蓉蓉薛文婷王晨辉曾京文于霄洋杨林傲武志栋罗大勇张韬刘亚庆殷红涛刘孟奇夏昂肖磊袁韶祖祝天刚
申请(专利权)人:国家电网有限公司信息通信分公司国网思极数字科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1