【技术实现步骤摘要】
一种异构知识问答模型的构建方法、信息提取方法及系统
[0001]本专利技术涉及模型问答智能
,具体涉及一种异构知识问答模型的构建方法
、
信息提取方法及系统
。
技术介绍
[0002]异构知识库是由多个不同领域的知识库组成的集合,它们包含了各种类型的信息,如文本
、
表格
、
语义关系等
。
这些知识库存储了大量的结构化和非结构化数据,可以用于各种任务,如信息提取
、
实体链接和推理等
。
[0003]表格问答是一种基于表格的自然语言处理任务,其目标是从给定的表格中回答用户提出的问题
。
表格问答的意义在于它可以处理结构化数据,从而从大规模的异构知识库中获取有用的信息
。
与传统的文本问答任务相比,表格问答通过结构化数据的利用,可以更加精确地回答问题,并提供更具体和详细的信息
。
[0004]由于异构知识库提供了大量的数据和知识,但由于其数量庞大和多样性,直接从中提取有用的信息并回答用户问题变得困难
。
表格问答可以在这一过程中发挥重要作用,通过将异构知识库中的数据转化为结构化的表格形式,表格问答任务可以轻松地处理和理解这些数据,并从中获取有用的信息
。
同时,由于表格具有明确的列和行,可以方便地进行查询和计算,可以更准确地回答问题,不会产生模糊或歧义的结果
。
[0005]但是单纯的表格问答应用在异构知识上面并不 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种异构知识问答模型的构建方法,其特征在于,包括:对异构知识中的表格信息进行文本转换处理,得到文本化表述的表格信息;利用文本化表述的表格信息对生成式模型进行
SQL
隐式训练,得到能感知和理解表格的生成式模型;采用追一数据集对所述能感知和理解表格的生成式模型进行问答训练,得到含表格信息的异构知识问答模型
。2.
如权利要求1所述的方法,其特征在于,所述对异构知识中的表格信息进行文本转换处理,得到文本化表述的表格信息,包括:将所述异构知识中的表格信息进行扁平化处理,得到拉平的表格信息;对所述拉平的表格信息中两个信息元素之间加入设定的符号,将信息元素区分,并在表格之间插入代表表头的第一标记符和代表表值的第二标记符,得到文本化表述的表格信息
。3.
如权利要求2所述的方法,其特征在于,所述第一标记符包括:表头;所述第二标记符包括:行
+
数字
。4.
如权利要求1所述的方法,其特征在于,所述利用文本化表述的表格信息对生成式模型进行
SQL
隐式训练,得到能感知和理解表格的生成式模型,包括:将表头
、
表值用文本化表述的表格信息随机填充到
SQL
语句中,执行
SQL
语句,得到所述
SQL
语句对应的搜索结果;将所述搜索结果对应的文本化表述的表格信息和
SQL
语句,结合搜索结果构成三元组
[
表名
, SQL
语句
,
搜索结果
]
;将表名
、SQL
语句和搜索结果构成监督单元;基于所述监督单元对生成式模型进行训练,得到能感知和理解表格的生成式模型;其中,所述表格信息包括表名
。5.
如权利要求1所述的方法,其特征在于,所述采用追一数据集对所述能感知和理解表格的生成式模型进行问答训练,得到含表格信息的异构知识问答模型,包括:将所述追一数据集按照
[
表名
,
问题
,
搜索结果
]
的形式组成三元组;将三元组中的
[
表名
,
问题
]
拼接成一个字段作为所述生成式模型的输入数据;以所述搜索结果作为监督信号对所述能感知和理解表格的生成式模型进行问答训练,得到含表格信息的异构知识问答模型
。6.
如权利要求5所述的方法,其特征在于,还包括:基于人工智能技术驱动的自然语言处理工具对追一数据集进行问题扩充
。7.
如权利要求6所述的方法,其特征在于,所述基于人工智能技术驱动的自然语言处理工具对追一数据集进行问题扩充,包括:将三元组中的问题输入到人工智能技术驱动的自然语言处理工具中,生成多个相似的新问题;将生成的多个相似的新问题填充到三元组中,形成包括
[
技术研发人员:郑蓉蓉,薛文婷,王晨辉,曾京文,于霄洋,杨林傲,武志栋,罗大勇,张韬,刘亚庆,殷红涛,刘孟奇,夏昂,肖磊,袁韶祖,祝天刚,
申请(专利权)人:国家电网有限公司信息通信分公司国网思极数字科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。