对齐增强语义解析方法、装置和计算机程序产品制造方法及图纸

技术编号:34946319 阅读:14 留言:0更新日期:2022-09-17 12:22
本发明专利技术涉及自然语言处理技术领域,提供一种对齐增强语义解析方法、装置和计算机程序产品,所述方法包括:预测知识问答任务中对应对齐关系的短语,并基于对应对齐关系的短语的类型生成对应的查询片段,其中,对齐关系包括短语和对应的查询片段;将序列化的对齐关系拼接至输入序列,并将输入序列输入编码器

【技术实现步骤摘要】
对齐增强语义解析方法、装置和计算机程序产品


[0001]本专利技术涉及自然语言处理
,尤其涉及一种对齐增强语义解析方法、装置和计算机程序产品。

技术介绍

[0002]近年来,面向表格的表格问答(又称表格语义解析或文本到SQL 语句)是一个热门的研究方向,用于基于特定表格或对应多张表所组成的数据库,将使用自然语言描述的问题自动化地转换成相应的形式语言查询,一般采用SQL语句查询。
[0003]事实上,现实世界中绝大多数的数据均存储于关系型数据库中,访问数据库需要我们根据需求编写相应的SQL语句查询。而SQL语句查询的编写专业要求较高,需要编写者熟练掌握SQL的语法规则,还需要对数据库的结构(schema)足够了解,即对数据库所包含的表名和列名足够了解,因此,面向表格的知识问答应运而生,使得不熟悉SQL语法和数据库结构的普通用户访问大规模数据库成为可能,具有较高的应用价值和广泛的应用前景。
[0004]现有技术中,针对面向表格的知识问答,现有模型大多通过注意力基质的权重来建模对齐,并通过依照该权重所得到的结果向量隐式地添加到模型中。这种方法主要存在以下两个问题:(1)、标准的注意力机制仅能建模实现词级别对齐,而知识回答任务重存在很多多粒度的、非连续的对齐,标准的注意力机制无法将知识回答任务视作整体,可能导致解码器无法正确生成注意力模块;(2)、传统注意力机制会导致模型在训练集上的过拟合,不利于模型的泛化能力。

技术实现思路

[0005]本专利技术提供一种对齐增强语义解析方法、装置和计算机程序产品,用以解决现有技术中解析模型过拟合且泛化能力较低的缺陷,实现较大粒度的建模对齐,且提高解析准确度及噪声对解析模型的鲁棒性。
[0006]本专利技术提供一种对齐增强语义解析方法,包括:
[0007]预测知识问答任务中对应对齐关系的短语,并基于所述对应对齐关系的短语的类型生成对应的查询片段,其中,所述对齐关系包括短语和对应的查询片段;
[0008]将序列化的所述对齐关系拼接至输入序列,并将所述输入序列输入编码器

解码器解析模型的编码器模型,获取对齐的编码结果;
[0009]将所述对齐的编码结果进行注意力操作并输入编码器

解码器解析模型的解码器模型,解析并输出对齐关系对应的查询语句,其中,解码器模型是利用含噪对齐训练获得。
[0010]根据本专利技术提供的对齐增强语义解析方法,预测知识问答任务中对应对齐关系的短语,并基于所述对应对齐关系的短语的类型生成对应的查询片段,其中,所述对齐关系包括短语和对应的查询片段,包括:
[0011]基于所述知识问答任务,利用序列标注方法预测对应对齐关系的短语,并识别所述短语的类型,其中,所述短语的类型包括以下任一种:关键字类型、列类型和值类型;
[0012]根据所述短语的类型,生成短语对应的查询片段。
[0013]根据本专利技术提供的对齐增强语义解析方法,所述根据所述短语的类型,生成短语对应的查询片段,包括:
[0014]在所述短语的类型包括关键字类型的情况下,基于序列生成模型,获取关键字类型短语对应的查询片段。
[0015]根据本专利技术提供的对齐增强语义解析方法,所述根据所述短语的类型,生成短语对应的查询片段,包括:
[0016]在所述短语的类型包括列类型或值类型的情况下,基于注意力机制,获取特定表格中与列类型短语或值类型短语匹配度最高的列。
[0017]根据本专利技术提供的对齐增强语义解析方法,所述将序列化的所述对齐关系拼接至输入序列,并将所述输入序列输入编码器

解码器解析模型的编码器模型,获取对齐的编码结果,包括:
[0018]在所述编码器

解码器解析模型的编码器模型,将每个对齐类别符号、所述对应对齐关系的短语和短语对应的查询片段拼接入输入序列内,用于实现知识问答任务与特定表格内容相链接。
[0019]根据本专利技术提供的对齐增强语义解析方法,所述将所述对齐的编码结果进行注意力操作并输入编码器

解码器解析模型的解码器模型,解析并输出对齐关系对应的查询语句,其中,解码器模型是利用含噪对齐训练获得,包括:
[0020]基于预训练模型,在训练集中包括标注对齐关系和含噪对齐关系的情况下,利用交叉验证方法训练解码器模型;
[0021]将所述输入序列中每条对齐类别符号的隐状态对对齐关系进行注意力操作;
[0022]将所述输入序列中每条对齐类别符号的隐状态的注意力操作向量拼接前一个单词的嵌入表示,并输入解码器模型中,输出解析的查询语句,用于将对齐关系注入至下一时刻的隐状态中。
[0023]本专利技术还提供一种对齐增强语义解析装置,包括:
[0024]预测模块,用于预测知识问答任务中对应对齐关系的短语,并基于所述对应对齐关系的短语的类型生成对应的查询片段,其中,所述对齐关系包括短语和对应的查询片段;
[0025]编码模块,用于将序列化的所述对齐关系拼接至输入序列,并将所述输入序列输入编码器

解码器解析模型的编码器模型,获取对齐的编码结果;
[0026]解析模块,用于将所述对齐的编码结果进行注意力操作并输入编码器

解码器解析模型的解码器模型,解析并输出对齐关系对应的查询语句,其中,解码器模型是利用含噪对齐训练获得。
[0027]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述对齐增强语义解析方法。
[0028]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述对齐增强语义解析方法。
[0029]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述对齐增强语义解析方法。
[0030]本专利技术提供的对齐增强语义解析方法、装置和计算机程序产品,通过预测对应对齐关系的短语,并基于短语类型生成短语对应的查询片段,获取知识问答任务中包含的“词汇

逻辑”对齐,显示的利用“词汇

逻辑”对齐,且从更大粒度的短语级别上实现建模对齐,提升解析模型在不同领域间的泛化能力;同时,使用编码器

解码器解析模型,在编码阶段,将对齐信息拼接至输入序列中,并输入编码器模型中,更好地实现知识问答任务与特定表格内容相链接,且在解码阶段,利用含噪对齐与标注对齐拼接形成的增强的训练集训练解码器模型,增强解码器对于噪声对解码器模型的鲁棒性,提高解析准确度,且基于数据增强的方式来缓解错误对齐对解码器模型的负面影响,并通过对对齐关系进行注意力操作后输入解码器模型,实现端到端的解析。
附图说明
[0031]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对齐增强语义解析方法,其特征在于,包括:预测知识问答任务中对应对齐关系的短语,并基于所述对应对齐关系的短语的类型生成对应的查询片段,其中,所述对齐关系包括短语和对应的查询片段;将序列化的所述对齐关系拼接至输入序列,并将所述输入序列输入编码器

解码器解析模型的编码器模型,获取对齐的编码结果;将所述对齐的编码结果进行注意力操作并输入编码器

解码器解析模型的解码器模型,解析并输出对齐关系对应的查询语句,其中,解码器模型是利用含噪对齐训练获得。2.根据权利要求1所述的对齐增强语义解析方法,其特征在于,所述预测知识问答任务中对应对齐关系的短语,并基于所述对应对齐关系的短语的类型生成对应的查询片段,其中,所述对齐关系包括短语和对应的查询片段,包括:基于所述知识问答任务,利用序列标注方法预测对应对齐关系的短语,并识别所述短语的类型,其中,所述短语的类型包括以下任一种:关键字类型、列类型和值类型;根据所述短语的类型,生成短语对应的查询片段。3.根据权利要求2所述的对齐增强语义解析方法,其特征在于,所述根据所述短语的类型,生成短语对应的查询片段,包括:在所述短语的类型包括关键字类型的情况下,基于序列生成模型,获取关键字类型短语对应的查询片段。4.根据权利要求2所述的对齐增强语义解析方法,其特征在于,所述根据所述短语的类型,生成短语对应的查询片段,包括:在所述短语的类型包括列类型或值类型的情况下,基于注意力机制,获取特定表格中与列类型短语或值类型短语匹配度最高的列。5.根据权利要求1

4中任一项所述的对齐增强语义解析方法,其特征在于,将序列化的所述对齐关系拼接至输入序列,并将所述输入序列输入编码器

解码器解析模型的编码器模型,获取对齐的编码结果,包括:在所述编码器

解码器解析模型的编码器模型,将每个对齐类别符号、所述对应对齐关系的短语...

【专利技术属性】
技术研发人员:何世柱刘康赵军孙润鑫
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1