基于表格问答的自然答案生成系统及其方法技术方案

技术编号:34280903 阅读:27 留言:0更新日期:2022-07-24 18:18
本发明专利技术涉及基于表格问答的自然答案生成系统及方法,数据预处理模块,对用户提出的问题文本进行中文分词、正则去模糊处理;文本编码模块,将用户提出的问题文本与知识库实体转化为计算机形式的数据类型和计算单元;结构化查询语句生成模块,根据文本编码生成问题对应的结构化查询语句;自然答案生成模块,根据生成的结构化查询语句进行自然答案的生成,包含主语生成、谓语生成和宾语生成。采用正则化表达式和中文分词,对问题文本与知识库实体进行语义填充完善;采用预训练模型,对问题文本与知识库实体进行语义表示;利用槽位填充,将语义表示转换为完整的结构化查询语句,基于结构化查询语句,生成自然答案。生成自然答案。生成自然答案。

Natural answer generation system and method based on tabular question answering

【技术实现步骤摘要】
基于表格问答的自然答案生成系统及其方法


[0001]本专利技术涉及一种基于表格问答的自然答案生成系统及其方法。

技术介绍

[0002]目前,人工智能技术高速发展,迫切需要利用现有的技术真正的解决人类社会现实生活中的问题,才能真正从技术之中获益。表格问答产生于当前表格知识库泛滥,需要通过问答技术实现信息检索与整合的背景下,其中表格知识库包含大量来自不同领域的知识,可以提升表格知识库的记过效率,通过结构化查询语句在知识库上的执行结果作为问答结果的输入;因而基于表格问答的自然答案生成是其重要扩展。评判一个问答结果是否被问答用户接纳,包括两个方面的评价:首先是机器评价,根据自然答案生成要素进行评价,分别设置主



宾三种要素,评价包含主语生成准确度、谓语生成准确度、宾语生成准确度;其次是人工评价,人工评价来自流利性评测、一致性评测、多样性评测三个方面,以此进行答案生成评价,流利性代表答案语句是否通畅流利,具有良好的可读性;一致性评价代表答案语句是否与问题文本的方向相关联;任务的重点是面向问题文本的结构化查询语句的生成。与英语相比,汉语问题文本编码任务更加复杂,由于分词等因素影响其难度较大;并且目前的表格问答无论是英文或者中文语境中都是在通用语料库上进行,对于自然答案生成基本上没有应用。
[0003]基于表格问答的自然答案生成的主要技术方法分为:基于槽位填充的方法、基于结构化查询语句执行结果的方法,基于槽位填充的方法多采用语言学专家手工构造文本模板,选用主



宾等槽位模式,配合以文本分类,与SQL在数据库的执行结果作为槽位独享的填充。
[0004]基于结构化查询语句执行结果的方法,实际将生成完整的结构化查询语句在在数据库中执行结果作为自然答案,即为NL2SQL任务,该任务不需要广博的数据库知识,并且可以在较短时间内完成,基于结构化查询语句执行结果的方法是基于表格问答的自然答案生成中最早使用的方法。

技术实现思路

[0005]本专利技术的目的是克服现有技术存在的不足,提供一种基于表格问答的自然答案生成系统及其方法。
[0006]本专利技术的目的通过以下技术方案来实现:
[0007]基于表格问答的自然答案生成系统,特点是:包含数据预处理模块、文本编码模块、结构化查询语句生成模块以及自然答案生成模块;所述数据预处理模块,对用户提出的问题文本进行中文分词、正则去模糊处理;
[0008]所述文本编码模块,将用户提出的问题文本与知识库实体转化为计算机形式的数据类型和计算单元;
[0009]所述结构化查询语句生成模块,根据文本编码生成问题对应的结构化查询语句,
包含SELECT子句生成和WHERE子句生成;
[0010]所述自然答案生成模块,根据生成的结构化查询语句进行自然答案的生成,包含主语生成、谓语生成和宾语生成。
[0011]进一步地,上述的基于表格问答的自然答案生成系统,其中,所述数据预处理模块包含正则表达处理模块和中文分词模块;所述正则表达处理模块,面向问题文本,采用正则表达式将模糊的数字实体转化为符合知识库存储形式的实体,模糊数字实体包含年份模糊实体、百分比模糊实体和数字模糊实体;所述中文分词模块,面向用户提出的中文问题文本,将文本中的词语进行切分,采用分词工具,得到一串词汇序列。
[0012]进一步地,上述的基于表格问答的自然答案生成系统,其中,所述文本编码模块,将数据预处理模块处理后的问题文本数据和知识库实体进行数学化表示,并将高位向量映射到欧式空间的高维空间中,采用独热编码,将文本编码成可理解和处理的编码序列,通过预训练模型进行对应文本语义特征获取。
[0013]进一步地,上述的基于表格问答的自然答案生成系统,其中,所述文本编码模块包含问题文本编码模块和知识库实体编码模块,问题文本编码模块用于问题文本的编码向量表示,知识库实体编码模块用于知识库实体的编码向量表示。
[0014]进一步地,上述的基于表格问答的自然答案生成系统,其中,所述结构化查询语句生成模块包含SELECT子句生成模块和WHERE子句生成模块;所述SELECT子句生成模块,采用预训练模型训练生成问题文本与知识库实体的词向量后,通过多分类模型Softmax进行SELECT子句生成,SELECT子句包含列名选取以及聚合函数的选取;所述WHERE子句生成模块,采用预训练模型训练生成问题文本与知识库实体的词向量后,通过多分类模型Softmax进行WHERE子句生成,WHERE子句包含列名选取、操作符号的选取、数值抽取以及条件关联符号选取。
[0015]进一步地,上述的基于表格问答的自然答案生成系统,其中,所述自然答案生成模块,将经过结构化查询语句生成模块的SELECT子句生成模块和WHERE子句生成模块后的语句进行拼接形成完整的结构化查询语句,自然答案采用主



宾架构,包含主语生成模块、谓语生成模块以及宾语生成模块,主语生成来自SELECT子句生成结果,谓语生成通过已设置的谓语标签{“是”、”有”},基于问题文本进行标签判定生成,谓语部分来完整的结构化查询语句在数据库中的执行结果。
[0016]本专利技术基于表格问答的自然答案生成方法,包括以下步骤:
[0017]首先,将问答的输入部分,即问题文本与知识库中实体进行数据预处理,问题文本去模糊以及问题文本分词;
[0018]然后,将数据预处理之后的问题文本数据以及知识库实体进行独热编码后进入预训练模型进行训练,生成对应相关的词向量;
[0019]其次,将特征向量输入结构化查询语句生成模块,通过SELECT子句生成与WHERE子句生成贫瘠额,形成完整的SQL;结构化查询语句生成包含六个子任务,每个任务均是多分类模型;基于问题文本和知识库实体的语义表示判定标签类别的概率,概率最高的类别即是最终的输出结果;
[0020]最后,依据自然答案生成要求,设计主



宾生成框架,将完整的SQL在数据库中执行获取结果作为宾语生成结果,通过拼接作为最终的自然答案。
[0021]更进一步地,上述的基于表格问答的自然答案生成方法,其中,由数据预处理模块,处理问题文本的模糊实体以及对问题文本进行中文分词;由文本编码模块,对问题文本

知识库实体序列进行语义表示;由结构化查询语句生成模块,将词向量输入,通过SELECT子句生成模块与WHERE子句生成模块进行结构化查询语句生成;由自然答案生成模块,基于结构化查询语句生成自然答案,作为问答的最终结果。
[0022]更进一步地,上述的基于表格问答的自然答案生成方法,其中,由数据预处理模块的正则表达处理模块,对问题文本进行数据去模糊以及中文分词任务,通过正则表达式去除问题文本模糊数字实体;中文分词模块,将问题文本中的词语进行切分出,采用jieba分词工具,得到一串词汇序列;
[0023]由本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于表格问答的自然答案生成系统,其特征在于:包含数据预处理模块(1)、文本编码模块(2)、结构化查询语句生成模块(3)以及自然答案生成模块(4);所述数据预处理模块(1),对用户提出的问题文本进行中文分词、正则去模糊处理;所述文本编码模块(2),将用户提出的问题文本与知识库实体转化为计算机形式的数据类型和计算单元;所述结构化查询语句生成模块(3),根据文本编码生成问题对应的结构化查询语句,包含SELECT子句生成和WHERE子句生成;所述自然答案生成模块(4),根据生成的结构化查询语句进行自然答案的生成,包含主语生成、谓语生成和宾语生成。2.根据权利要求1所述的基于表格问答的自然答案生成系统,其特征在于:所述数据预处理模块(1)包含正则表达处理模块(101)和中文分词模块(102);所述正则表达处理模块(101),面向问题文本,采用正则表达式将模糊的数字实体转化为符合知识库存储形式的实体,模糊数字实体包含年份模糊实体、百分比模糊实体和数字模糊实体;所述中文分词模块(102),面向用户提出的中文问题文本,将文本中的词语进行切分,采用分词工具,得到一串词汇序列。3.根据权利要求1所述的基于表格问答的自然答案生成系统,其特征在于:所述文本编码模块(2)包含问题文本编码模块(201)和知识库实体编码模块(202),问题文本编码模块(201)用于问题文本的编码向量表示,知识库实体编码模块(202)用于知识库实体的编码向量表示。4.根据权利要求1或3所述的基于表格问答的自然答案生成系统,其特征在于:所述文本编码模块(2),将数据预处理模块(1)处理后的问题文本数据和知识库实体进行数学化表示,并将高位向量映射到欧式空间的高维空间中,采用独热编码,将文本编码成可理解和处理的编码序列,通过预训练模型进行对应文本语义特征获取。5.根据权利要求1所述的基于表格问答的自然答案生成系统,其特征在于:所述结构化查询语句生成模块(3)包含SELECT子句生成模块(301)和WHERE子句生成模块(302);所述SELECT子句生成模块(301),采用预训练模型训练生成问题文本与知识库实体的词向量后,通过多分类模型Softmax进行SELECT子句生成,SELECT子句包含列名选取以及聚合函数的选取;所述WHERE子句生成模块(302),采用预训练模型训练生成问题文本与知识库实体的词向量后,通过多分类模型Softmax进行WHERE子句生成,WHERE子句包含列名选取、操作符号的选取、数值抽取以及条件关联符号选取。6.根据权利要求1所述的基于表格问答的自然答案生成系统,其特征在于:所述自然答案生成模块(4),将经过结构化查询语句生成模块(3)的SELECT子句生成模块(301)和WHERE子句生成模块(302)后的语句进行拼接形成完整的结构化查询语句,自然答案采用主



宾架构,包含主语生成模块(401)、谓语生成模块(402)以及宾语生成模块(403),主语生成来自SELECT子句生成结果,谓语生成通过已设置的谓语标签{“是”、”有”},基于问题文本进行标签判定生成,谓语部分来完整的结构化查询语句在数据库中的执行结果。7.基于表格问答的自然答案生成方法,其特征在于:包括以下步骤:首先,将问答的输入部分,即问题文本与知识库中实体进行数据预处理,问题文本去模糊以及问题文本分词;
然后,将数据预处理之后的问题文本数据以及知识库实体进行独热编码后进入预训练模型进行训练,生成对应相关的词向量;其次,将特征向量输入结构化查询语句生成模块,通过SELECT子句生成与WHERE子句生成进行拼接,形成完整的SQL;结构化查询语句生成包含六个子任务,每个任务均是多分类模型;基于问题文本和知识库实体的语义表示判定标签类别的概率,概率最高的类别即是最终的输出结果;最后,依据自然答案生成要求,设计主



宾生成框架,将完整的SQL在数据库中执行获取结果作为宾语生成结果,通过拼接作为最终的自然答案。8.根据权利要求7所述的基于表格问答的自然答案生成方法,其特征在于:由数据预处理模块(1),处理问题文本的模糊实体以及对问题文本进行中文分词;由文本编码模块(2),对问题文本

知识库实体序列进行语义表示;由结构化查询语句生成模块(3),将词向量输入,通过SELECT子句生成模块与WHERE子句生成模块进行结构化查询语句生成;由自然答案生成模块(4),基于结构化查询语句生成自然答案,作为问答的最终结果。9.根据权利要求7或8所述的基于表格问答的自然答案生成方法,其特征在于:由数据预处理模块(1)的正则表达处理模块(101),对问题文本进行数据去模糊以及中文分词任务,通过正则表达式去除问题文本模糊数字实体;中文分词模块(102),将问题文本中的词语进行切分出,采用jieba分词工具,得到一串词汇序列;由文本编码模块(2),将问题文本以及知识库实体编码成可理解和处理的语义向量;结构化查询语句生成模块(3)的SELECT子句生成模块(301),根据输入的语义向量,生成SELECT子句中的列名、聚合函数,列名从知识库实体的语义表示获取,聚合函数包含{AVG、MIN、MAX、COUNT、SUM};结构化查询语句生成模块(3)的WHERE子句生成模块(302)根据输入的语义向量,生成WHERE子句的列名、操作符号、数值文本以及条件之间的关联符号,操作符号集合为{>、<、==、!=},关联符号包含{and、or};SELECT子句生成模块(301)与WHERE子句生成模块(302)采用槽位填充方法,通过槽位的填充实现结构化查询语句的生成;根据结构化查询语句特征,设置六个槽位,即SEL_COL任务、SEL_AGG任务、W_CONN任务、W_COL任务、W_OP任务、W_VAL任务;针对预训练模型生成语义表示,文本编码...

【专利技术属性】
技术研发人员:奚雪峰李智崔志明左严
申请(专利权)人:江苏新希望科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1