一种基于图表征融合的问句生成方法及装置制造方法及图纸

技术编号:27657185 阅读:13 留言:0更新日期:2021-03-12 14:20
本发明专利技术公开了一种基于图表征融合的问句生成方法及装置,不需要人工制定规则,能够端到端生成问句;突破了传统seq2seq只能序列化处理文本而忽略了文本结构信息的局限,通过在文本编码中引入依存句法信息来模仿人类的推理过程,利用文本结构信息来优化生成问句的质量;给定一段文本和答案,在不依赖人工制定规则模板的条件下,能够端到端生成问句,并且能考虑文本的依存句法等信息,使得生成的问句接近人工提问的质量。

【技术实现步骤摘要】
一种基于图表征融合的问句生成方法及装置
本专利技术涉及文本生成
,尤其涉及一种基于图表征融合的问句生成方法及装置。
技术介绍
作为自然语言处理的子任务,问句生成的一个关键应用是为教育领域生成用于阅读理解材料的问题。问句生成模块也可以部署为聊天机器人的组件,使得在多轮对话中聊天机器人能够提出一些问题,提升用户的交互体验。不仅如此,问句生成也能够帮助机器阅读理解任务获取丰富的问答对,辅助机器阅读理解模型的训练,从而开启机器理解人类语言的大门。早期研究中,问句生成的常规方法是基于规则的方法,其通常步骤可以归纳为:1.文本预处理,包括句法解析,句子简化,语义角色标注;2.根据规则或者语义角色标注方法,识别需要被提问的目标;3.使用规则或模板匹配等方式生成多个问题;4.基于设计好的特征对生成问题进行排序。基于规则的方法,存在的明显缺点包括,需要人为制定规则和模板,制定规则的成本较高,制定的规则只能针对特定领域、扩展性较差,可处理的问题类型有限等。近年来研究者们不断尝试用神经网络做问句生成。受到机器翻译任务的启发,神经网络的问句生成通常被定义为序列到序列(Sequence-to-Sequence,seq2seq)的学习问题,一种通常的做法是用两个循环神经网络(RecurrentNeuralNetwork,RNN)分别作为编码器和解码器,编码器对输入的文本序列逐一编码,解码器结合注意力机制(AttentionMechanism),输出一段问句序列。基于神经网络的方法,可以端到端进行训练,不需要人工制定规则,同时通过数据驱动,只要有足够的数据,不同领域的内容也可以方便地复用模型。但是,神经网络方法由于普遍采用RNN做序列化编码,与人类理解文本的推理过程不一致,而且忽略了文本的语法结构等信息,所以生成问句的质量仍然有待提升。综上所述,现有的方法存在的问题有:1、基于规则的方法需要人工制定规则,成本较高、规则的扩展性较差、可处理的问题类型有限;2、基于传统的神经网络seq2seq的方法仅利用词向量等特征,忽略了文本的语法结构等信息;3、单纯的seq2seq对文本进行序列化的建模,与人类理解文本的推理过程不一致,导致生成的问题变得生硬。
技术实现思路
本专利技术的目的在于提供一种基于图表征的问句生成方法及装置,用于解决现有的基于规则的方法存在规则制定成本较高、规则的扩展性较差、可处理的问题类型有限等问题,以及基于神经网络seq2seq的方法忽略了文本的语法结构、与人类理解文本的推理过程不一致导致生成的问句质量受影响等问题。本专利技术通过以下技术方案来实现上述目的:一种基于图表征融合的问句生成方法,包括以下步骤:A、初始化文本、答案的语义编码序列;B、通过对文本的句法分析,获取文本每个句子的依存句法树,构建整个文本的依存句法图;C、将文本信息和答案信息进行交互,为文本编码引入答案信息,得到文本的交互编码;D、基于文本的依存句法图,结合文本的交互编码,构建文本的依存句法图在两个方向的图表征;E、将文本在依存句法图两个方向的图表征进行融合,得到最终的图表征;F、根据文本的依存句法图表征,利用问句生成模块生成问句序列。进一步方案为,所述步骤A中初始化语义编码序列的方法包括:采用词向量随机初始化的表示方法,或基于深度学习的语言模型训练得到的向量表示方法。进一步方案为,所述步骤B中获取文本每个句子的依存句法树的方法包括:对句子进行依存句法分析。进一步方案为,所述步骤B中构建整个文本的依存句法图的方法包括:多棵依存句法树合并为依存句法图。进一步方案为,所述步骤C中将文本信息和答案信息进行交互的方法包括:对步骤A中得到的文本词向量和答案词向量进行深度对齐。进一步方案为,所述步骤D中构建文本基于依存句法图的两个方向图表征的方法包括:利用自回归模型迭代计算图表征。进一步方案为,所述步骤E中将文本在依存句法图两个方向的图表征进行融合的方法包括:多个单词的图表征融合为一个句子图表征、两个方向的图表征融合。进一步方案为,所述步骤F中所述问句生成模块的方法包括:基于循环神经网络的解码模块,文本表征和解码模块输出之间的注意力交互。进一步方案为,还包括将词向量输入所述问句生成模块进行训练的方法,包括:所述问句生成模块损失函数的设定、迭代更新,所述问句生成模块参数的方法的设定,对所述问句生成模块中各层参数的初始化,各个网络层之间的连接以及对齐。本专利技术另一方面还提供了一种基于图表征的问句生成装置,包括:语义编码初始化模块,用于对输入的文本和答案进行分词,然后将单词转化为对应的词向量;句法分析模块,用于对文本进行依存句法分析,生成对应的依存句法图;文本与答案交互模块,用于将答案信息与文本信息进行交互,得到包含答案信息的文本向量;基于依存句法的图表征构建模块,用于构建文本的基于依存句法关系的图表征;图表征信息融合模块,用于对整个文本在两个方向的图表征进行融合,同时对文本所有单词的图表征进行融合;问句生成模块,用于在得到文本的图表征之后对其进行解码并生成质量最优的问句。本专利技术的有益效果在于:本专利技术的一种基于图表征融合的问句生成方法,不需要人工制定规则,能够端到端生成问句;突破了传统seq2seq只能序列化处理文本而忽略了文本结构信息的局限,通过在文本编码中引入依存句法信息来模仿人类的推理过程,利用文本结构信息来优化生成问句的质量。本专利技术的一种基于图表征融合的问句生成装置,给定一段文本和答案,在不依赖人工制定规则模板的条件下,能够端到端生成问句,并且能考虑文本的依存句法等信息,使得生成的问句接近人工提问的质量。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要实用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术中的基于图表征的问句生成方法流程图;图2为本专利技术中的一棵依存句法树的示例图;图3为本专利技术中的多棵依存句法树合并为依存句法图的示例图;图4为本专利技术中的基于图表征的问句生成装置结构框图;具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将对本专利技术的技术方案进行详细的描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本专利技术所保护的范围。实施例一:图1示出了本专利技术一种基于图表征的问句生成方法的流程图,包括以下步骤:A、初始化文本、答案的语义编码序列。初始化语义编码序列的方法,包括:词向量随机初始化的表示方法,词向量在模型训练过程中根据模型参数的迭代更新而更新。初始化语本文档来自技高网
...

【技术保护点】
1.一种基于图表征融合的问句生成方法,其特征在于,包括以下步骤:/nA、初始化文本、答案的语义编码序列;/nB、通过对文本的句法分析,获取文本每个句子的依存句法树,构建整个文本的依存句法图;/nC、将文本信息和答案信息进行交互,为文本编码引入答案信息,得到文本的交互编码;/nD、基于文本的依存句法图,结合文本的交互编码,构建文本的依存句法图在两个方向的图表征;/nE、将文本在依存句法图两个方向的图表征进行融合,得到最终的图表征;/nF、根据文本的依存句法图表征,利用问句生成模块生成问句序列。/n

【技术特征摘要】
1.一种基于图表征融合的问句生成方法,其特征在于,包括以下步骤:
A、初始化文本、答案的语义编码序列;
B、通过对文本的句法分析,获取文本每个句子的依存句法树,构建整个文本的依存句法图;
C、将文本信息和答案信息进行交互,为文本编码引入答案信息,得到文本的交互编码;
D、基于文本的依存句法图,结合文本的交互编码,构建文本的依存句法图在两个方向的图表征;
E、将文本在依存句法图两个方向的图表征进行融合,得到最终的图表征;
F、根据文本的依存句法图表征,利用问句生成模块生成问句序列。


2.如权利要求1所述的一种基于图表征融合的问句生成方法,其特征在于,所述步骤A中初始化语义编码序列的方法包括:采用词向量随机初始化的表示方法,或基于深度学习的语言模型训练得到的向量表示方法。


3.如权利要求1所述的一种基于图表征融合的问句生成方法,其特征在于,所述步骤B中获取文本每个句子的依存句法树的方法包括:对句子进行依存句法分析。


4.如权利要求1所述的一种基于图表征融合的问句生成方法,其特征在于,所述步骤B中构建整个文本的依存句法图的方法包括:多棵依存句法树合并为依存句法图。


5.如权利要求1所述的一种基于图表征融合的问句生成方法,其特征在于,所述步骤C中将文本信息和答案信息进行交互的方法包括:对步骤A中得到的文本词向量和答案词向量进行深度对齐。


6.如权利要求1所述的一种基于图表征融合的问句生成方法,其特征在于,所述步骤D中构建文...

【专利技术属性】
技术研发人员:方凡周兴发饶璐谭斌杨兰孙锐展华益
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1