虚拟现实与增强现实场景下弱监督深度学习语义解析方法技术

技术编号:25599867 阅读:82 留言:0更新日期:2020-09-11 23:57
一种虚拟现实与增强现实场景下弱监督深度学习语义解析方法,包括如下步骤:步骤1:在已有训练数据集合中产生一个一部分数据具备强监督标注信息,另一部分数据只具备弱监督标注信息的数据集,用于接下来的训练;步骤2:采用“结合探索”策略方法,结合该预训练语言模型和人工写的语法规则约束指导神经网络的语义探索,让生成器能够探索生成可能命中目标逻辑语义表示语句;步骤3:用所述解释器解释并执行生成的逻辑语义表示语句,得到执行结果;再根据已有执行结果得到的弱标签,通过对比弱标签和执行结果,得到得分反馈;步骤4:将得分高于阈值的原语句‑生成语句的语句对存储在记忆缓存里,用强化学习方法对模型进行学习,提升模型策略的有效性。

【技术实现步骤摘要】
虚拟现实与增强现实场景下弱监督深度学习语义解析方法
本专利技术属于自然语言处理
,尤其是一种虚拟现实与增强现实场景下的用于自然语言语义解析的弱监督深度学习方法。
技术介绍
已有谷歌于2018年发表的《MemoryAugmentedPolicyOptimizationforProgramSynthesisandSemanticParsing》论文中发表了对SQL语句进行语义解析技术MAPO,该技术不适用于λ演算(LambdaCalculus)等逻辑语句的语义解析,而本专利技术则是为了解决在λ演算逻辑语义解析这个更大的搜索空间下的自然语言语义解析问题。
技术实现思路
本专利技术为了解决在自然语言转化为λ演算逻辑语句的问题,是用于解决自然语言处理中的语义解析问题的一种技术,适用于再标记样本较少的情况下利用off-policy探索来构建语义解析网络。本专利技术提出一种虚拟现实与增强现实场景下弱监督深度学习语义解析方法,包括如下步骤:步骤1:在已有训练数据集合中抽出1/5的数据作为具备有强监督标注信息的数据;然后,用适用于该环境下的解释器解释,该解释器将逻辑序列解释并评价逻辑序列的执行结果解释,将训练数据集合中的另外4/5数据执行强监督标注序列,将执行结果作为弱标签,得到另一部分的具备弱监督标注信息的数据,产生一个一部分数据具备强监督标注信息,另一部分数据只具备弱监督标注信息的数据集,用于接下来的训练;步骤2:将步骤1得到的那部分具备强监督标注信息的数据作为先验知识,用该先验知识构建预训练语言模型,采用“结合探索”策略方法,结合该预训练语言模型和人工写的语法规则约束指导神经网络的语义探索,让生成器能够探索生成可能命中目标逻辑语义表示语句;步骤3:用所述解释器解释并执行步骤2生成的逻辑语义表示语句,得到执行结果;再根据步骤1中已有执行结果得到的弱标签,通过对比弱标签和执行结果,得到一个正向或者负向的结果得分反馈;步骤4:根据步骤3得到的反馈得分,将得分高于阈值的原语句-生成语句的语句对存储在记忆缓存里,然后分别从该记忆缓存和步骤1的具备强监督标注信息的数据中采样,然后用采样到的数据用强化学习方法对模型进行学习,提升模型策略的有效性。进一步的,所述步骤2中,通过“结合探索”使得生成器探索生成符合目标逻辑语句形式的表达语句,为生成语句打分的方法。打分过程为:用解释器对生成的语句进行解析,并执行,得到一个执行结果,然后再通过对比该执行结果与步骤一得到的弱标签,若二者相似度大于阈值,就给语句打一个正向的得分,否则,则打一个负向的得分。进一步的,所述步骤4进行强化学习过程如下,其中强化学习方法的优化目标表示为:其中,θ为生成器模型中的参数,at表示探索过程中每轮生成语句的过程中第t步选择的单词token,d(a0…t-1)表示a0…t-1出现的概率,表示步骤三中该生成的语句的得分,若是一个生成语句的得分为正,,则且对于k<t都有强化学习过程采用梯度上升,Adam作为优化器来进行训练,πθ表示在a0…t-1已出现的情况下,下一个行动at的出现概率。有益效果与
技术介绍
中存在的问题相比较,本专利技术可以在λ演算(LambdaCalculus)解析这种具有更大搜索空间的问题运行。且本专利技术可以在训练数据不都具备有强监督标注信息但有一部训练数据具备强监督标注信息和另一部分数据具备弱监督标注信息的样本数据集上训练。本专利技术的方法的特殊之处在于得到的语义解析器是通过部分带有强监督标注信息的数据和部分带有弱监督标注信息的数据所组成的数据集合训练得来,而不是全部通过带前监督标注信息的数据训练而来。在实际应用,相对于强监督标注信息,弱监督标注信息的获取更为容易。附图说明图1:本专利技术总体流程图;图2:生成器模型示意图;图3:“结合探索”方法生成下一单词的过程示意图;图4:为生成语句打分的过程示意图;图5:带记忆缓存的分布采样下的强化学习过程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本专利技术的一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术的保护范围。语义解析(semanticparsing)是将自然语言转化为逻辑语言的自然语言处理任务。本专利技术解决在比较少的标注数据下,将自然语言转化为λ演算逻辑语句,该λ演算逻辑语句可被机器理解,然后做出相应反应。要实现较少标记数据下使自然语言转化为λ演算逻辑语句,首先需要有一个解释器作为解析环境,该解释器的作用是在逻辑语义若是转化正确(可执行且执行结果正确)的情况下给模型一个正向反馈,在逻辑语义若是转化错误(不可执行或是执行结果正确)的情况下给模型一个负向反馈。在已有解释器的情况下,采用off-policy搜索方法,搜索过程在有手写的语义规则约束下进行,为了使模型避免强化学习的冷开始问题,可以先用少量的已标注数据来构建预训练语言模型,在该预训练语言模型的基础上,再进行搜索。采用带有attention机制的encoder-decoder神经网络模型对搜索出的正确的自然语句-逻辑语句进行学习,最后得到解析力更强的自然语言-逻辑语言解析模型。本专利技术的虚拟现实与增强现实场景下弱监督深度学习语义解析方法总体流程图如图1所示。对于本方法实验,前提条件是有一个具备所有强监督标注信息的数据集合,但本专利技术的方法是要解决如果训练数据只有一部分有强监督标注信息,而另一部分只具备有弱监督标注信息,模型该如何训练的问题。步骤一,如图1的上半部分所示,本专利技术保留原有数据的1/5的数据,作为具备强监督标签的那一部分训练数据,而对于另外4/5的数据,则是通过一个由人工手写规则组成的解释器,执行这部分数据的强监督标注序列,得到执行结果,将该执行结果作为弱监督标注信息来适用。这是第一步,得到了一个具有一部分数据具备强监督标注信息,而另一部分数据只具备弱监督标注信息的一个用于实验的数据集。这是本专利技术用于得到实验数据采用的一种方法。部分数据集的语句,强标签,弱标签的样例如表1所示。表1自然语言语句,强标签和弱标签样例步骤二,在自然语言生成任务里,一般采用一个带有注意力机制的编码器-解释器模型(encoder-decoderwithattention)来作为目标语句的生成器,本专利技术也采用了相似结果的生成器,如图2所示,该生成器的编码器解码器都有长短期记忆单元(LSTM)构成,采用了注意力机制来分析输入序列各个词汇的重要性。而后,本专利技术采用的生成器,由于不具备大量的强监督信息来训练,所以该生成器需要探索出合适的可能命中目标逻辑形式的语句。于是,如图1的中间部分所示,本专利技术使用了步骤一产生的那一部分(少量)的带有强监督标注信息的数据,用这些数据训练出一个预训练语言模型(训练过程类似于一般的有监督学习过程)。然后,参考目标逻辑本文档来自技高网
...

【技术保护点】
1.一种虚拟现实与增强现实场景下弱监督深度学习语义解析方法,其特征在于,包括如下步骤:/n步骤1:在已有训练数据集合中抽出1/5的数据作为具备有强监督标注信息的数据;然后,用适用于该环境下的解释器解释,该解释器将逻辑序列解释并评价逻辑序列的执行结果解释,将训练数据集合中的另外4/5数据执行强监督标注序列,将执行结果作为弱标签,得到另一部分的具备弱监督标注信息的数据,产生一个一部分数据具备强监督标注信息,另一部分数据只具备弱监督标注信息的数据集,用于接下来的训练;/n步骤2:将步骤1得到的那部分具备强监督标注信息的数据作为先验知识,用该先验知识构建预训练语言模型,采用“结合探索”策略方法,结合该预训练语言模型和人工写的语法规则约束指导神经网络的语义探索,让生成器能够探索生成可能命中目标逻辑语义表示语句;/n步骤3:用所述解释器解释并执行步骤2生成的逻辑语义表示语句,得到执行结果;再根据步骤1中已有执行结果得到的弱标签,通过对比弱标签和执行结果,得到一个正向或者负向的结果得分反馈;/n步骤4:根据步骤3得到的反馈得分,将得分高于阈值的原语句-生成语句的语句对存储在记忆缓存里,然后分别从该记忆缓存和步骤1的具备强监督标注信息的数据中采样,然后用采样到的数据用强化学习方法对模型进行学习,提升模型策略的有效性。/n...

【技术特征摘要】
1.一种虚拟现实与增强现实场景下弱监督深度学习语义解析方法,其特征在于,包括如下步骤:
步骤1:在已有训练数据集合中抽出1/5的数据作为具备有强监督标注信息的数据;然后,用适用于该环境下的解释器解释,该解释器将逻辑序列解释并评价逻辑序列的执行结果解释,将训练数据集合中的另外4/5数据执行强监督标注序列,将执行结果作为弱标签,得到另一部分的具备弱监督标注信息的数据,产生一个一部分数据具备强监督标注信息,另一部分数据只具备弱监督标注信息的数据集,用于接下来的训练;
步骤2:将步骤1得到的那部分具备强监督标注信息的数据作为先验知识,用该先验知识构建预训练语言模型,采用“结合探索”策略方法,结合该预训练语言模型和人工写的语法规则约束指导神经网络的语义探索,让生成器能够探索生成可能命中目标逻辑语义表示语句;
步骤3:用所述解释器解释并执行步骤2生成的逻辑语义表示语句,得到执行结果;再根据步骤1中已有执行结果得到的弱标签,通过对比弱标签和执行结果,得到一个正向或者负向的结果得分反馈;
步骤4:根据步骤3得到的反馈得分,将得分高于阈值的原语句-生成语句的语句对存储在记忆缓存里,然后分别从该记忆缓存和步骤1的具备强监督标注信息的数据中...

【专利技术属性】
技术研发人员:谢德峰吉建民
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1