一种基于无监督方式对教学视频进行指代消解的方法技术

技术编号:15910744 阅读:29 留言:0更新日期:2017-08-01 22:28
本发明专利技术提出了一种基于无监督方式对教学视频进行指代消解的方法,其主要内容包括:视觉‑语言模型、联合模型的学习和推理,其过程为,利用视觉模型处理视频,语言模型处理转录和动作图表示编码所有指代相关的信息,并将指代消解的目标制定为图形优化任务,使用动作图作为潜在表示,将实体连接到动作输出,利用动作的所有历史信息实现无监督地指代消解。本发明专利技术突破了现有方法必需在训练时间内有足够的监督的局限,在教学视频中引入了无监督的指代消解方法,联合学习视觉和语言模型进行指代消解,从而更加鲁棒可以解决不同类型的歧义,推动自然语言处理在人工智能领域的进一步发展。

A method of anaphora resolution for teaching video based on unsupervised method

The present invention provides a method for unsupervised video teaching based on anaphora resolution methods, the main contents include: visual language model, the combined model of learning and reasoning. The process is the use of video processing, visual model, language model and graph encoding transcription action all refer to the relevant information, and that is formulated as a graph optimization task of coreference resolution target, using the motion graph as a potential that will connect to the entity operation output, using all the historical information realizing action of unsupervised coreference resolution. The invention breaks through the existing methods must have enough supervision limitations in the training time, the teaching video introduces coreference resolution unsupervised method, combined with visual learning and language model for coreference resolution, and thus more robust can solve the ambiguity of different types, pushing Natural Language Processing to further development in the field of artificial intelligence.

【技术实现步骤摘要】
一种基于无监督方式对教学视频进行指代消解的方法
本专利技术涉及指代消解领域,尤其是涉及了一种基于无监督方式对教学视频进行指代消解的方法。
技术介绍
指代消解是常用于自然语言接口、机器翻译、文本摘要和产品设计等领域,在信息抽取中起着重要作用。具体地,产品设计的过程中,用户的需求都是用自然语言形式来描绘,指代消解可以自然语言形式的信息即用户的需求转变为计算机所能理解的信息,从而实现智能化的产品设计过程,除此之外,在机器翻译领域,指代消解可以帮助分析句子的句法、语义代词含义等信息从而提高机器翻译的准确性。虽然指代消解在计算语言学领域日益重要,并成为自然语言处理上热门的研究问题,但是现有研究尚且仅针对纯语言,要解决视频中同时存在的视觉和语言歧义仍然是一个严峻的挑战。本专利技术提出了一种基于无监督方式对教学视频进行指代消解的方法,引入一个同时使用视觉和语言提示的无监督图形优化模型,解决视觉和语言的指代歧义。利用视觉模型处理视频,语言模型处理转录和动作图表示编码所有指代相关的信息,并将指代消解的目标制定为图形优化任务,使用动作图作为潜在表示,将实体连接到动作输出,利用动作的所有历史信息实现无监督地指代消解。本专利技术突破了现有方法必需在训练时间内有足够的监督的局限,在教学视频中引入了无监督的指代消解方法,联合学习视觉和语言模型进行指代消解,从而更加鲁棒可以解决不同类型的歧义,推动自然语言处理在在人工智能领域的进一步发展。
技术实现思路
针对现有方法均是在有足够监督下才可消解指代的局限,引入一个同时使用视觉和语言提示的无监督图形优化模型,在教学视频中引入了无监督的指代消解方法,联合学习视觉和语言模型进行指代消解,从而更加鲁棒可以解决不同类型的歧义。为解决上述问题,本专利技术提供一种基于无监督方式对教学视频进行指代消解的方法,其主要内容包括:(一)视觉-语言模型;(二)联合模型的学习和推理。其中,所述的视觉-语言模型,视觉-语言模型是一个无监督的指代消解模型,由一个处理视频的视觉模型,处理转录的语言模型,以及编码所有指代相关信息的动作图表示三个部分组成,利用动作图作为潜在表示,将实体链接到动作输出,联合学习教学视频中的视觉和语言线索进行图形优化,即找到节点(即动作和实体)之间一组最佳边缘(即指代),本质上,动作图是每个视频中的动作及其指代的潜在表示,并且通过具有其视觉(即帧)和语言(即指令)提示的视频进行观察,动作图包含所有历史信息(即随时间变化的指代)有助于解决复杂的歧义,用于学习给定两个观察值的动作图的似然函数,正式地,优化下面的似然函数:其中G,V和L分别是以时间为准线的动作图,视频和相应的语音转录集,θV和θL是视觉和语言模型的参数,假设观察在给定动作图的情况下是条件独立的,则可以进一步细分为:因此分别制定视觉和语言模型,同时二者仍然通过动作图连接。进一步地,所述的动作图,是包含所有与动作,实体及其指代相关的信息内部表示:动作描述(例如,添加,修饰,顶部)、动作时间戳和实体的指代,定义动作图G=(E,A,R)具有E={eij},一组实体节点eij,A={ai}一组动作节点ai,包括并将实体节点分组为动作,并且R={rij},一组对应于每个实体eij的标记rij的边缘,具体细节定义如下:ai=(predi,[eij],zi),其中predi表示谓词或动词,eij是ai的实体节点,其中表示其句法类型、表示其语义类型、Sij表示其字符串表示;另外,zi=(fs,fe)是ai的开始和结束时间,rij=o表示从实体eij到其起始动作节点ao的方向边缘或指代;为实体节点引入辅助动作节点a0而不是指向另一个动作的结果,另外,模型允许实体节点具有空字符串表示Sij=[φ],当实体隐含在转录中时,可能会发生这种情况,总之,动作图是一个潜在结构,通过P(L|G;θL)和视频P(V|G;θV)约束视觉和语言输出,并且还包含所有指代信息以消解歧义,重新定义指代消解的目标为优化等式(2)给出的具有最高似然性的动作图。进一步地,所述的视觉模型,视觉模型P(V|G;θV)是将动作图连接到视觉线索(即视频帧)的模,视觉模型是用来帮助解决语言学的歧义的,动作图则是用来约束视觉输出,换句话说,视觉模型计算给定一组视频帧的动作图的似然性,其中θV是模型的参数,对于视频V=[x1,…,xT],其中xt是时间t的图像帧,其对应动作图G,将P(V|G;θV)逐帧分解为:其中Hi=(a1:i,r1:i)是动作i之前的子图,是帧t的动作标签,这意味如果帧t是动作i,表示此帧是背景,视觉模型的关键创新是框架xt和相应的子图的联合定义,在视觉模型中使用而不是一个有助于指代消解,为了计算采用类似的方法到视觉语义嵌入中,学习视频帧和动作(子)图的联合嵌入空间,换句话说,我们学习θV可以最小化动作图特征与视觉帧特征之间的余弦距离。进一步地,所述的联合嵌入,包括动作图嵌入和帧嵌入,其中动作图嵌入是为了捕捉基于指代的动作的不同含义,提出了基于RNN句子嵌入的动作图嵌入的递归定义,令g(·)表示RNN嵌入的函数,应用于一个向量列表并输出最终隐藏状态h,嵌入f(·)的动作图被递归地定义为:其中W是标准字嵌入函数,rij表示eij的起源,与标准语句嵌入相比,eij的嵌入通常仅用W(eij)表示,通过与结合,使用其动作的嵌入来增强它,使得动作图嵌入可用于捕获图形的结构,并根据它的指代表示实体的不同含义;另外,帧嵌入是使用图像字幕模型中的帧嵌入功能,通过将卷积层的响应转换成一个矢量,显示出捕获图像的细粒度细节。进一步地,所述的语言模型,语言模型P(L|G;θL)将动作图链接到语言观察,本质上,语言模型计算给出教学视频转录的动作图的似然性,分解语言模型如下:P(L|G;θL)=P(L,ZL|A,R,Z;θL)∝P(L|A;θL)P(A|R;θL)P(ZL|Z;θL)(5)其中ZL是L的时间戳,A,R,Z分别是动作图G的动作,指代和时间戳,假设时间戳是条件独立的,且R独立于给定A的L,P(L|A)从转录中解析动作节点,P(A|R)衡量给定动作的指代的似然性,使用的关键模型是:-动词签名模型用于捕获动词的属性;-部分-复合模型用于表示实体的可能成分;-食材模型用于确定一个实体是否是一个动作的结果;为每个动作i独立地测量P(Z_L|Z),其中P(zLi|zi)被定义如上。其中,所述的联合模型的学习和推理,模型用于指代消解的目标是优化基于等式(2)的给定视频和转录的具有最大似然性的动作图,而动作图G和模型参数θL,θV都是未知的,则给定当前的模型参数θL和θV,估计以时间为准线的图G,固定当前图G,更新视觉和语言模型,优化包括初始化,推理和学习过程。进一步地,所述的图形初始化,最初动作图G和模型参数θL,θV都是未知的,故基于文本转录初始化动作图G,提取一系列动作A,为简化任务将所有行动都考虑为是基于转录的,每个动作的指代r在其下一个动作中被初始化为其中一个实体,由于教学视频的是顺序的,故连续地进行初始化,简单地将每个动作的时间位置z初始化为转录中动作的时间戳。进一步地,所述的动作图优化,目的是找到给定的模型参数θL和θV的最佳动作图G集合,相当于为每个G中的动作找到最佳指代集合R和时间基础Z,本文档来自技高网...
一种基于无监督方式对教学视频进行指代消解的方法

【技术保护点】
一种基于无监督方式对教学视频进行指代消解的方法,其特征在于,主要包括视觉‑语言模型(一);联合模型的学习和推理(二)。

【技术特征摘要】
1.一种基于无监督方式对教学视频进行指代消解的方法,其特征在于,主要包括视觉-语言模型(一);联合模型的学习和推理(二)。2.基于权利要求书1所述的视觉-语言模型(一),其特征在于,视觉-语言模型是一个无监督的指代消解模型,由一个处理视频的视觉模型,处理转录的语言模型,以及编码所有指代相关信息的动作图表示三个部分组成,利用动作图作为潜在表示,将实体链接到动作输出,联合学习教学视频中的视觉和语言线索进行图形优化,即找到节点(即动作和实体)之间一组最佳边缘(即指代),本质上,动作图是每个视频中的动作及其指代的潜在表示,并且通过具有其视觉(即帧)和语言(即指令)提示的视频进行观察,动作图包含所有历史信息(即随时间变化的指代)有助于解决复杂的歧义,用于学习给定两个观察值的动作图的似然函数,正式地,优化下面的似然函数:其中G,V和L分别是以时间为准线的动作图,视频和相应的语音转录集,θV和θL是视觉和语言模型的参数,假设观察在给定动作图的情况下是条件独立的,则可以进一步细分为:因此分别制定视觉和语言模型,同时二者仍然通过动作图连接。3.基于权利要求书2所述的动作图,其特征在于,动作图是包含所有与动作,实体及其指代相关的信息内部表示:动作描述(例如,添加,修饰,顶部)、动作时间戳和实体的指代,定义动作图G=(E,A,R)具有E={eij},一组实体节点eij,A={ai}一组动作节点ai,包括并将实体节点分组为动作,并且R={rij},一组对应于每个实体eij的标记rij的边缘,具体细节定义如下:ai=(predi,[eij],zi),其中predi表示谓词或动词,eij是ai的实体节点,其中表示其句法类型、表示其语义类型、Sij表示其字符串表示;另外,zi=(fs,fe)是ai的开始和结束时间,rij=o表示从实体eij到其起始动作节点ao的方向边缘或指代;为实体节点引入辅助动作节点a0而不是指向另一个动作的结果,另外,模型允许实体节点具有空字符串表示Sij=[φ],当实体隐含在转录中时,可能会发生这种情况,总之,动作图是一个潜在结构,通过P(L|G;θL)和视频P(V|G;θV)约束视觉和语言输出,并且还包含所有指代信息以消解歧义,重新定义指代消解的目标为优化等式(2)给出的具有最高似然性的动作图。4.基于权利要求书2所述的视觉模型,其特征在于,视觉模型P(V|G;θV)是将动作图连接到视觉线索(即视频帧)的模,视觉模型是用来帮助解决语言学的歧义的,动作图则是用来约束视觉输出,换句话说,视觉模型计算给定一组视频帧的动作图的似然性,其中θV是模型的参数,对于视频V=[x1,…,xT],其中xt是时间t的图像帧,其对应动作图G,将P(V|G;θV)逐帧分解为:其中Hi=(a1:i,r1:i)是动作i之前的子图,是帧t的动作标签,这意味如果帧t是动作i,表示此帧是背景,视觉模型的关键创新是框架xt和相应的子图的联合定义,在视觉模型中使用而不是一个有助于指代消解,为了计算采用类似的方法到视觉语义嵌入中,学习视频帧和动作(子)图的联合嵌入空间,换句话说,我们学习θV可以最小化动作图特征与视觉帧特征之间的余弦距离。5.基于权利要求书4所述的联合嵌入,其特征在于,包括动作图嵌入和帧嵌入,其中动作图嵌入是为了捕捉基于指代的动作的不同含义,提出了基于RNN句子嵌入的动作图嵌入的递归定义,令g(·)表示RNN嵌入的函数,应用于...

【专利技术属性】
技术研发人员:夏春秋
申请(专利权)人:深圳市唯特视科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1