The present invention provides a method for unsupervised video teaching based on anaphora resolution methods, the main contents include: visual language model, the combined model of learning and reasoning. The process is the use of video processing, visual model, language model and graph encoding transcription action all refer to the relevant information, and that is formulated as a graph optimization task of coreference resolution target, using the motion graph as a potential that will connect to the entity operation output, using all the historical information realizing action of unsupervised coreference resolution. The invention breaks through the existing methods must have enough supervision limitations in the training time, the teaching video introduces coreference resolution unsupervised method, combined with visual learning and language model for coreference resolution, and thus more robust can solve the ambiguity of different types, pushing Natural Language Processing to further development in the field of artificial intelligence.
【技术实现步骤摘要】
一种基于无监督方式对教学视频进行指代消解的方法
本专利技术涉及指代消解领域,尤其是涉及了一种基于无监督方式对教学视频进行指代消解的方法。
技术介绍
指代消解是常用于自然语言接口、机器翻译、文本摘要和产品设计等领域,在信息抽取中起着重要作用。具体地,产品设计的过程中,用户的需求都是用自然语言形式来描绘,指代消解可以自然语言形式的信息即用户的需求转变为计算机所能理解的信息,从而实现智能化的产品设计过程,除此之外,在机器翻译领域,指代消解可以帮助分析句子的句法、语义代词含义等信息从而提高机器翻译的准确性。虽然指代消解在计算语言学领域日益重要,并成为自然语言处理上热门的研究问题,但是现有研究尚且仅针对纯语言,要解决视频中同时存在的视觉和语言歧义仍然是一个严峻的挑战。本专利技术提出了一种基于无监督方式对教学视频进行指代消解的方法,引入一个同时使用视觉和语言提示的无监督图形优化模型,解决视觉和语言的指代歧义。利用视觉模型处理视频,语言模型处理转录和动作图表示编码所有指代相关的信息,并将指代消解的目标制定为图形优化任务,使用动作图作为潜在表示,将实体连接到动作输出,利用动作的所有历史信息实现无监督地指代消解。本专利技术突破了现有方法必需在训练时间内有足够的监督的局限,在教学视频中引入了无监督的指代消解方法,联合学习视觉和语言模型进行指代消解,从而更加鲁棒可以解决不同类型的歧义,推动自然语言处理在在人工智能领域的进一步发展。
技术实现思路
针对现有方法均是在有足够监督下才可消解指代的局限,引入一个同时使用视觉和语言提示的无监督图形优化模型,在教学视频中引入了无监督的指代消解方 ...
【技术保护点】
一种基于无监督方式对教学视频进行指代消解的方法,其特征在于,主要包括视觉‑语言模型(一);联合模型的学习和推理(二)。
【技术特征摘要】
1.一种基于无监督方式对教学视频进行指代消解的方法,其特征在于,主要包括视觉-语言模型(一);联合模型的学习和推理(二)。2.基于权利要求书1所述的视觉-语言模型(一),其特征在于,视觉-语言模型是一个无监督的指代消解模型,由一个处理视频的视觉模型,处理转录的语言模型,以及编码所有指代相关信息的动作图表示三个部分组成,利用动作图作为潜在表示,将实体链接到动作输出,联合学习教学视频中的视觉和语言线索进行图形优化,即找到节点(即动作和实体)之间一组最佳边缘(即指代),本质上,动作图是每个视频中的动作及其指代的潜在表示,并且通过具有其视觉(即帧)和语言(即指令)提示的视频进行观察,动作图包含所有历史信息(即随时间变化的指代)有助于解决复杂的歧义,用于学习给定两个观察值的动作图的似然函数,正式地,优化下面的似然函数:其中G,V和L分别是以时间为准线的动作图,视频和相应的语音转录集,θV和θL是视觉和语言模型的参数,假设观察在给定动作图的情况下是条件独立的,则可以进一步细分为:因此分别制定视觉和语言模型,同时二者仍然通过动作图连接。3.基于权利要求书2所述的动作图,其特征在于,动作图是包含所有与动作,实体及其指代相关的信息内部表示:动作描述(例如,添加,修饰,顶部)、动作时间戳和实体的指代,定义动作图G=(E,A,R)具有E={eij},一组实体节点eij,A={ai}一组动作节点ai,包括并将实体节点分组为动作,并且R={rij},一组对应于每个实体eij的标记rij的边缘,具体细节定义如下:ai=(predi,[eij],zi),其中predi表示谓词或动词,eij是ai的实体节点,其中表示其句法类型、表示其语义类型、Sij表示其字符串表示;另外,zi=(fs,fe)是ai的开始和结束时间,rij=o表示从实体eij到其起始动作节点ao的方向边缘或指代;为实体节点引入辅助动作节点a0而不是指向另一个动作的结果,另外,模型允许实体节点具有空字符串表示Sij=[φ],当实体隐含在转录中时,可能会发生这种情况,总之,动作图是一个潜在结构,通过P(L|G;θL)和视频P(V|G;θV)约束视觉和语言输出,并且还包含所有指代信息以消解歧义,重新定义指代消解的目标为优化等式(2)给出的具有最高似然性的动作图。4.基于权利要求书2所述的视觉模型,其特征在于,视觉模型P(V|G;θV)是将动作图连接到视觉线索(即视频帧)的模,视觉模型是用来帮助解决语言学的歧义的,动作图则是用来约束视觉输出,换句话说,视觉模型计算给定一组视频帧的动作图的似然性,其中θV是模型的参数,对于视频V=[x1,…,xT],其中xt是时间t的图像帧,其对应动作图G,将P(V|G;θV)逐帧分解为:其中Hi=(a1:i,r1:i)是动作i之前的子图,是帧t的动作标签,这意味如果帧t是动作i,表示此帧是背景,视觉模型的关键创新是框架xt和相应的子图的联合定义,在视觉模型中使用而不是一个有助于指代消解,为了计算采用类似的方法到视觉语义嵌入中,学习视频帧和动作(子)图的联合嵌入空间,换句话说,我们学习θV可以最小化动作图特征与视觉帧特征之间的余弦距离。5.基于权利要求书4所述的联合嵌入,其特征在于,包括动作图嵌入和帧嵌入,其中动作图嵌入是为了捕捉基于指代的动作的不同含义,提出了基于RNN句子嵌入的动作图嵌入的递归定义,令g(·)表示RNN嵌入的函数,应用于...
【专利技术属性】
技术研发人员:夏春秋,
申请(专利权)人:深圳市唯特视科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。