本发明专利技术涉及一种用于丰富由时间线和由按时间顺序排列的文本描述定义的多媒体内容的方法,其特征在于它包括以下步骤:使用自然语言处理来至少在从网络(N)取得的文本文档(Pi)的部分中识别(E3)至少一个特征(F1、F2),自动将所述文本文档的确定部分对齐(E4)到语义对应于所述文本文档的确定部分的按时间顺序排列的文本描述的至少一部分,使得至少将文本文档的该部分自动地与所述多媒体内容的时间线同步,按时间顺序排列的文本描述本身与时间线同步。
【技术实现步骤摘要】
丰富时间线和时间顺序文本描述定义的内容的方法和设备
本专利技术总地涉及将元数据关联到多媒体内容,并且具体地涉及一种用于利用例如网络用户在社交网络或诸如网络论坛的其它用户生成的内容库上张贴的评论来丰富由时间线和由按时间顺序排列的文本描述定义的多媒体内容的方法和设备。
技术介绍
本节旨在向读者介绍本领域的各个方面,这可能与下面所描述的和/或要求保护的本专利技术的各个方面相关。相信这种讨论在给读者提供背景信息以便于更好地理解本专利技术的各个方中是有帮助的。因此,应当理解,要从这个角度阅读这些陈述,而不是作为对现有技术的承认。随着诸如TWITTER和YOUTUBE、以及其它网络论坛的社交网络和平台的发展,近些年对于由非专业作家(如电视用户)写作的关于多媒体内容(例如电影)的评论的文本分析已经取得了强烈的兴趣。特别是,一些研究集中于用户评论与视频内容、特别是与所述视频内容的时间线的同步。因而已知通过使用在实时事件期间通过社交网络生成的文本微张贴(如由于TWITTER平台的留言(tweet))来增强视听内容,通过使用微张贴的时间戳来直接完成同止/J/ O此外,也已知允许用户观看视频内容,并同时张贴自动和自然地与视频内的时间相关联的评论的系统。在这两种情况下,(如果已实现)评论与视听内容的时间线的同步是简单的,因为由于时间戳,评论已经具有时间码。换句话说,这些现有技术允许将评论与多媒体内容的时间线同步,仅仅因为每个评论与时间信息(例如,文本微张贴在其对应的社交网络上被发送的时间)相关联,所述多媒体内容被同时播放。然而,这些现有技术的缺点依赖于它们要求在播放多媒体内容期间写入评论,以便使每个评论的发出时间与多媒体内容的特定时间点相匹配的事实。此外,因为需要时间来写评论,其内容可能涉及多媒体内容的先前场景,而不是涉及所述评论最终与之相关联的场景。换句话说,同步表现为不准确的。本专利技术试图补救前面提到的缺点的至少一些,并且特别是不使用任何时间码地将文本元数据与在特定时间点的多媒体内容在其对应的时间线中对齐。
技术实现思路
本专利技术涉及一种用于丰富由时间线和由按时间顺序排列的文本描述定义的多媒体内容的方法。为此,该方法包括以下步骤:-使用自然语言处理来至少在文本文档的部分中识别至少一个特征,-自动将所述文本文档的确定部分对齐到语义对应于所述文本文档的确定部分的按时间顺序排列的文本描述的至少一部分,使得至少将文本文档的该部分自动地与所述多媒体内容的时间线同步。在本说明书中,应理解:-文本文档表示由专业或非专业用户一尤其是,但不排他地,网络和/或电视用户一所写的任何类型的文本,诸如测评、评论、博客或论坛帖子、百科全书的文章、新闻文章等。显然,文本文档可以由字母数字字符组成,-作者是写出这样的文本文档的人(例如网络用户、电视用户等),-多媒体内容可能对应于视听文档(例如电影、体育赛事、无线电节目等),-按时间顺序排列的文本描述对应于按时间顺序描述多媒体内容的任何类型的文本文档。作为非限制性示例,这种按时间顺序排列的文本描述可以是电影脚本、足球比赛概述、电影字幕、电影音频描述脚本等,-特征是在文本文档中提到、描述或评价的多媒体内容的特定元素,诸如具体的场景、事件或动作,电影的特定方面(命名实体、演员、导演、灯光等),或者具体场景中的特定方面。此外,在下面的说明书中,假定多媒体内容和它的按时间顺序排列的文本描述已经由于已知技术对齐在一起,使得按时间顺序排列的文本描述直接和已经与所述多媒体内容的时间线同步。在一个变型中,这样的对齐可能在实施本专利技术之后进行。因此,由于本专利技术,可以在文本文档和多媒体内容的按时间顺序排列的文本描述之间进行文本到文本的对齐,而无需使用时间码或时间信息。这种方法可能至少使文本文档的一段与多媒体内容的按时间顺序排列的文本描述的一个或几个对应部分对齐,以便在按时间顺序排列的文本描述内关联其所涉及的时间线的一个或几个时间点或时间间隔。本专利技术的方法不打算将文本文档、或其部分,与所述多媒体内容直接匹配,而只是通过对应的按时间顺序排列的文本描述。此外,应理解,单一文本文档中提到的特征可以涉及按时间顺序排列的文本描述中的几个不同的时间点或时间间隔。此外,自然语言处理是计算机科学、人工智能和与计算机和人类(自然)语言之间的交互有关的语言学的领域。因此,NLP与人机交互的领域有关。在本专利技术的一个方面,可以从一组文本文档识别所述文本文档,作为涉及多媒体内容。此外,可以从因特网网络取得所述一组文本文档。在本专利技术的另一个方面,在所述对齐步骤期间,可以有利地实施首语重复分辨(anaphora resolution)技术以执行所述文本文档的确定部分和按时间顺序排列的文本描述之间的语义对应。此外,可以在多个文本文档上应用识别步骤和对齐步骤以自动地使所述文本文档与多媒体内容的时间线同步。根据本专利技术的优选实施例,属于下列特征分组的特征至少包括:-字词的组合;-语义实体;-字词列表;-事件。优选地,自然语言处理对应于实体识别处理或基于特征的观点分析。在本专利技术的实现示例中,多媒体内容是视听内容并且文本文档是由网络用户写的评论(所谓的帖子)。在本专利技术的另一个方面,所述多媒体内容被分段成其中时间线的对应时间间隔与之相关联的多个场景,作为其与相关联的按时间顺序排列的文本描述同步的结果,文本文档可以被同步到它所涉及的场景的时间间隔。此外,本专利技术还涉及一种用于丰富由时间线和由按时间顺序排列的文本描述定义的多媒体内容的系统。根据本专利技术,该系统包括:-被配置为至少在文本文档的部分中识别至少一个特征的自然语言处理模块,-用于自动将所述文本文档的确定部分对齐到语义对应于所述文本文档的确定部分的按时间顺序排列的文本描述的至少一部分的对齐模块,使得至少将文本文档的该部分自动地与所述多媒体内容的时间线同步。与所公开的实施例在范围上相当的某些方面阐述如下。应理解,提出这些方面仅用于向读者提供本专利技术可以采取的某些形式的简要概述,并且这些方面并不意在限制本专利技术的范围。事实上,本专利技术可包括下面没有阐明的各种方面。【附图说明】借助于以下实施例和执行示例,不以任何方式限制地参照附图将更好地理解和说明本专利技术,附图中:-图1是根据本专利技术的优选实施例的用于丰富多媒体内容的系统的框图;-图2是根据该优选实施例的示出由用于丰富多媒体内容的方法实施的步骤的流程图;-图3是根据该优选实施例的描绘了用于丰富电影的步骤的全局图;-图4表示来自电影专用网站的由第一用户答复先前的第二用户的帖子而写的帖子的屏幕截图。在可能的地方,相同的附图标记将被用于整个附图来指代相同或相似的部件。【具体实施方式】根据优选实施例的示例,关于其中时间线和脚本相关联的电影来描绘本专利技术。应注意,脚本是电影的按时间顺序排列的文本描述的特定示例。显然,本专利技术不限于这些示例,并且可以被应用到由时间线和由至少一个按时间顺序排列的文本描述(诸如脚本)定义的任何多媒体内容。根据该示例,图1描绘了用于利用文本文档(例如由专业和/或非专业网络/电视用户所写的帖子)来丰富电影的系统S。该电影由一连串的按时间顺序排列的场景组成。具体地,该系统S直接地或通过网关(未在图1中表示)连接到网络N (例如因特网网络)。显然地,在一个变型中,所述系统S本文档来自技高网...
【技术保护点】
一种用于丰富包括时间线和按时间顺序排列的文本描述的多媒体内容的方法,其特征在于它包括以下步骤:‑使用自然语言处理来至少在从网络(N)取得的文本文档(Pi)的部分中识别(E3)至少一个特征(F1、F2),‑自动将所述文本文档(Pi)的确定部分对齐(E4)到语义对应于所述文本文档(Pi)的确定部分的按时间顺序排列的文本描述的至少一部分,使得至少将文本文档(Pi)的该部分自动地与所述多媒体内容的时间线同步。
【技术特征摘要】
2013.02.11 EP 13305163.11.一种用于丰富包括时间线和按时间顺序排列的文本描述的多媒体内容的方法,其特征在于它包括以下步骤: -使用自然语言处理来至少在从网络(N)取得的文本文档(Pi)的部分中识别(E3)至少一个特征(F1、F2), -自动将所述文本文档(Pi)的确定部分对齐(E4)到语义对应于所述文本文档(Pi)的确定部分的按时间顺序排列的文本描述的至少一部分, 使得至少将文本文档(Pi)的该部分自动地与所述多媒体内容的时间线同步。2.根据权利要求1所述的方法,其中,从一组文本文档(Pi)识别(El)所述文本文档(Pi ),作为涉及所述多媒体内容。3.根据权利要求2所述的方法,其中,从因特网网络(N)取得(E2)所述一组文本文档。4.根据前述权利要求中的一项所述的方法,其中,在所述对齐(E4)步骤期间,实施首语重复分辨技术以执行所述文本文档(Pi)的确定部分和按时间顺序排列的文本描述之间的语义对应。5.根据前述权利要求中的一项所述的方法,其中,在多个文本文档(Pi)上应用识别(E3)步骤和对齐(E4)步骤以自动地使所述...
【专利技术属性】
技术研发人员:M格甘,J拉纳甘,P施莫克,A兰伯特,
申请(专利权)人:汤姆逊许可公司,
类型:发明
国别省市:法国;FR
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。