当前位置: 首页 > 专利查询>奥德伯公司专利>正文

对应媒体内容部分的对齐制造技术

技术编号:11520200 阅读:84 留言:0更新日期:2015-05-29 11:36
本发明专利技术公开了一种内容对齐服务,其可以产生内容同步信息以促进音频内容和文本内容的同步呈现。在一些实施方案中,与所述音频内容的对应不确定的所述文本内容的区域可以被分析来确定文本内容的所述区域是否对应于所述音频内容中以声音呈现的一个或多个单词,或所述文本内容的所述区域是否对所述音频内容是错误匹配。在一些实施方案中,所述对应于所述音频内容中的单词的文本内容中的单词被同步呈现,而所述文本内容中的错误匹配单词可以被跳过来维持同步呈现。因此,在一个示例性应用程序中,有声书与电子书同步,使得随着所述电子书被显示,可以声音呈现所述有声书的对应单词。

【技术实现步骤摘要】
【国外来华专利技术】对应媒体内容部分的对齐
大体来讲,用户计算装置可以促进内容项(诸如有声书、电子书、歌曲、视频、电视节目、计算机和视频游戏、多媒体内容等等)的播放或显示。例如,电子书阅读器计算装置(“e-reader”)可以在屏幕上显示电子书和/或通过扬声器或耳机播放有声书。在一些实例中,用户可能对同时消费多个内容项感兴趣。例如,用户可能希望阅读电子书,同时收听相同标题的有声书,诸如TheAdventuresofTomSawyer。电子书和有声书(或更一般地,与相同内容标题有关的两个或更多个内容项的任何组)可以称作内容“伴随”项。然而,在许多目前的方法中,用户必须手动对齐两个内容伴随项使得有声书中叙说的单词对应于用户在电子书中阅读的单词。例如,用户可能发现在有声书中没有副本的电子书部分期间需要手动暂停有声书。同样地,用户可能发现在在电子书中没有副本的有声书部分期间需要手动快进有声书。这个方案可证实使用户失望且不方便用户使用。附图简述当在结合附图通过参考以下详述更好地理解前文方面和许多附属优点时,将更加轻易地明白前文方面和许多附属优点,其中:图1是描绘其中可以操作内容对齐服务的描述性网络环境的方框图。图2是描绘描述性内容对齐服务器的方框图。图3A和图3B是描绘用于处理音频内容和文本内容的伴随项的描述性常式的流程图。图4A和图4B是描绘用于处理文本内容的不确定区域(例如,可能在音频内容的伴随项中没有副本的文本内容的区域)的描述性常式的流程图。图5A和图5B是描绘根据图4A和图4B的流程图处理的描述性不确定区域的表格图。图6是描绘用于产生音频内容和文本内容的伴随项的同步信息的描述性常式的流程图。图7是描绘用于使用图6中产生的内容同步信息同步地呈现内容伴随项的描述性常式的流程图。图8是描绘用于衡量伴随内容项的同步呈现的呈现位置的描述性度量的表格图。图9A、图9B和图9C是同步地呈现伴随内容项的描述性计算装置的直观图。详述大体来讲,本公开内容的各个方面涉及促进包括音频内容(诸如有声书)的内容项和文本内容(诸如电子书)的伴随项的同步呈现。因此,公开了一种内容对齐服务,其可以分析伴随内容项以定位(例如)在(例如)音频内容中没有副本的文本内容部分。这些错误匹配部分在本文中可以称作“不确定区域”。内容对齐服务可以对不确定区域执行进一步处理以确定转录是否包括错误或单词是否实际上在音频内容与文本内容之间有所不同。基于前文,将明白,内容对齐服务可以识别不对应于有声书的电子书部分,诸如扉页、篇后部分、脚注、图、表格、图表等等,其不一定被叙说或以其它方式以声音呈现在有声书中。一旦识别,在有声书中不对应的电子书部分可以被忽略(例如,跳过)以促进内容伴随项的同步呈现。例如,当用户启动新的电子书时,可忽略电子书的扉页,且电子书和伴随有声书的同步呈现可开始于第一章节的第一单词。在另一实例中,可以维持同步呈现使得当呈现错误匹配脚注时不呈现音频内容的一部分。替代地,有声书的呈现可以停止于页面上呈现电子书的最后对应部分之后,且恢复于呈现对应于有声书的一部分的电子书的一部分时(例如,恢复于用户翻到其中存在对应于有声书的一部分的电子书的一部分的页面之后)。在一个实施方案中,为了识别不确定区域,内容对齐服务可以获得包括音频内容(例如,有声书)的内容项的文本转录且然后比较音频内容的文本转录与包括文本内容(例如,电子书)的内容项。文本转录可以通过获得预存转录或通过使用语音-文本识别技术产生转录来获得。转录可以包括音频内容中识别的每个单词的时戳,所述时戳表示期间发出、唱出、喊出或以其它方式呈现在音频内容中的特定单词的时间间隔。此外,音频内容的文本转录可以被划分为区块,所述区块可以对应于包括音频内容的内容项的相对较大划分。例如,有声书的区块可能对应于有声书的一个或多个章节,或可能对应于有声书中的时间间隔,诸如45分钟或1小时。每个转录区块可以与文本内容项的区块对齐,所述文本内容项是包括音频内容的内容项的伴随项。这种逐区块对齐可以基于相关度,其可以衡量区块之间的类似度。文本内容区块与转录区块之间的相关度可以基于(例如)共有单词的百分比或所述两个区块之间的单词分布的类似度而计算。如果相关度满足阈值,那么文本内容区块可以初步对齐文本内容区块。时戳可以基于音频内容区块的转录中的对应加时戳单词被指派给文本内容区块中的文本内容的单词。这种相关度还可以用来识别文本内容项中的正文文本,因为扉页和篇后部分不太可能存在于音频内容项中且因此不太可能存在于转录中。每个文本内容区块可以包括一个或多个部分,诸如单词、短语、句子、段落、对话行等等。短语、句子、段落或对话行可以包括一个单词或一个以上的单词。然而,并非所有的文本内容部分可以存在于音频内容中。例如,对应于图、表格、脚注、注释、评论、旁注、扉页、篇后部分等等的文本内容部分可以存在于文本内容区块中。然而,这些部分不一定存在于音频内容中。在具体的非限制实例中,有声书可以包括电子书的正文文本部分的叙说,但是不一定不包括电子书中的任何脚注的任何叙说。因此,内容对齐服务可以分析初步对齐的内容项以定位在音频内容中没有副本的文本内容部分。在一个实施方案中,内容对齐服务比较转录区块和文本内容区块,所述转录区块和文本内容区块是逐单词而初步对齐。如上文讨论,转录区块中的每个单词可以被指派对应于时间间隔的时戳。基于转录区块中的单词的指派,对齐的文本内容中的每个单词也可以被指派对应于时间间隔的时戳。因此,内容对齐服务可以识别不对应于给定时间间隔中的转录区块中的加时戳的单词的文本内容中的任何加时戳的单词或单词序列。这些非对应单词或单词序列有时候在本文中称作“不确定区域”。不确定区域可以是转录中的音频内容的错误识别或错误转录的产物,或可以是音频内容与文本内容之间的区别的产物。内容对齐服务可以对不确定区域执行进一步处理以确定转录是否包括错误或单词是否实际上在音频内容与文本内容之间有所不同。在一个实施方案中,内容对齐服务可以由存在于不确定区域中的文本内容的任何单词产生语言模型。对应于不确定区域的音频内容的间隔可以使用并有由文本内容的单词产生的语言模型的语言-文字常式而转换为文字。不确定区域中的音频内容的这种再转录或更新转录可以在文本内容项与音频内容项的转录之间产生更多的单词对应。内容对齐服务可以尝试使用声学技术(诸如通过产生转录中的任何剩余单词的声音可混淆假设且确定声音可混淆假设和加时戳的单词是否在文本内容中)识别任何可能剩余的对应单词。内容对齐服务可以循环地重复这个程序以识别尽可能多的对应单词。基于这种进一步处理,内容对齐服务可确定哪些文本内容部分(例如,单词、句子、段落等等)对应于音频内容部分,且哪些文本内容部分不对应于音频内容。在一个实施方案中,内容对齐服务可以基于为段落所属的区块的相关度比较每个段落和音频内容的转录,每个段落和音频内容的转录在时间上对齐。如果段落关于音频内容的转录的一部分具有至少阈值百分比的对应单词,那么段落可以被视为是关于产生转录部分的音频内容部分的对应部分。在一些实施方案中,阈值百分比是大约50%、大约70%或大约95%,但是也可以按照需要设置对应单词的阈值百分比。替代地,部分分数反映可以产生是对应单词的单词的频率。如果部分分本文档来自技高网...
对应媒体内容部分的对齐

【技术保护点】
一种系统,其包括:电子数据存储区,其被配置来存储:音频内容项;和文本内容项,其是所述音频内容项的伴随项;与所述电子数据存储区通信的计算装置,所述计算装置被配置来:产生所述音频内容项的文本转录;对所述文本转录识别所述文本内容项中的不确定区域;识别初步对齐所述不确定区域的所述音频内容项的区域;应用语言模型于所述音频内容项的所述区域以产生更新的文本转录;确定所述更新的文本转录的一部分实质上对应于包括所述不确定区域的所述文本内容项的一部分;和产生内容同步信息,其中所述内容同步信息促进包括所述不确定区域的所述文本内容项的所述部分和产生所述更新文本转录的所述实质上对应部分的所述音频内容项的部分的所述同步呈现。

【技术特征摘要】
【国外来华专利技术】2012.08.02 US 61/679,015;2012.09.05 US 13/604,482;1.一种用于将音频内容项的呈现与文本内容项进行同步的系统,所述系统包括:电子数据存储器,其被配置来存储:所述音频内容项;和所述文本内容项,其是所述音频内容项的伴随项;与所述电子数据存储器通信的计算装置,所述计算装置被配置来:产生所述音频内容项的文本转录;对所述文本转录识别所述文本内容项中的不确定区域,其中所述不确定区域包括没有在所述音频内容项中识别到相应音频的所述文本内容项的文本;识别所述音频内容项中的区域,所述音频内容项中的区域初步对齐所述不确定区域;应用语言模型于所述音频内容项的区域以产生更新的文本转录;确定所述更新的文本转录的一部分对应于包括所述不确定区域的所述文本内容项的一部分;和产生内容同步信息,其中所述内容同步信息促进包括所述不确定区域的所述文本内容项的所述部分和所述更新文本转录的所述对应部分产生所基于的所述音频内容项的一部分的同步呈现。2.根据权利要求1所述的系统,其中所述计算装置还被配置来将所述内容同步信息提供给单独计算装置。3.根据权利要求1所述的系统,其中所述计算装置还被配置来同步呈现包括所述不确定区域的所述文本内容项的所述部分和所述更新文本转录的所述对应部分产生所基于的所述音频内容项的所述部分。4.根据权利要求1所述的系统,其中所述语言模型是至少部分基于所述不确定区域的一个或多个单词。5.一种用于将音频内容项同步呈现到文本内容的伴随项的系统,所述系统包括:电子数据存储器,其被配置来存储内容同步信息;和与所述电子数据存储器通信的计算装置,所述计算装置被配置来:对所述音频内容项的文本转录识别文本内容的所述伴随项中的不确定区域,所述不确定区域包括没有在所述音频内容项中识别到相应音频的一个或多个单词;识别所述文本转录中的区域,所述文本转录中的区域初步对齐所述不确定区域,所述文本转录中的区域包括一个或多个单词;将所述不确定区域的所述一个或多个单词转换成第一音素字符串;将所述文本转录中的区域的所述一个或多个单词转换成第二音素字符串;和如果所述第一音素字符串对应于所述第二音素字符串,那么产生内容同步信息,所述内容同步信息促进文本内容的所述伴随项中的所述不确定区域的所述一个或多个单词和所述文本转录中的区域产生所基于的所述音频内容项的所述一个或多个单词的同步呈现。6.根据权利要求5所述的系统,其中如果所述第一音素字符串是在相距所述第二音素字符串的阈值Levenshtein距离内,那么所述第一音素字符串对应于所述第二音素字符串。7.根据权利要求5所述的系统,其中:所述计算装置...

【专利技术属性】
技术研发人员:史蒂文·C·齐克居伊·A·小斯托里
申请(专利权)人:奥德伯公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1