控制包含语音的音频数据的回放制造技术

技术编号:19562403 阅读:30 留言:0更新日期:2018-11-25 00:39
一种控制方法,该控制方法提高在计算设备上回放包含语音的音频数据期间用户在所述音频数据中导航的能力。所述控制方法由所述计算设备中的处理器执行,并且包括以下步骤:在所述计算设备上操作(51)媒体播放器,以播放所述音频数据;检测(52)用于在所述音频数据中前进或后退的用户发起的时移命令;以及在所述音频数据中的当前时间处检测到所述时移命令之后,标识(55)所述音频数据中的句子的起始点,并且操作(56)所述媒体播放器从所述起始点处播放所述音频数据。

Control playback of audio data containing voice

A control method that improves the ability of the user to navigate the audio data during playback of audio data containing voice on a computing device. The control method is executed by a processor in the computing device and includes the following steps: operating (51) a media player on the computing device to play the audio data; detecting (52) a user-initiated time-shift command for moving forward or backward in the audio data; and presently in the audio data. After the time-shift command is detected at the time, the starting point of the sentence in the audio data is identified (55) and the media player operates (56) to play the audio data from the starting point.

【技术实现步骤摘要】
【国外来华专利技术】控制包含语音的音频数据的回放
本专利技术一般涉及用于控制数字音频数据的回放的技术,特别地,此种音频数据包含口语。
技术介绍
在现代社会,许多人具有包括能够播放数字音频文件的媒体播放器的至少一台数字设备。此种数字设备包括移动电话、便携式媒体播放器、平板电脑、膝上型电脑、个人电脑、网络扬声器、汽车娱乐系统、家庭娱乐系统等。包含语音的数字音频文件已经越来越受欢迎,并且通过互联网可用于下载或在线流传输。此种包含语音的音频文件包括:所谓的音频书籍或有声读物,该音频书籍或有声读物是被大声读出来的文学文本的记录;以及所谓的播客,该播客是插曲式系列音频记录。数字设备通常具有命令接口,该命令接口允许数字设备的用户例如通过启动命令接口中的专用按钮或图标控制音频文件的回放。例如,用户可以随意暂停和恢复音频文件的回放。许多命令接口还允许用户以快于音频文件的正常回放速度的速度快进或快退音频文件,并且在音频文件中快进或快退诸如15秒的给定时间步长。在播放包含语音的音频文件时的一个问题是:如果回放被暂停较长的时间,则对听众而言可能会丢失当前上下文。用户在暂停之后恢复音频文件的回放时,一些媒体播放器通过将回放自动倒回固定的时间步长(例如,15秒或30秒)来解决这个问题。然而,仍然需要提高用户控制包含语音的音频文件的回放的能力。
技术实现思路
本专利技术的目的在于至少部分克服现有技术的一个或更多个限制。另一目的在于提高用户在计算设备上在回放期间在包含语音的音频数据中进行导航的能力。其它目的在于提高在暂停之后恢复包含语音的音频数据的回放时察觉音频数据的当前上下文的用户能力。这些目的中的一个或更多个以及从下面的描述可能出现的其它目的至少部分地通过在计算设备上控制包含语音的音频数据的回放的方法、计算机可读介质、以及用于回放包含语音的音频数据的计算设备来实现,其实施方式由从属权利要求所限定。本专利技术的第一方面是在包含处理器的计算设备上控制包含语音的音频数据的回放的方法。该方法由计算设备中的处理器执行并且包含以下步骤:在计算设备上操作媒体播放器以播放音频数据;检测用于在音频数据中前进或后退的用户发起的时移命令;以及在音频数据中的在当前时间处检测到时移命令后,标识出音频数据中的句子的起始点,并且操作媒体播放器以从起始点处播放音频数据。第一方面确保,在用户发起的时移命令之后,计算设备上的包含语音的音频数据的回放在音频数据中的口语的句子的开端处开始。这将提高用户在计算设备上在音频数据进行导航的能力,因为它允许用户在自动跳过音频数据中的沉默、噪音和音乐部分时在音频数据中进行前进或后退。第一方面同样使得可以在检测到用于后退的用户发起的时移命令之后,自动将音频数据的回放退回至音频数据中的句子的起始点。这将提高用户在命令计算设备在暂停之后恢复音频数据的回放时察觉音频数据的当前上下文的能力。第一方面还使得能够操作媒体播放器重播被选择为总结音频数据中的在前时间段的信息内容的句子。第一方面还使得能够考虑音频数据中的语音的上下文和结构进行进一步高级形式的导航。例如,下面提出的实施方式使得用户可以按句子、按段落、按章节、按讲话者、按话题等在音频数据中进行前进或后退。在一个实施方式中,基于音频数据的自然语言处理来标识句子的起始点。自然语言处理可以(但不必)作为第一方面的方法的一部分由处理器执行。自然语言处理可以包括对音频数据操作句子分割算法。另选地或另外地,自然语言处理可以包括以下步骤:通过对音频数据操作语音识别算法来生成与音频数据相对应的文本,并且通过对文本操作句子分割算法来将文本分割成句子。在一个后退的实施方式中,时移命令指示在音频数据中后退,并且其中,起始点被标识为下列项中的一个:与音频数据中的在当前时间的当前话题有关的一组连续句子的起始点、与当前时间有预定关系的一组连续句子的起始点、与在当前时间的当前讲话者相关联的一组连续句子或紧在与当前讲话者相关联的一组连续句子之前的与另一讲话者相关联的一组连续句子的起始点、以及提供音频数据中的在当前时间之前的时间段的内容总结的一组连续句子的起始点。在一个示例中,预定关系被限定为使得一组连续句子包括在当前时间处最近开始的句子。在一个后退的实施方式中,起始点、一组连续句子中的连续句子的数目、一组句子中的句子的数目以及时间段中的至少一个作为控制变量的函数被获得,该控制变量包含下列中的一个或更多个:当前时间的文本复杂度指数、指示音频数据中的在当前时间的口语的复杂度的文本复杂度指数、音频数据的种类分类、在通过暂停触发了所述时移命令的情况下的所述媒体播放器的暂停持续时间、针对一组不同用户在音频数据中在当前时间处时移命令的发生率、以及与计算设备的命令接口的用户交互,诸如与命令接口的用户交互的持续时间、施加到命令接口的压力的程度、或对命令接口上的多个命令元件当中的一个命令元件的用户选择。在一个前进的实施方式中,时移命令指示在音频数据中前进,并且其中,起始点被标识为下列中的一个:与不同于音频数据中的在当前时间的当前话题的话题有关的句子的起始点、与当前时间有预定关系的句子的起始点、以及与不同于当前时间的当前讲话者的讲话者相关联的句子的起始点。在一个示例中,预定关系作为在当前时间之后开始的句子的计数(count)来给出。在一个前进或后退的实施方式中,该方法还包括:向音频数据中的句子分配相应话题标识符,为标识起始点,该方法还包括:通过分配给音频数据中的在当前时间的最近开始的句子的话题标识符来标识当前话题,以及基于当前话题在话题标识符中进行搜索以标识起始点。该方法还包括:对由语音识别算法生成的文本操作话题分割算法,以向音频数据中的句子分配相应话题标识符。在一个前进或后退的实施方式中,该方法还包括:向音频数据中的句子分配相应讲话者标识符,为标识起始点,该方法还包括:通过分配给音频数据中的最近开始的句子的讲话者标识符来标识当前的讲话者,以及基于当前讲话者在讲话者标识符中进行搜索以标识起始点。此外,该方法可以包括:对音频数据操作语音识别算法,以向音频数据中的句子分配相应讲话者标识符。在一个后退的实施方式中,该方法还包括:在音频数据中的时间段内,对通过语音识别算法生成的文本操作自动总结算法,以生成内容总结。在一个前进或后退的实施方式中,该方法还包括:在音频数据中针对音频数据中的口语的句子标识起始时间,并且将该起始时间存储在处理器可以访问的电子存储器中,在检测到时移命令后,该方法还包括以下步骤:基于当前的时间并且考虑到时移命令搜索电子存储器,以在与音频数据中的口语的句子相对应的起始时间中标识起始点,以及在该起始点处播放音频数据以便播放音频数据中的起始点之后的一个或更多个句子。在一个实施方式中,文本包含一系列字词,并且字词与相应时间点相关联地被存储在电子存储器中,以及在音频数据回放之前或在音频数据回放期间,对字词操作句子分割算法,以将字词分割成句子并标识起始时间。在一个前进或后退的实施方式中,通过检测与计算设备的命令接口中的专用控制元件的用户交互来检测时移命令。在一个后退的实施方式中,时移命令指示在音频数据中后退,并且通过检测用于暂停音频数据的回放的指令来检测时移命令。本专利技术的第二方面是包括计算机指令的计算机可读介质,该计算机指令在被处理器执行使处理器执行第二方本文档来自技高网...

【技术保护点】
1.一种在包括处理器(3)的计算设备(1)上控制包含语音的音频数据(A)的回放的方法,所述方法由所述计算设备(1)中的所述处理器(3)执行,并且包括以下步骤:在所述计算设备(1)上操作媒体播放器,以播放所述音频数据(A),检测用于在所述音频数据(A)中前进或后退的用户发起的时移命令,以及在所述音频数据(A)中的当前时间(tc)处检测到所述时移命令之后,标识所述音频数据(A)中的句子的起始点,并且操作所述媒体播放器以从所述起始点处播放所述音频数据(A)。

【技术特征摘要】
【国外来华专利技术】1.一种在包括处理器(3)的计算设备(1)上控制包含语音的音频数据(A)的回放的方法,所述方法由所述计算设备(1)中的所述处理器(3)执行,并且包括以下步骤:在所述计算设备(1)上操作媒体播放器,以播放所述音频数据(A),检测用于在所述音频数据(A)中前进或后退的用户发起的时移命令,以及在所述音频数据(A)中的当前时间(tc)处检测到所述时移命令之后,标识所述音频数据(A)中的句子的起始点,并且操作所述媒体播放器以从所述起始点处播放所述音频数据(A)。2.根据权利要求1所述的方法,其中,基于所述音频数据(A)的自然语言处理来标识所述句子的所述起始点。3.根据权利要求2所述的方法,其中,所述自然语言处理包括:通过对所述音频数据(A)操作语音识别算法来生成与所述音频数据(A)相对应的文本,并且通过对所述文本操作句子分割算法来将所述文本分割成句子。4.根据前述权利要求中的任一项所述的方法,其中,所述时移命令指示在所述音频数据(A)中后退,并且其中,所述起始点被标识为下列项中的一方:与所述音频数据(A)在所述当前时间(tc)的当前话题有关的一组连续句子的起始点;与所述当前时间(tc)有预定关系的一组连续句子的起始点;与所述当前时间(tc)的当前讲话者相关联的一组连续句子的起始点,或紧在与所述当前讲话者相关联的一组连续句子之前的与另一讲话者相关联的一组连续句子的起始点;以及提供所述音频数据(A)中的在所述当前时间(tc)之前的时间段的内容总结的一组连续句子的起始点。5.根据权利要求4所述的方法,其中,所述预定关系被限定为使得所述一组连续句子包括在所述当前时间(tc)处最近开始的句子。6.根据权利要求4或5所述的方法,其中,所述起始点、所述一组连续句子中的连续句子的数目、所述一组句子中的句子的数目、以及所述时间段中的至少一方作为控制变量(76)的函数来获得,所述控制变量(76)包括下列项中的一个或更多个:在所述当前时间(tc)的文本复杂度指数,所述文本复杂度指数指示所述音频数据(A)中的在所述当前时间(tc)的口语的复杂度;所述音频数据(A)的种类分类;在通过暂停触发了所述时移命令的情况下的所述媒体播放器的暂停持续时间;针对一组不同用户在所述音频数据(A)中在所述当前时间(tc)处时移命令的发生率;以及与所述计算设备(1)的命令接口(6)的用户交互,诸如与所述命令接口(6)的所述用户交互的持续时间、施加到所述命令接口(6)的压力的程度、或对所述命令接口(6)上的多个命令元件(7A、7B、7C)当中的一个命令元件的用户选择。7.根据前述权利要求中的任一项所述的方法,其中,所述时移命令指示在所述音频数据(A)中前进,并且其中,所述起始点被标识为下列项中的一方:与不同于所述音频数据(A)的在所述当前时间(tc)的当前话题的话题有关的句子的起始点;与所述当前时间(tc)有预定关系的句子的起始点;以及与不同于在所述当前时间(tc)的当前讲话者的讲话者相关联的句子的起始点。8.根据权利要求7所述的方法,其中,所述预定关系作为在所述当前时间(tc)之后开始的句子的计数来给出。9.根据权利要求4至8中的任一项所述的方法,该方法还包括以下步骤:向所述音频数据(A)中的句子(Si)分配相应话题标识符(Ti);其中,为了标识所述起始点,该方法还包括以下步骤:通过分配给所述音频数...

【专利技术属性】
技术研发人员:O·索恩
申请(专利权)人:索尼移动通讯有限公司
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1