控制包含语音的音频数据的回放制造技术

技术编号：19562403 阅读：30 留言：0更新日期：2018-11-25 00:39

一种控制方法，该控制方法提高在计算设备上回放包含语音的音频数据期间用户在所述音频数据中导航的能力。所述控制方法由所述计算设备中的处理器执行，并且包括以下步骤：在所述计算设备上操作(51)媒体播放器，以播放所述音频数据；检测(52)用于在所述音频数据中前进或后退的用户发起的时移命令；以及在所述音频数据中的当前时间处检测到所述时移命令之后，标识(55)所述音频数据中的句子的起始点，并且操作(56)所述媒体播放器从所述起始点处播放所述音频数据。

Control playback of audio data containing voice

A control method that improves the ability of the user to navigate the audio data during playback of audio data containing voice on a computing device. The control method is executed by a processor in the computing device and includes the following steps: operating (51) a media player on the computing device to play the audio data; detecting (52) a user-initiated time-shift command for moving forward or backward in the audio data; and presently in the audio data. After the time-shift command is detected at the time, the starting point of the sentence in the audio data is identified (55) and the media player operates (56) to play the audio data from the starting point.

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】控制包含语音的音频数据的回放
本专利技术一般涉及用于控制数字音频数据的回放的技术，特别地，此种音频数据包含口语。
技术介绍
在现代社会，许多人具有包括能够播放数字音频文件的媒体播放器的至少一台数字设备。此种数字设备包括移动电话、便携式媒体播放器、平板电脑、膝上型电脑、个人电脑、网络扬声器、汽车娱乐系统、家庭娱乐系统等。包含语音的数字音频文件已经越来越受欢迎，并且通过互联网可用于下载或在线流传输。此种包含语音的音频文件包括：所谓的音频书籍或有声读物，该音频书籍或有声读物是被大声读出来的文学文本的记录；以及所谓的播客，该播客是插曲式系列音频记录。数字设备通常具有命令接口，该命令接口允许数字设备的用户例如通过启动命令接口中的专用按钮或图标控制音频文件的回放。例如，用户可以随意暂停和恢复音频文件的回放。许多命令接口还允许用户以快于音频文件的正常回放速度的速度快进或快退音频文件，并且在音频文件中快进或快退诸如15秒的给定时间步长。在播放包含语音的音频文件时的一个问题是：如果回放被暂停较长的时间，则对听众而言可能会丢失当前上下文。用户在暂停之后恢复音频文件的回放时，一些媒体播放器通过将回放自动倒回固定的时间步长(例如，15秒或30秒)来解决这个问题。然而，仍然需要提高用户控制包含语音的音频文件的回放的能力。
技术实现思路
本专利技术的目的在于至少部分克服现有技术的一个或更多个限制。另一目的在于提高用户在计算设备上在回放期间在包含语音的音频数据中进行导航的能力。其它目的在于提高在暂停之后恢复包含语音的音频数据的回放时察觉音频数据的当前上下文的用户能力。这些目的中的一个或更多...

【技术保护点】
1.一种在包括处理器(3)的计算设备(1)上控制包含语音的音频数据(A)的回放的方法，所述方法由所述计算设备(1)中的所述处理器(3)执行，并且包括以下步骤：在所述计算设备(1)上操作媒体播放器，以播放所述音频数据(A)，检测用于在所述音频数据(A)中前进或后退的用户发起的时移命令，以及在所述音频数据(A)中的当前时间(tc)处检测到所述时移命令之后，标识所述音频数据(A)中的句子的起始点，并且操作所述媒体播放器以从所述起始点处播放所述音频数据(A)。

【技术特征摘要】
【国外来华专利技术】1.一种在包括处理器(3)的计算设备(1)上控制包含语音的音频数据(A)的回放的方法，所述方法由所述计算设备(1)中的所述处理器(3)执行，并且包括以下步骤：在所述计算设备(1)上操作媒体播放器，以播放所述音频数据(A)，检测用于在所述音频数据(A)中前进或后退的用户发起的时移命令，以及在所述音频数据(A)中的当前时间(tc)处检测到所述时移命令之后，标识所述音频数据(A)中的句子的起始点，并且操作所述媒体播放器以从所述起始点处播放所述音频数据(A)。2.根据权利要求1所述的方法，其中，基于所述音频数据(A)的自然语言处理来标识所述句子的所述起始点。3.根据权利要求2所述的方法，其中，所述自然语言处理包括：通过对所述音频数据(A)操作语音识别算法来生成与所述音频数据(A)相对应的文本，并且通过对所述文本操作句子分割算法来将所述文本分割成句子。4.根据前述权利要求中的任一项所述的方法，其中，所述时移命令指示在所述音频数据(A)中后退，并且其中，所述起始点被标识为下列项中的一方：与所述音频数据(A)在所述当前时间(tc)的当前话题有关的一组连续句子的起始点；与所述当前时间(tc)有预定关系的一组连续句子的起始点；与所述当前时间(tc)的当前讲话者相关联的一组连续句子的起始点，或紧在与所述当前讲话者相关联的一组连续句子之前的与另一讲话者相关联的一组连续句子的起始点；以及提供所述音频数据(A)中的在所述当前时间(tc)之前的时间段的内容总结的一组连续句子的起始点。5.根据权利要求4所述的方法，其中，所述预定关系被限定为使得所述一组连续句子包括在所述当前时间(tc)处最近开始的句子。6.根据权利要求4或5所述的方法，其中，所述起始点、所述一组连续句子中的连续句子的数目、所述一组句子中的句子的数目、以及所述时间段中的至少一方作为控制变量(76)的函数来获得，所述控制变量(76)包括下列项中的一个或更多个：在所述当前时间(tc)的文本复杂度指数，所述文本复杂度指数指示所述音频数据(A)中的在所述当前时间(tc)的口语的复杂度；所述音频数据(A)的种类分类；在通过暂停触发了所述时移命令的情况下的所述媒体播放器的暂停持续时间；针对一组不同用户在所述音频数据(A)中在所述当前时间(tc)处时移命令的发生率；以及与所述计算设备(1)的命令接口(6)的用户交互，诸如与所述命令接口(6)的所述用户交互的持续时间、施加到所述命令接口(6)的压力的程度、或对所述命令接口(6)上的多个命令元件(7A、7B、7C)当中的一个命令元件的用户选择。7.根据前述权利要求中的任一项所述的方法，其中，所述时移命令指示在所述音频数据(A)中前进，并且其中，所述起始点被标识为下列项中的一方：与不同于所述音频数据(A)的在所述当前时间(tc)的当前话题的话题有关的句子的起始点；与所述当前时间(tc)有预定关系的句子的起始点；以及与不同于在所述当前时间(tc)的当前讲话者的讲话者相关联的句子的起始点。8.根据权利要求7所述的方法，其中，所述预定关系作为在所述当前时间(tc)之后开始的句子的计数来给出。9.根据权利要求4至8中的任一项所述的方法，该方法还包括以下步骤：向所述音频数据(A)中的句子(Si)分配相应话题标识符(Ti)；其中，为了标识所述起始点，该方法还包括以下步骤：通过分配给所述音频数...

【专利技术属性】
技术研发人员：O·索恩，
申请(专利权)人：索尼移动通讯有限公司，
类型：发明
国别省市：日本,JP

全部详细技术资料下载我是这个专利的主人