用于防止语音延迟的语音数据处理装置及方法制造方法及图纸

技术编号:20518673 阅读:37 留言:0更新日期:2019-03-06 03:03
本发明专利技术公开一种用于防止语音延迟的语音数据处理装置及方法。根据本发明专利技术的一实施例的语音数据处理装置包括:接收部,接收语音数据;存储部,将接收的所述语音数据存储于缓冲区;区间分类部,将存储的所述语音数据分割为一个以上的区间,并将被分割的所述一个以上的区间分别分类为语音区间或静音区间;语音输出部,将分类为所述静音区间的语音数据丢弃或者加速播放速度而输出。

Speech Data Processing Device and Method for Preventing Speech Delay

The invention discloses a voice data processing device and method for preventing voice delay. According to an embodiment of the present invention, a voice data processing device includes: a receiving unit that receives voice data; a storage unit that stores the received voice data in a buffer; an interval classification unit that divides the stored voice data into more than one interval and classifies more than one interval divided into voice interval or mute interval, respectively; and a voice output unit. The voice data classified as the silent interval is discarded or output by accelerating the playback speed.

【技术实现步骤摘要】
用于防止语音延迟的语音数据处理装置及方法
本专利技术的实施例涉及一种用于防止语音延迟的语音数据处理装置及方法。
技术介绍
通常,通过网络接收语音而实时输出的装置(例如,语音流装置、互联网协议电话(VoiceoverInternetProtocol;VoIP)装置等)在例如产生丢包、包延迟等问题的情况下,无法顺利地输出语音数据。为了解决上述问题,开发了如下的技术:将接收的语音数据存储于抖动缓冲区(JitterBuffer),在抖动缓冲区存储预定量以上的语音数据以后输出语音数据。但是,在产生过度的由于发送装置或接收装置的过负荷引起的延迟(例如,发送端或接收端侧的计算机CPU(CentralProcessingUnit)过负荷引起的延迟)、由网络环境引起的延迟等的情况下,依然存在无法顺利输出语音数据的问题。
技术实现思路
本专利技术的实施例的目的在于在没有音质损失的情况下防止语音发生延迟,从而将语音数据顺利输出。根据本专利技术的一实施例的语音数据处理装置包括:接收部,接收语音数据;存储部,将接收的所述语音数据存储于缓冲区;区间分类部,将存储的所述语音数据分割为一个以上的区间,并将被分割的所述一个以上的区间分别分类为语音区间或静音区间;语音输出部,将被分类为所述静音区间的语音数据丢弃或者加速播放速度而输出。根据本专利技术的一实施例的语音数据处理装置还包括:语音延迟判断部,将存储的所述语音数据的大小与设定的基准值进行比较而判断是否产生语音延迟,在由所述语音延迟判断部判断为产生了语音延迟的情况下,所述语音输出部可以将被分类为所述静音区间的语音数据丢弃或者加速播放速度而输出。根据本专利技术的一实施例的语音数据处理装置还包括:静音区间测量部,测量静音区间的持续时间,在所述静音区间的持续时间超过设定的第一基准时间及设定的第二基准时间的情况下,所述语音输出部可以将被分类为所述静音区间的语音数据丢弃。根据本专利技术的一实施例的语音数据处理装置还包括:静音区间测量部,测量静音区间的持续时间,在所述静音区间的持续时间超过设定的第一基准时间且为设定的第二基准时间以下的情况下,所述语音输出部可以将被分类为所述静音区间的语音数据的播放速度加速而输出。根据本专利技术的一实施例的语音数据处理方法包括如下步骤:接收语音数据;将接收的所述语音数据存储于缓冲区;将存储的所述语音数据分割为一个以上的区间;将被分割的所述一个以上的区间分别分类为语音区间或静音区间;将被分类为所述静音区间的语音数据丢弃或者加速播放速度而输出。根据本专利技术的一实施例的语音数据处理方法在进行输出的所述步骤之前还包括如下步骤:将存储的所述语音数据的大小与设定的基准值进行比较而判断是否产生语音延迟,进行输出的所述步骤中,在判断为产生了所述语音延迟的情况下,可以将被分类为所述静音区间的语音数据丢弃或者加速播放速度而输出。根据本专利技术的一实施例的语音数据处理方法在进行输出的所述步骤之前还包括如下步骤:测量静音区间的持续时间,进行输出的所述步骤中,在所述静音区间的持续时间超过设定的第一基准时间及设定的第二基准时间的情况下,可以将分类为所述静音区间的语音数据丢弃。根据本专利技术的一实施例的语音数据处理方法在进行输出的所述步骤之前还包括如下步骤:测量静音区间的持续时间,进行输出的所述步骤中,在所述静音区间的持续时间超过设定的第一基准时间且为设定的第二基准时间以下的情况下,可以将分类为所述静音区间的语音数据的播放速度加速而输出。根据本专利技术的实施例,在没有音质损失的情况下防止语音延迟,从而能够顺利输出语音数据。附图说明图1是用于说明根据本专利技术的一实施例的语音数据处理系统的框图。图2是用于说明根据本专利技术的一实施例的语音数据处理装置的框图。图3是用于说明根据本专利技术的另一实施例的语音数据处理装置的框图。图4是用于说明根据本专利技术的一实施例的语音数据处理装置的操作的流程图。图5是用于说明根据本专利技术的一实施例的语音区间及静音区间的图。图6是由根据本专利技术的一实施例的语音数据处理装置执行的语音数据处理方法的流程图。图7是举例说明包括适用于示例性的实施例的计算装置的计算环境的框图。符号说明100:语音数据处理系统102:外部装置104:网络106:语音数据处理装置202:数据接收部204:存储部206:区间分类部208:语音输出部302:语音延迟判断部304:静音区间测量部具体实施方式以下,参照附图对本专利技术的具体实施形态进行说明。以下的详细说明是为了有助于全面理解本说明书中记载的方法、装置和/或系统而提供的。然而这些仅为示例,本专利技术并不限于此。在对本专利技术的实施例进行说明的过程中,如果判断为对有关本专利技术的公知技术的具体说明有可能对本专利技术的主旨造成不必要的混乱,则省略其详细说明。此外,后述的术语均为考虑到本专利技术中的功能而定义的术语,其可能根据使用者、运用者的意图或惯例等而不同。因此,需要以贯穿本说明书整体的内容为基础而对其下定义。在详细说明中使用的术语只用于记载本专利技术的实施例,而绝不用于限定本专利技术。除非明确不同地使用,否则单数形态的表述包括复数形态的含义。在本说明书中,如“包括”或“具有”等术语用于指代某种特性、数字、步骤、操作、要素及其一部分或组合,不可被解释为排除所记载项之外的一个或一个以上的其他特性、数字、步骤、操作、要素及其一部分或组合的存在或可存在性。图1是用于说明根据本专利技术的一实施例的语音数据处理系统100的框图。参照图1,根据本专利技术的一实施例的语音数据处理系统100可以是如下的系统:将从外部装置102输入或在外部装置102生成的语音数据通过网络104传输至语音数据处理装置106,并从语音数据处理装置106实时输出语音数据。外部装置102可以是如下的装置:从用户接收语音数据而通过网络104发送至语音数据处理装置106,或者将已生成的语音数据发送至语音数据处理装置106。外部装置102例如可以是笔记本电脑、平板电脑、智能手机、个人数字助理(PDA)等移动设备、VoIP(VoiceoverInternetProtocol)装置、流服务器等。网络104为传递语音数据的通信网络,例如,可以是互联网、一个以上的局域网(localareanetworks)、广域网(wideareanetworks)、蜂窝网络、移动网络等有线或无线网络。语音数据处理装置106通过网络104从外部装置102接收语音数据,并且可以输出接收的语音数据。具体地,语音数据处理装置106可以将接收的语音数据中的一部分语音数据丢弃(Drop)或者调节播放速度,从而能够在没有音质损失或语音延迟的情况下将语音数据顺利地输出。并且,语音数据处理装置106可以参照接收的数据包的序列号(sequencenumber)等而将语音数据按照生成顺序存储于缓冲区并以存储于缓冲区的顺序输出。据此,即使通过外部装置102依次发送的包的顺序被改变之后被语音数据处理装置106接收,语音数据处理装置106也能够以语音数据的生成顺序输出语音数据。图2是用于说明根据本专利技术的一实施例的语音数据处理装置106的框图。参照图2,根据本专利技术的一实施例的语音数据处理装置106包括数据接收部202、存储部204、区间分类部206及语音输出部208。数据接收部202接收语音数据。具体地,数据接收部202可以通过本文档来自技高网...

【技术保护点】
1.一种语音数据处理装置,包括:接收部,接收语音数据;存储部,将接收的所述语音数据存储于缓冲区;区间分类部,将存储的所述语音数据分割为一个以上的区间,并将被分割的所述一个以上的区间分别分类为语音区间或静音区间;语音输出部,将被分类为所述静音区间的语音数据丢弃或者加速播放速度而输出。

【技术特征摘要】
2017.09.01 KR 10-2017-01118471.一种语音数据处理装置,包括:接收部,接收语音数据;存储部,将接收的所述语音数据存储于缓冲区;区间分类部,将存储的所述语音数据分割为一个以上的区间,并将被分割的所述一个以上的区间分别分类为语音区间或静音区间;语音输出部,将被分类为所述静音区间的语音数据丢弃或者加速播放速度而输出。2.如权利要求1所述的语音数据处理装置,其中,还包括:语音延迟判断部,将存储的所述语音数据的大小与设定的基准值进行比较而判断是否产生语音延迟,在由所述语音延迟判断部判断为产生了语音延迟的情况下,所述语音输出部将被分类为所述静音区间的语音数据丢弃或者加速播放速度而输出。3.如权利要求1所述的语音数据处理装置,其中,还包括:静音区间测量部,测量静音区间的持续时间,在所述静音区间的持续时间超过设定的第一基准时间及设定的第二基准时间的情况下,所述语音输出部将被分类为所述静音区间的语音数据丢弃。4.如权利要求1所述的语音数据处理装置,其中,还包括:静音区间测量部,测量静音区间的持续时间,在所述静音区间的持续时间超过设定的第一基准时间且为设定的第二基准时间以下的情况下,所述语音输出部将被分类...

【专利技术属性】
技术研发人员:金商范赵相范姜俊豪申成勋尹熙兑
申请(专利权)人:三星SDS株式会社
类型:发明
国别省市:韩国,KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1