语音处理方法、信息装置与计算机程序产品制造方法及图纸

技术编号:23471756 阅读:32 留言:0更新日期:2020-03-06 13:25
本发明专利技术涉及一种语音处理方法、信息装置与计算机程序产品。该计算机执行的语音处理方法,包含:通过一麦克风取得一混合语音信号,其中该混合语音信号至少包含不特定的多个说话人所同时发出的多个语音信号;根据该混合语音样本信号而利用一生成对抗网络产出一组模拟语音信号,以模拟该多个语音信号;以及决定该组模拟语音信号的信号数目以估计所在环境中该多个说话人的人数,并提供作为一信息应用程序的输入。

Speech processing methods, information devices and computer program products

【技术实现步骤摘要】
语音处理方法、信息装置与计算机程序产品
本专利技术大体而言关于计算机执行的语音处理方法与信息装置。特别地,关于一种计算机执行的语音处理方法与信息装置,其可从所接收到的混合语音信号中估计所在环境中不特定说话人的人数。
技术介绍
关于可检测语音且可供用户通过语音进行控制的信息装置,目前已有商业化的智能音箱产品,其基本结构可参考Amazon公司的产品AmazonEcho或是Google公司的产品GoogleHome而加以了解。此类装置一般而言具有处理器,而可在本地或是通过网络而在云端执行各式应用程序,以提供各式信息服务。此外,以GoogleHome为例,其可支持多用户,也就是可为每个用户提供不同的服务。为了要对用户进行识别,每个用户必须先注册其声纹。用户先对着GoogleHome说出「OkGoogle」和「HeyGoogle」两个唤醒词。然后GoogleHome会分析那些唤醒词,以分析出该用户声纹的特征。之后该用户再对GoogleHome说「OkGoogle」或「HeyGoogle」,GoogleHome就将声音与以前所注册的声纹比较,理解是谁在说话。另一方面,现有技术也可针对用户所发出的语音内容进行辨识,例如可辨识出用户话语中的特定字眼,进而决定用户当下所感兴趣的事物或是用户当下的情绪,由此可决定所要提供给该用户的服务内容。对此可参考例如美国专利US9934785或是USPub.20160336005。
技术实现思路
虽然现有技术中可以做到说话人的辨识以及单字或语句内容的识别,但仍然有需要改进的空间。特别是,为了提供更符合用户需求的服务,会希望能够针对当下的环境特性(profile)及/或用户的行为模式进行识别。对此,本专利技术体认到通过对于环境中说话人的人数以及人数变化进行辨识,可以合理地推断出环境的特性以及环境中用户的行为模式。以住家环境为例,在一天当中,由于大部分的家庭成员在日间皆外出上班上学,因此在此环境中日间的说话人的数目最少,而到傍晚以后增加,在到晚餐时间可能人数到最大值。相较之下,在一般办公室的环境中,其说话人的数目会在上班时间较多,而到下班时间后逐渐减少。因此,可以根据说话人的数目以及在一天之中变化的趋势,再搭配其他已知的信息(例如通过GPS数据或是网络IP地址所推知的地理信息),可对用户所在环境的特性进行更精确的判断,进而提供客制化的服务。现有技术中也许可通过声纹辨识来识别出说话人的数目,但仍有些许不足之处。首先,现有技术中例如上述GoogleHome声纹辨识的作法,必须仰赖用户先将其声纹进行注册,使用上并不方便。此外目前已有金融机构以用户的声纹作为身分验证工具,因此某些用户可能会担心声纹数据外泄遭滥用而不愿轻易提供。其次,纵使用户愿意预先注册其声纹,然而当同时有不特定的多数用户进行交谈或同时说话时,也就是俗称「鸡尾酒会问题(cocktailpartyproblem)」的情况下,通过预先注册的声纹进行比对来判断出当下环境中说话人的数目并不容易,而在人数无法确定的情况下,要进一步将各个声纹一一区分而加以辨识其内容,或是要分离各个说话人的声音就更为困难。有鉴于此,本专利技术一方面提出一种计算机执行的语音处理方法与信息装置,其可采用深度学习(deeplearning)的作法,特别是生成对抗网络(GenerativeAdversarialNetwork)模型,而从所接受到的混合语音信号中估计所在环境中不特定说话人的人数,且优选地,其可不需要用户预先提供其声纹(即预先注册声纹)。本专利技术另一方面则是在估计出环境中不特定说话人的人数之后,可再依此推断出环境的特性以及环境中用户的行为模式,并可提供适合的服务。对此,可根据预定时间表或按照特定的条件来重复地采集环境中说话人的语音样本,以观察其变化的趋势。举例来说,如果每天都可采集到充分的说话人的语音样本,则可推断所在的环境可能为住家;相对的,如果只有在工作日才能采集到充分的说话人的语音样本,则可推断环境所在的可能为办公室。而进一步可从所估计环境中说话人的人数与其变化趋势,则可更进一步推断出例如家庭的组成或是办公室的业务形态。举例来说,以住家环境为例,可从放学时间所估计所增加的说话人人数来推断出家庭成员中仍在就学的数目,而若以办公室环境为例,则从一般下班时间(例如下午六点)后所估计到的说话人人数,来推断是否加班工作为常态,或是否采用弹性工时制度。根据本专利技术一实施例,提出一种计算机执行的语音处理方法,涉及一生成对抗网络,该一生成对抗网络包含一个生成网络与一个判别网络,其中该方法包含:●通过一麦克风取得一混合语音信号,其中该混合语音信号至少包含多个说话人在一时段内发出的多个语音信号;●提供该混合语音信号给该生成网络,该生成网络以一生成模型来根据该混合语音样本信号加以产出一组模拟语音信号,以模拟该多个语音信号,其中该生成模型中的参数由该生成网络与该判别网络不断对抗学习而决定;以及●决定该组模拟语音信号的信号数目,并提供作为一信息应用程序的输入。根据本专利技术另一实施例,提出一种计算机执行的语音处理方法,其中该方法包含:●通过一麦克风取得一混合语音信号,其中该混合语音信号至少包含多个说话人在一时段内所发出的多个语音信号;●根据该混合语音样本信号加以产出一组模拟语音信号,以模拟该多个语音信号,其中该多个说话人所发出的多个语音信号并无作为样本预先提供;以及●决定该组模拟语音信号的信号数目,并提供作为一信息应用程序的输入。此外,本专利技术还提出一种计算机程序产品,包含一计算机可读程序,供于一信息装置上执行时,以执行如上述所述的方法。在其他实施例中,本专利技术还提出一种信息装置,包含:●一处理器,用以执行一音频处理程序以及一信息应用程序;●一麦克风,用以接收一混合语音信号,其中该混合语音信号至少包含多个说话人所同时发出的多个语音信号;●其中该处理器执行该音频处理程序,以执行如上述所述的方法。本说明书中所提及的特色、优点、或类似表达方式并不表示,可以本专利技术实现的所有特色及优点应在本专利技术之任何单一的具体实施例内。而是应明白,有关特色及优点的表达方式是指结合具体实施例所述的特定特色、优点、或特性包含在本专利技术的至少一具体实施例内。因此,本说明书中对于特色及优点、及类似表达方式的论述与相同具体实施例有关,但亦非必要。参考以下说明及随附权利要求或利用如下文所提之本专利技术的实施方式,即可更加明了本专利技术的这些特色及优点。附图说明为了立即了解本专利技术的优点,请参考如附图所示的特定具体实施例,详细说明上文简短叙述的本专利技术。在了解这些图示仅描绘本专利技术的典型具体实施例并因此不将其视为限制本专利技术范畴的情况下,参考附图以额外的明确性及细节来说明本专利技术,图式中:图1是依据本专利技术具体实施例的信息装置。图2是依据本专利技术一实施例的方法流程图。具体实施方式本说明书中「一具体实施例」或类似表达方式的引用是指结合该具体实施例所本文档来自技高网...

【技术保护点】
1.一种计算机执行的语音处理方法,涉及一生成对抗网络,该生成对抗网络包含一个生成网络与一个判别网络,其中该方法包含:/n(a)通过一麦克风取得一混合语音信号,其中该混合语音信号至少包含多个说话人在一时段内发出的多个语音信号;/n(b)提供该混合语音信号给该生成网络,该生成网络以一生成模型来根据该混合语音信号加以产出一组模拟语音信号,以模拟该多个语音信号,其中该生成模型中的参数由该生成网络与该判别网络不断对抗学习而决定;以及/n(c)决定该组模拟语音信号的信号数目,并提供作为一信息应用程序的输入。/n

【技术特征摘要】
1.一种计算机执行的语音处理方法,涉及一生成对抗网络,该生成对抗网络包含一个生成网络与一个判别网络,其中该方法包含:
(a)通过一麦克风取得一混合语音信号,其中该混合语音信号至少包含多个说话人在一时段内发出的多个语音信号;
(b)提供该混合语音信号给该生成网络,该生成网络以一生成模型来根据该混合语音信号加以产出一组模拟语音信号,以模拟该多个语音信号,其中该生成模型中的参数由该生成网络与该判别网络不断对抗学习而决定;以及
(c)决定该组模拟语音信号的信号数目,并提供作为一信息应用程序的输入。


2.如权利要求1所述的方法,其中该多个说话人所发出的多个语音信号并无作为样本预先提供给该生成对抗网络。


3.如权利要求1所述的方法,还包含:
利用该组模拟语音信号的信号数目,辨识该多个说话人所发出的多个语音信号的声纹。


4.如权利要求1所述的方法,其中根据一预定时间表或条件,重复步骤(a)至(c),以提供多个输入给该信息应用程序,由此该信息应用程序根据该多个输入以执行一特定应用。


5.一种计算机执行的语音处理方法,其中该方法包含:
(a)通过一麦克风取得一混合语音信号,其中该混合语音信号至少包含多个说话人在一时段内所发出的多个语音信号;
(b)根据...

【专利技术属性】
技术研发人员:许云旭陈柏儒
申请(专利权)人:洞见未来科技股份有限公司
类型:发明
国别省市:萨摩亚;WS

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1