信息发送装置、信息接收装置、信息发送方法、程序以及系统制造方法及图纸

技术编号:35503672 阅读:28 留言:0更新日期:2022-11-09 14:14
本公开的信息发送装置具备:声学特征量计算部(13),计算针对讲话声音的声学特征量;讲话者特征量计算部(14),利用DNN(Deep Neural Network:深度神经网络),根据声学特征量来算出讲话者特征量,该讲话者特征量是讲话声音的讲话者固有的特征量;分析部(12),根据讲话声音,对示出算出讲话者特征量时的条件的条件信息进行分析;以及信息发送部(15),将讲话者特征量以及条件信息发送给信息接收装置(20),讲话者特征量以及条件信息是识别讲话声音的讲话者的信息接收装置(20)为了识别讲话声音的讲话者而使用的信息。讲话者而使用的信息。讲话者而使用的信息。

【技术实现步骤摘要】
【国外来华专利技术】信息发送装置、信息接收装置、信息发送方法、程序以及系统


[0001]本公开涉及信息发送装置、信息接收装置、信息发送方法、程序以及系统。

技术介绍

[0002]有一种远程会议系统,例如电话会议系统等,2名以上的人能够经由电话网或网络利用声音进行通信。
[0003]在远程会议系统中,在3名以上的人利用声音进行通信的情况下,会有想要显示谁正在讲话即讲话者的情况。
[0004]例如在专利文献1中提出了,通过利用讲话者识别处理的技术,在混入了噪音的环境下也能够高精度地识别讲话者的讲话者识别装置等。在此,讲话者识别技术是一种如下的技术,该讲话者识别技术预先收集登记对象的讲话者的讲话声音,根据按照收集的讲话声音算出的特征量与新获得的成为讲话者识别对象的讲话声音的相似度,对获得的讲话声音的讲话者是登记的讲话者中的哪个讲话者进行判断。
[0005](现有技术文献)
[0006](专利文献)
[0007]专利文献1:日本特开2020

60757号公报
[0008]然而,在如上所述的远程会议系统中适用上述专利文献1所公开的讲话者识别处理的情况下,该讲话者识别处理适用于接收讲话声音的接收侧的装置,而不适用于发送识别对象的讲话者的讲话声音的发送侧的装置。因此,接收侧的装置,除了接收讲话声音,还进行讲话者识别处理,因此,接收侧的装置中存在运算负荷增大的问题。

技术实现思路

[0009]鉴于上述的情况,本公开的目的在于提供能够抑制用于执行讲话者识别处理的运算负荷的信息发送装置、信息接收装置、信息发送方法、程序以及系统。
[0010]本公开的一个形态所涉及的信息发送装置,具备:声学特征量计算部,计算针对讲话声音的声学特征量;讲话者特征量计算部,利用深度神经网络,根据所述声学特征量来算出讲话者特征量,所述讲话者特征量是所述讲话声音的讲话者固有的特征量;分析部,根据所述讲话声音,对条件信息进行分析,所述条件信息是示出根据所述讲话声音来算出所述讲话者特征量时的条件的信息;以及信息发送部,将所述讲话者特征量以及所述条件信息发送给信息接收装置,所述讲话者特征量以及所述条件信息是进行所述讲话声音的讲话者识别处理的所述信息接收装置为了识别所述讲话声音的讲话者而使用的信息。
[0011]另外,这些概括性的或具体的形态,也可以由系统、方法、集成电路、计算机程序或计算机可读取的CD

ROM等记录介质来实现,也可以由系统、方法、集成电路、计算机程序以及记录介质的任意组合来实现。
[0012]通过本公开的信息发送装置等,能够抑制用于执行讲话者识别处理的运算负荷。
附图说明
[0013]图1是示出实施方式所涉及的通信系统的构成的一个例子的方框图。
[0014]图2是示出图1所示的发出侧通信终端以及接收侧通信终端的构成的一个例子的方框图。
[0015]图3是示出图2所示的信息发送装置以及信息接收装置的具体构成的一个例子的方框图。
[0016]图4是示出实施方式所涉及的分析部的详细构成的一个例子的图。
[0017]图5是示出讲话声音的讲话者的性别不同的情况下的特征量分布的一个例子的图。
[0018]图6是示出实施方式所涉及的DNN的构成的一个例子的图。
[0019]图7是示出实施方式所涉及的信息发送装置的工作的流程图。
[0020]图8是示出步骤S11的具体工作的流程图。
[0021]图9是示出实施方式所涉及的信息接收装置的工作的流程图。
[0022]图10是示出实施方式所涉及的信息接收装置的具体工作的流程图。
[0023]图11是示出变形例1所涉及的信息发送装置以及信息接收装置的具体构成的一个例子的方框图。
[0024]图12是示出变形例1所涉及的分析部的详细构成的一个例子的图。
[0025]图13是示出变形例1所涉及的讲话者特征量计算部的详细构成的一个例子的图。
[0026]图14是示出变形例1所涉及的讲话者特征量获得部的详细构成的一个例子的图。
[0027]图15是示出变形例1所涉及的DNN的构成、和在第1讲话者特征量以及第2讲话者特征量的计算中利用的构成部分的图。
[0028]图16A是示出变形例1所涉及的信息发送装置的具体工作的流程图。
[0029]图16B是示出变形例1所涉及的信息发送装置的具体工作的流程图。
[0030]图17是示出变形例1所涉及的信息接收装置的具体工作的流程图。
[0031]图18是示出变形例2所涉及的信息发送装置以及信息接收装置的具体构成的一个例子的方框图。
[0032]图19是示出变形例2所涉及的分析部的详细构成的一个例子的图。
[0033]图20是示出变形例2所涉及的讲话者特征量计算部的详细构成的一个例子的图。
具体实施方式
[0034](得到本公开的一个形态的经过)
[0035]在远程会议系统中,在3名以上的人仅以声音来进行通信的情况下,会有想要显示谁正在讲话即讲话者的情况。
[0036]然而,在适用例如专利文献1所公开的讲话者识别处理的情况下,该讲话者识别处理适用于接收讲话声音的接收侧的装置,而不适用于发出了识别对象的讲话者的讲话声音的发出侧的装置。因此,接收侧的装置,除了接收讲话声音,还进行讲话者识别处理。
[0037]但是在讲话者识别处理中包括:根据基于识别对象的讲话者的讲话声音得到的声学特征量来算出讲话者特征量的处理;以及与预先存储的登记讲话者特征量进行比较来分析与算出的讲话者特征量最接近的登记讲话者的处理。关于算出讲话者特征量的处理,因
为需要庞大的运算量,所以运算负荷大。并且,在分析与算出的讲话者特征量最接近的登记讲话者的处理中,若不对符合收录讲话声音时的条件的登记讲话者特征量与算出的该讲话声音的讲话者特征量进行比较,则会产生分析的错误。进一步,若对预先存储的所有的登记讲话者特征量与算出的讲话者特征量进行比较,则会成为运算负荷。
[0038]因此,存在接收侧的装置的运算负荷增大的问题。然后,专利技术人员想到了通过使发送讲话声音的发送侧的装置来承担讲话者识别处理的运算的一部分,来使讲话者识别处理的运算负荷分散的方法。
[0039]本公开的一个形态所涉及的信息发送装置,具备:声学特征量计算部,计算针对讲话声音的声学特征量;讲话者特征量计算部,利用深度神经网络,根据所述声学特征量来算出讲话者特征量,所述讲话者特征量是所述讲话声音的讲话者固有的特征量;分析部,根据所述讲话声音,对条件信息进行分析,所述条件信息是示出根据所述讲话声音来算出所述讲话者特征量时的条件的信息;以及信息发送部,将所述讲话者特征量以及所述条件信息发送给信息接收装置,所述讲话者特征量以及所述条件信息是进行所述讲话声音的讲话者识别处理的所述信息接收装置为了识别所述讲话声音的讲话者而使用的信息。
[0040]通过本形态,通过向进行讲话声本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种信息发送装置,具备:声学特征量计算部,计算针对讲话声音的声学特征量;讲话者特征量计算部,利用深度神经网络,根据所述声学特征量来算出讲话者特征量,所述讲话者特征量是所述讲话声音的讲话者固有的特征量;分析部,根据所述讲话声音,对条件信息进行分析,所述条件信息是示出根据所述讲话声音来算出所述讲话者特征量时的条件的信息;以及信息发送部,将所述讲话者特征量以及所述条件信息发送给信息接收装置,所述讲话者特征量以及所述条件信息是进行所述讲话声音的讲话者识别处理的所述信息接收装置为了识别所述讲话声音的讲话者而使用的信息。2.如权利要求1所述的信息发送装置,所述分析部具备状况分析部以及条件信息设定部,所述状况分析部,根据所述讲话声音对所述讲话声音的收录状况进行分析,所述条件信息设定部,将所述收录状况作为所述条件信息来设定。3.如权利要求2所述的信息发送装置,所述收录状况至少示出收录所述讲话声音时的噪声级和所使用的麦克风、以及所述讲话声音的数据属性的其中之一。4.如权利要求2或3所述的信息发送装置,所述状况分析部进一步分析所述讲话声音的讲话时间,所述条件信息设定部,进一步,根据所述讲话时间,将负荷控制条件作为所述条件信息来设定,所述负荷控制条件是指,将所述讲话者特征量计算部利用的所述深度神经网络作为第1深度神经网络,该第1深度神经网络是所述深度神经网络中由第1层至第n层构成的所述深度神经网络的一部分,n为正整数,所述讲话者特征量计算部,按照所述负荷控制条件利用所述第1深度神经网络,根据所述声学特征量来算出第1讲话者特征量,以作为所述讲话者特征量,所述第1讲话者特征量是在计算所述讲话者特征量的过程中获得的特征量。5.如权利要求1所述的信息发送装置,所述分析部具备:状况分析部,分析所述讲话声音的讲话时间;以及条件信息设定部,根据所述讲话时间,将负荷控制条件作为所述条件信息来设定,所述负荷控制条件是指,将所述讲话者特征量计算部利用的所述深度神经网络作为第1深度神经网络,该第1深度神经网络是所述深度神经网络中由第1层至第n层构成的所述深度神经网络的一部分,n为正整数,所述讲话者特征量计算部,按照所述负荷控制条件利用所述第1深度神经网络,根据所述声学特征量来算出第1讲话者特征量,以作为所述讲话者特征量,所述第1讲话者特征量是在计算所述讲话者特征量的过程中获得的特征量。6.一种信息接收装置,具备:存储部,在该存储部中,按照算出登记讲话者特征量时的每个条件,存储有所述登记讲话者特征量,所述登记讲话者特征量是针对事先登记的一个以上的登记讲话者的每一个的固有的特征量;
条件信息获得部,获得权利要求1至5的任意一项所述的信息发送装置所发送的信息中包括的所述条件信息;讲话者特征量获得部,获得所述信息发送装置所发送的信息中包括的所述讲话者特征量;相似度计算部,根据获得的所述条件信息以及所述讲话者特征量,对所述存储部中存储的所述登记讲话者特征量的每一个与所述讲话者特征量的相似度进行计算;以及讲话者确定部,根据由所述相似度计算部算出的相似度,对所述讲话声音的讲话者是所述存储部中存储的所述一个以上的登记讲话者中的哪个登记讲话者进行确定并输出。7.如权利要求6所述的信息接收装置,所述相似度计算部具备:选择部,在由所述条件信息获得部获得的所述条件信息中包括所述讲话声音的收录状况的情况下,选择针对所述一个以上的登记讲话者的每一个的登记讲话者特征量,该登记讲话者特征量也是符合所述收录状况的条件下的登记讲话者特征量;以及相似度计算处理部,对由所述选择部选择的针对所述一个以上的登记讲话者的每一个的登记讲话者特征量与由所述讲话者特征量获得部获得的所述讲话者特征量的相似度进行计算,所述讲话者确定部,根据由所述相似度计算处理部算出的相似度,对所述讲话声音的讲话者是由所述选择部选择的所述一个以上的登记讲话者中的哪个登记讲话者进行确定并输出。8.如权利要求7所述的信息接收装置,所述条件信息获得部,在获得的所述条件信息中还包括负荷控制条件的情况下,将所述负荷控制条件传递给所述讲话者特征量获得部,所述负荷控制条件是指,代替所述深度神经网络而利用了所述深度神经网...

【专利技术属性】
技术研发人员:水野耕
申请(专利权)人:松下电器美国知识产权公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1