视讯处理方法与相关的系统芯片技术方案

技术编号:36103334 阅读:18 留言:0更新日期:2022-12-28 14:03
本公开涉及视讯处理方法与相关的系统芯片。本发明专利技术揭露了一系统芯片,其包含有一人物辨识电路、一声音侦测电路以及一处理电路。该人物辨识电路用以自一影像捕获装置实时地取得一影像数据,并对该影像数据进行人物辨识以产生一辨识结果;该声音侦测电路用以自多个麦克风取得多个声音讯号,以判断出一主要声音的一声音特征值;以及该处理电路耦接于该人物辨识电路与该声音侦测电路,且用以根据该辨识结果以及该主要声音的该声音特征值以判断出该影像数据中的一特定区域,并对该影像数据进行处理以强调该特定区域。处理以强调该特定区域。处理以强调该特定区域。

【技术实现步骤摘要】
视讯处理方法与相关的系统芯片


[0001]本专利技术系有关于实时串流的视讯处理方法。

技术介绍

[0002]实时串流(live streaming)目前被广泛应用在社会的许多层面,例如可以被应用在远端视讯会议中。然而,当远端视讯会议中有其中一方在影像画面中包含多个参加者时,另一方的参加者有时候可能难以分辨影像画面中是谁正在说话。具体来说,假设目前有第一方与第二方正在进行远端视讯会议,其中第一方有多个参加者在实体会议室,并透过麦克风与相机来捕获实体会议室的影音讯息后透过网络传递至远端第二方的参加者,则由于第一方的多个参加者的姿势与位置问题,可能会让第二方的参加者无法看到是哪一位正在发言,造成第二方的参加者的困扰并影响到会议的效率。

技术实现思路

[0003]因此,本专利技术的目的之一在于提出一种应用于远端视讯的人物追踪技术,其可以在影像画面中强调目前正在发言的人物,以解决先前技术中所述的问题。
[0004]在本专利技术的一实施例中,揭露了一系统芯片,其包含有一人物辨识电路、一声音侦测电路以及一处理电路。该人物辨识电路用以自一影像捕获装置实时地取得一影像数据,并对该影像数据进行人物辨识以产生一辨识结果;该声音侦测电路用以自多个麦克风取得多个声音讯号,以判断出一主要声音的一声音特征值;以及该处理电路耦接于该人物辨识电路与该声音侦测电路,且用以根据该辨识结果以及该主要声音的该声音特征值以判断出该影像数据中的一特定区域,并对该影像数据进行处理以强调该特定区域。
[0005]在本专利技术的一实施例中,揭露了一种视讯处理方法,其包含有以下步骤:自一影像捕获装置实时地取得一影像数据,并对该影像数据进行人物辨识以产生一辨识结果;自多个麦克风取得多个声音讯号,以判断出一主要声音的一声音特征值;根据该辨识结果以及该主要声音的该声音特征值以判断出该影像数据中的一特定区域;以及对该影像数据进行处理以强调该特定区域。
附图说明
[0006]图1为远端视讯会议的示意图。
[0007]图2为根据本专利技术一实施例之电子装置的示意图。
[0008]图3所示之根据本专利技术一实施例之视讯处理方法的流程图。
[0009]图4为人物辨识电路所辨识出之影像画面中多个人物的示意图。
[0010]图5为在影像画面中强调正在发言之人物的示意图。
具体实施方式
[0011]图1为远端视讯会议的示意图。如图1所示,在第一会议室中具有电子装置110,以
供实时地拍摄第一会议室的影像,并实时地录下第一会议室内的声音后,透过网络传送至第二会议室,以供第二会议室中的电子装置120播放出第一会议室的影像与声音;同时地,第二会议室的电子装置120也实时地拍摄第二会议室的影像与录下第二会议室内的声音,并透过网络传送至第一会议室,以供第一会议室中的电子装置110播放出第二会议室的影像与声音。在本实施例中,电子装置110与电子装置120可以是任何具有影像与声音收发功能以及网络通讯功能的电子装置,例如电视、笔记型电脑、平板电脑、手机

等等。
[0012]如先前技术中所述,当远端视讯会议中有其中一方在影像画面中包含多个参加者时,另一方的参加者有时候可能难以分辨影像画面中是谁正在说话。举例来说,若是第二会议室的参加者并不熟悉第一会议室中参加者的声音、或是第一会议室正在发言的参加者并未正面对着摄影机、或是其他的影像传输因素,则第二会议室中的参加者有时候可能难以透过电子装置120所播放的声音与影像,因而造成困扰。因此,本实施例在电子装置110中的系统芯片设计了一种可以在影像中强调正在发言的参加者的方法,以使得第二会议室中的参加者可以清楚地知道第一会议室是哪一位参加者正在发言,以解决上述问题。
[0013]图2为根据本专利技术一实施例之电子装置110的示意图。如图2所示,电子装置110包含了一系统芯片200、一影像捕获装置202以及多个麦克风204_1~204_N,其中N为大于一的任意适合的正整数。此外,系统芯片200包含了一人物辨识电路210、一语音活性侦测(voice activity detection)电路220、一声音侦测电路(在本实施例中系以一声音方向侦测电路230为例)以及一处理电路240。在本实施例中,影像捕获装置202可以是一照相机或是摄影机,以实时地持续捕获第一会议室中的影像以产生影像数据至系统芯片200,其中系统芯片200所接收的影像数据可以是原始影像数据或是已经经过某些影像处理操作后的数据。麦克风204_1~204_N可以是数字麦克风,其设置在电子装置110的不同位置,以分别产生多个声音讯号至系统芯片200。需注意的是,在图2的实施例中影像捕获装置202以及麦克风204_1~204_N系设置在电子装置110内,然而,在其他的实施例中,影像捕获装置202以及麦克风204_1~204_N可以外接于电子装置110。
[0014]在系统芯片200内,人物辨识电路210系用来对从影像捕获装置202接收到的影像数据进行人物辨识,以判断出所接收到的影像数据内是否有人物的存在,并决定出每一个人物的特征值及每一个人物在画面的位置/区域。具体来说,人物辨识电路210可以使用深度学习或类神经网络的方式来对该影像数据中的每一个图框进行处理,例如使用多个不同的卷积核(convolution filter)来对图框进行多次卷积运算以辨识出图框中是否有人物;此外,针对所侦测到的人物,透过先前所采用之深度学习或类神经网络的方式来决定出每一个人物的一特征值(或是,每一个人物所在之区域的特征值),其中该特征值可以表示为一个多维度的向量,例如维度为

512

的向量。需注意的是,上述关于人物辨识的相关电路设计已为本领域具有通常知识者所熟知,再加上本实施例的重点之一在于人物辨识电路210所辨识出之人物及其特征值的应用,故人物辨识电路210的其他细节在此不赘述。
[0015]语音活性侦测电路220系用来接收来自麦克风204_1~204_N的声音讯号,并判断这些声音讯号中是否有语音成分。具体来说,语音活性侦测电路220主要可以执行以下操作:对接收到的声音讯号进行降噪处理、将声音讯号转换为频域后对一个区块进行处理以取得特征值、将所取得的特征值与一参考值进行比较以判断该声音讯号是否是语音讯号。需注意的是,由于语音活性侦测的相关电路设计已为本领域具有通常知识者所熟知,再加
上本实施例的重点之一在于根据语音活性侦测电路220的判断结果来进行后续的操作,故语音活性侦测电路220的其他细节在此不赘述。此外,在另一实施例中,语音活性侦测电路220可以仅接收来自麦克风204_1~204_N中部分麦克风的声音讯号,而不需要接收所有麦克风204_1~204_N的声音讯号。
[0016]关于声音方向侦测电路230的操作,由于麦克风204_1~204_N设置在电子装置110上的位置为已知,故声音方向侦测电路230可以根据来自麦克风204_1~204_N之声音讯号的时间差(亦即,所接收之声音讯号本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种系统芯片,包含有:一人物辨识电路,用以自一影像捕获装置实时地取得一影像数据,并对该影像数据进行人物辨识以产生一辨识结果;一声音侦测电路,用以自多个麦克风取得多个声音讯号,以判断出一主要声音的一声音特征值;以及一处理电路,耦接于该人物辨识电路与该声音侦测电路,用以根据该辨识结果以及该主要声音的该声音特征值以判断出该影像数据中的一特定区域,并对该影像数据进行处理以强调该特定区域。2.根据权利要求1所述之系统芯片,另包含有:一语音活性侦测电路,用以根据该多个声音讯号的至少一部份声音讯号来判断该至少一部份声音讯号是否包含有语音成分;其中该处理电路根据该至少一部份声音讯号是否包含有语音成分来决定是否根据该辨识结果以及该主要声音的该声音特征值以判断出该影像数据中的该特定区域,并对该影像数据进行处理以强调该特定区域。3.根据权利要求2所述之系统芯片,其中当该语音活性侦测电路指出该至少一部份声音讯号包含有语音成分时,该处理电路才会根据该辨识结果以及该主要声音的该声音特征值以判断出该影像数据中的该特定区域,并对该影像数据进行处理以强调该特定区域。4.根据权利要求1所述之系统芯片,其中该辨识结果包含多个区域,而每一个区域包含了一人物;以及该处理电路用以根据该主要声音的该声音特征值以自该多个区域中选择一区域以作为该特定区域。5.根据权利要求4所述之系统芯片,其中该辨识结果另包含了分别对应于该多个区域的多个特征值,且该处理电路追踪该特定区域的该特征值以判断出该特定区域在后续影像数据中的位置,并对该后续影像数据...

【专利技术属性】
技术研发人员:陈庆隆郑家钧
申请(专利权)人:瑞昱半导体股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1