基于人工智能虚拟形象的互动服务方法及装置制造方法及图纸

技术编号:35176469 阅读:7 留言:0更新日期:2022-10-12 17:43
本发明专利技术一实施例的在包括无人信息终端和互动服务装置的系统中执行的基于人工智能虚拟形象(AI)的互动服务方法,其包括如下步骤:向互动服务装置传输从安装有无人信息终端的麦克风阵列收集的声音信号和从视觉传感器收集的影像信号;上述互动服务装置基于接收到的声音信号和影像信号来设定检测区域;上述互动服务装置基于在上述检测区域内收集的用户的语音信号和用户的影像信号来识别主动说话人员;上述互动服务装置生成针对识别到的主动说话人员的反应,对人工智能虚拟形象进行三维渲染后,向上述人工智能虚拟形象反映所生成的反应;以及上述互动服务装置向上述无人信息终端提供所渲染的人工智能虚拟形象。提供所渲染的人工智能虚拟形象。提供所渲染的人工智能虚拟形象。

【技术实现步骤摘要】
基于人工智能虚拟形象的互动服务方法及装置


[0001]本专利技术涉及基于虚拟形象的互动服务方法及装置。

技术介绍

[0002]虚拟形象(Avatar)为代表分身或化身的词,在虚拟空间中是指代替用户角色的动画卡通形象。
[0003]在现有的虚拟形象中,大部分属于二维图片。出现在网络游戏或网络聊天中的二维虚拟形象属于最基本的水平,为此,当前出现有用于解决缺少现实感及立体感问题的虚拟形象。
[0004]最近,随着人工智能技术及传感技术的发展,当前,针对与人自然交流沟通的人工智能虚拟形象技术的需求也不断增加。

技术实现思路

[0005]专利技术所要解决的问题
[0006]本专利技术的目的在于,提供能够与人自然交流沟通的基于人工智能虚拟形象的互动服务方法及装置。
[0007]用于解决问题的方案
[0008]用于实现上述目的的本专利技术一实施例的在包括无人信息终端和互动服务装置的系统中执行的基于人工智能虚拟形象(AI)的互动服务方法的特征在于,包括如下步骤:向互动服务装置传输从安装有上述无人信息终端的麦克风阵列收集的声音信号和从视觉传感器收集的影像信号;上述互动服务装置基于接收到的声音信号和影像信号来设定检测区域;上述互动服务装置基于在上述检测区域内收集的用户的语音信号和用户的影像信号来识别主动说话人员;上述互动服务装置生成针对识别到的主动说话人员的反应,对人工智能虚拟形象进行三维渲染后,向上述人工智能虚拟形象反映所生成的反应;以及上述互动服务装置向上述无人信息终端提供所渲染的人工智能虚拟形象。
[0009]在一实施例中,本专利技术的特征在于,在设定上述检测区域的步骤中,上述互动服务装置基于接收到的声音信号并通过声源定位方法来推定声源方向,通过旁瓣信号对消(Sidelobe signal cancelling)方法限制来自侧面的声音输入,针对接收到的影像信号应用背景分离技术来限制识别到的对象之后的影像输入。
[0010]在一实施例中,本专利技术的特征在于,在识别上述主动说话人员的步骤中,针对上述检测区域内用户的影像信号,上述互动服务装置通过人脸识别方法来确定人的数量,当在检测区域内识别到多人时,通过声源位置推定方法、语音识别方法及嘴形识别方法中的一种以上的方法来将识别成说话人员的人选定为主动说话人员。
[0011]在一实施例中,本专利技术的特征在于,在向上述无人信息终端提供上述人工智能虚拟形象的步骤中,针对接收到的用户的影像信号,分析包括说话人员的脸部表情、姿势、手势、语气中的一种以上的信息来生成反应。
[0012]在一实施例中,本专利技术的特征在于,在向上述无人信息终端提供上述人工智能虚拟形象的步骤中,上述互动服务装置通过上述语音识别(ASR)、自然语言理解(NLU)及文本转语音(Text

to

Speech,TTS)中的一种以上来识别主动说话人员的语音。
[0013]在一实施例中,本专利技术的特征在于,上述互动服务装置对识别到的语音信息和非语音信息赋予加权值,当上述语音信息和非语音信息表示相同方向的结果或表示不同方向的结果时,上述互动服务装置对识别到的语音信息和非语音信息赋予互不相同的加权值。
[0014]在一实施例中,本专利技术的特征在于,在向上述无人信息终端提供上述人工智能虚拟形象的步骤中,通过从上述用户的语音或影像中分析脸部表情、手势、语气来识别用户的情绪状态并对应于所识别到的情绪状态来改变人工智能虚拟形象的表情、手势、语气或添加效果(effect)。
[0015]在本专利技术的再一实施例中,基于人工智能虚拟形象的互动服务装置的特征在于,包括:无人信息终端,安装有麦克风阵列及视觉传感器,从上述麦克风阵列收集声音信号并从视觉传感器收集影像信息;以及互动服务装置,接收上述声音信号和影像信号来设定检测区域,基于在上述检测区域内收集的用户的语音信号和用户的影像信号来识别主动说话人员,生成针对识别到的主动说话人员的反应,对人工智能虚拟形象进行三维渲染后,向上述无人信息终端提供在所渲染的人工智能虚拟形象反映上述反应的所渲染的人工智能虚拟形象。
[0016]专利技术效果
[0017]本专利技术一实施例可提供自动与用户进行对话并作出反应的基于人工智能虚拟形象的互动服务。
[0018]并且,本专利技术可提供在多个说话人员或噪音环境中寻找对话人员并作出响应的基于人工智能虚拟形象的互动服务。
附图说明
[0019]图1为示出本专利技术一实施例的网络环境结构的图。
[0020]图2为示出本专利技术一实施例的无人信息终端的结构的框图。
[0021]图3为示出本专利技术一实施例的互动服务装置的结构的框图。
[0022]图4为示出本专利技术一实施例的互动服务装置的控制部能够包括的结构要素的例的框图。
[0023]图5为示出本专利技术一实施例的互动服务装置的控制部所执行的方法的例的流程图。
[0024]图6为用于说明本专利技术一实施例的检测区域设定的图。
[0025]图7为用于说明本专利技术一实施例的基于虚拟形象的互动服务方法的客户接待领域实例的图。
[0026]图8为用于说明本专利技术一实施例的基于虚拟形象的互动服务方法的康复治疗领域实例的图。
具体实施方式
[0027]本专利技术可进行多种变更并具有多种实施例,将参照附图详细说明特定实施例。在
说明各个附图的过程中,将对于相似的结构要素赋予相似的附图标记。
[0028]“第一”、“第二”、“A”、“B”等术语仅用于说明多种结构要素,上述结构要素并不限定于上述术语。上述术语仅用于区分一个结构要素与其他结构要素。例如,在不脱离本专利技术的专利技术要求保护范围的情况下,第一结构要素可被命名为第二结构要素,与此类似地,第二结构要素也可被命名为第一结构要素。术语“和/或”包含多个相关记载项的组合或多个相关记载项目中的任一项。
[0029]在整个说明书及专利技术要求保护范围中,当提及一部分包括一结构要素时,除非存在特别相反的记载,否则意味着还可包括其他结构要素,而不是排除其他结构要素。
[0030]本专利技术一实施例的互动服务装置可在人(human)或人工智能系统(artificial intelligent system)之间实现虚拟代理(virtual agents),即,允许在两者之间起到相互作用的其他机制。
[0031]以下,参照附图说明本专利技术。
[0032]图1为示出本专利技术一实施例的网络环境结构的图。
[0033]图1的网络环境包括无人信息终端100及互动服务装置200。无人信息终端100提供“非会面(untact)”对话环境,即,没有会面接触的环境。通常,“非会面”是指没有人的直接接触,非会面互动环境是指没有人接触的环境。
[0034]无人信息终端100为通过通信网访问互动服务装置200的终端,例如,如自助服务机等的将要接收互动服务的用户能够使用的终端,可实现为通过有线通信网或无线通信网与互动服务装置200进行通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能虚拟形象的互动服务方法,上述方法在包括无人信息终端和互动服务装置的系统中执行,其特征在于,包括如下步骤:向互动服务装置传输从安装有上述无人信息终端的麦克风阵列收集的声音信号和从视觉传感器收集的影像信号;上述互动服务装置基于接收到的声音信号和影像信号来设定检测区域;上述互动服务装置基于在上述检测区域内收集的用户的语音信号和用户的影像信号来识别主动说话人员;上述互动服务装置生成针对识别到的主动说话人员的反应,对人工智能虚拟形象进行三维渲染后,向上述人工智能虚拟形象反映所生成的反应;以及上述互动服务装置向上述无人信息终端提供所渲染的人工智能虚拟形象。2.根据权利要求1所述的基于人工智能虚拟形象的互动服务方法,其特征在于,在设定上述检测区域的步骤中,上述互动服务装置基于接收到的声音信号并通过声源定位方法来推定声源方向,通过旁瓣信号对消方法限制来自侧面的声音输入,针对接收到的影像信号应用背景分离技术来限制识别到的对象之后的影像输入。3.根据权利要求1所述的基于人工智能虚拟形象的互动服务方法,其特征在于,在识别上述主动说话人员的步骤中,针对上述检测区域内用户的影像信号,上述互动服务装置通过人脸识别方法来确定人的数量,当在检测区域内识别到多人时,通过声源位置推定方法、语音识别方法及嘴形识别方法中的一种以上的方法来将识别成说话人员的人选定为主动说话人员。4.根据权利要求1所述的基于人工智能虚拟形象的互动服务方法,其特征在于,在向上述无人信息终端提供上述人工智能虚拟形象的步骤中,针对接收到的用户的影像信号,分析包括说话人员的脸部表情、姿势、手势、语气中的一种以上的信息来生成反应。5.根据权利要求4所述的基于人工智能虚拟形象的互动服务方法,其特征在于,在向上述无人信息终端提供上述人工智能虚拟形象的步骤中,上述互动服务装置通过上述语音识别、自然语言理解及文本转语音中的一种以上来识别主动说话人员的语音。6.根据权利要求5所述的基于人工智能虚拟形象的互动服务方法,其特征在于,在向上述无人信息终端提供上述人工智能虚拟形象的步骤中,上述互动服务装置对识别到的语音信息和非语音信息赋予加权值,当上述语音信息和非语音信息表示相同方向的结果或表示不同方向的结果时,上述互动服务装置对识别到的语音信息和非语音信息赋予互不相同的加权值。7.根据权利要求4所述的基于人工智能虚拟形象的互动服务方法,其特征在于,在向上述无人信息终端提供上述人工智能虚拟形象的步...

【专利技术属性】
技术研发人员:高汉锡裵正民米格尔
申请(专利权)人:迪姆实验室有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1