语音交互方法及电子设备技术

技术编号：40668224 阅读：3 留言：0更新日期：2024-03-18 19:03

本申请提供了一种语音交互的方法及电子设备，涉及语音交互领域。本申请提供一种语音交互的方法，包括：获取用户输入的语音数据和位姿数据，根据语音数据和位姿数据，可以确定目标置信度，根据目标置信度和目标阈值判断是否启动语音交互应用；在检测到需要更新目标阈值时，基于本次之前的目标置信度更新目标阈值，以供下一次判断是否启动语音交互应用。采用本申请中的方法，当用户发音不同、握持电子设备的姿势不同时，也可以按照用户的使用习惯，准确唤醒语音助手，减小免唤醒语音助手的使用姿势的限制，减小免唤醒语音交助手时出现误唤醒的概率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音交互，尤其涉及一种语音交互的方法及电子设备。

技术介绍

1、随着人工智能的不断发展，电子设备的语音助手为用户提供了更多的便利。例如，用户可以通过语音助手控制电子设备播放音乐、查询词条；也可以与语音助手进行对话、聊天。通常，用户通过语音助手控制电子设备时，需要通过固定的词语或通过按压预设的按键唤醒语音助手。为了使用户与语音助手之间的交互更加自然，电子设备识别到用户说话时与电子设备之间的姿势满足预设姿势，即可通过用户使用的命名语音与语音助手进行交互，无需通过固定的词语唤醒语音助手，使得语音助手可以与用户即问即答。

2、然而，由于用户间的差异，如发音不同、握持电子设备的姿势不同等，电子设备存在误唤醒语音助手的情况，或者，导致语音助手未被唤醒，影响用户的使用体验。

技术实现思路

1、为了解决上述技术问题，本申请提供一种语音交互的方法及电子设备，使得不同发音的用户或握持电子设备的姿势不同的用户在使用时，可以按照用户各自的使用习惯，准确唤醒语音助手，减小免唤醒语音助手的使用姿势的限制，减小免唤醒语音交助手时出现误唤醒的概率，提高了用户与语音助手交互的体验。

2、第一方面，本申请提供一种语音交互的方法，包括：获取用户第i次输入的语音数据和对应的电子设备的位姿数据，i为大于0的整数；根据第i次的语音数据、第i次的位姿数据以及预设的判决模型，确定第i次的目标置信度，目标置信度用于指示用户需要电子设备启动语音交互应用的概率；获取当前的目标阈值；根据第i次的目标置信

3、这样，电子设备可以根据存储的目标置信度更新目标阈值，使得判断是否启动语音助手的判断标准更加符合用户的使用的习惯，如握持姿态、发音；从而减小了免唤醒语音助手的使用限制，如无需用户嘴部与电子设备底部的麦克风之间形成的角度(即用户的嘴部与麦克风之间的连线与水平线之前的夹角)处于-45°～45°。另外，通过不断更新目标阈值的方式，也可以逐渐显小免唤醒语音助手的失败概率，提高唤醒的准确性，降低误唤醒的概率。

4、根据第一方面，目标置信度包括至少1个类别的判决置信度，每个类别的判决置信度是基于判决模型输出的置信度确定的；目标阈值包括：与每个类别的判决置信度对应的判决阈值。这样，目标置信度可以包括至少一个类别的判决置信度，多个类别的判决置信度提高了后续判断是否启动语助手的灵活性，同时，目标阈值包括与每个类别的判决置信度对应的判决阈值，即每个判决置信度有对应判决阈值，而不是采用统一的阈值，提高了后续唤醒语音助手的准确性。

5、根据第一方面，检测是否需要更新当前的目标阈值，包括：检测目标阈值中每个类别的判决阈值是否需要被更新；若检测到存在至少一个类别的判决阈值需要被更新，确定需要更新当前的目标阈值。这样，由于不是所有判决阈值均更新时才更新目标阈值，而是检测到存在任一判决阈值需要更新时，确定需要更新目标阈值，可以提高更新目标阈值的灵活性。

6、根据第一方面，检测目标阈值中每个类别的判决阈值是否需要被更新，包括：获取该类别的判决置信度与该类别的判决阈值之间的第一比较结果；根据第一比较结果，判断是否需要存储该类别的判决置信度；若检测到需要存储该类别的判决置信度，存储该类别的判决置信度；检测存储的该类别的判决置信度满足预设条件；若检测到存储的该类别的判决置信度满足预设条件，确定需要更新该类别的判决阈值；若检测到存储的该类别的判决置信度不满足预设条件，确定不需要更新该类别的判决阈值。这样，电子设备若新存储了该类别的判决置信度，使得存储的判决置信度的数量发生变化，通过对存储的该类别的判决置信度与预设条件的判断，可以及时确定出该类别的判决阈值是否需要更新。

7、根据第一方面，根据第一比较结果，判断是否需要存储该类别的判决置信度，包括：若第一比较结果指示该类别的判决置信度大于或等于该类别的判决阈值，或者，指示该类别的判决置信度小于该类别的判决阈值且该类别的判决置信度与该类别的判决阈值之间的差值小于或等于第一预设值，则确定需要存储该类别的判决置信度；若第一比较结果指示该类别的判决置信度小于该类别的判决阈值且该类别的判决置信度与该类别的判决阈值之间的差值大于第一预设值，则确定丢弃类别的判决置信度。这样，后续基于存储的判决置信度更新判决阈值时，由于存储的判决置信度包括不符合启动语音助手标准的判决置信度且该判决置信度与判决阈值相差不大(采用了反例，即不能启动语音助手的判决置信度)，可以避免每次更新后的判决阈值越来越大的问题，导致不能正常唤醒语音助手的问题。丢弃小于判决阈值且与判决阈值相差过大的判决置信度，减小存储无效数据的问题。

8、根据第一方面，存储该类别的判决置信度，包括：若第一比较结果指示该类别的判决置信度大于或等于该类别的判决阈值，将该类别的判决置信度存储至第一存储区域；若第一比较结果指示指示该类别的判决置信度小于该类别的判决阈值且该类别的判决置信度与该类别的判决阈值之间的差值小于或等于第一预设值，将该类别的判决置信度存储至第二存储区域。这样，分开存储满足不同情况的判决置信度，便于后续可以快速获取每种情况的判决置信度。

9、根据第一方面，检测到存储的该类别的判决置信度是否满足预设条件，包括：检测在第一存储区域中该类别的判决置信度的数目是否达到第二预设值；若达到，则确定检测到存储的该类别的判决置信度满足预设条件；若未达到，则确定检测到存储的判决置信度不满足预设条件。这样，通过设置第二预设值，可以灵活调整更新该类别的判决阈值的更新周期，例如，第二预设值越小，更新该类别的判决阈值的周期越短。同时，基于第一存储区域中该类别的判决置信度得到数目进行判断，可以确保第一存储区域中该类别的判决置信度的数量至少为第二预设值。

10、根据第一方面，检测到存储的该类别的判决置信度是否满足预设条件，包括：获取第一存储区域中该类别的判决置信度的数目与第二存储区域中该类别的判决置信度的数目之和作为第一和值；检测第一和值是否达到第二预设值；若达到，则确定检测到存储的该类别的判决置信度满足预设条件；若未达到，则确定检测到存储的该类别的判决置信度不满足预设条件。这样，基于第一存储区域中该类别的判决置信度的数目和第二存储区域中该类别的判决置信度的数目与第二预设值进行比较，该方式可以确保存储的该类别的判决置信度的数目达到第二预设值，且可以缩短更新周期。

11、根据第一方面，当检测到电子设备需要更新当前的目标阈值时，根据本次的目标置信度和本次之前的至少n个目标置信度，更新目标阈值，以供下一次判断是否启动语音交互应用，包括：根据目标阈值中需要更新的判决阈值的类别，从第一存储区域和第二存储区域中获取类别的判决置信度；根据获取的类别的判决置信度，更新类别的判决阈值。这样，更新每个类别的判决本文档来自技高网...

【技术保护点】

1.一种语音交互的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述目标置信度包括至少1个类别的判决置信度，每个类别的判决置信度是基于所述判决模型输出的置信度确定的；

3.根据权利要求2所述的方法，其特征在于，检测是否需要更新当前的目标阈值，包括：

4.根据所述权利要求3所述的方法，其特征在于，所述检测所述目标阈值中每个类别的判决阈值是否需要被更新，包括：

5.根据权利要求4所述的方法，其特征在于，根据所述第一比较结果，判断是否需要存储所述类别的判决置信度，包括：

6.根据权利要求4或5所述的方法，其特征在于，所述存储所述类别的判决置信度，包括：

7.根据权利要求6所述的方法，其特征在于，所述检测到存储的所述类别的判决置信度是否满足预设条件，包括：

8.根据权利要求6所述的方法，其特征在于，检测到存储的所述类别的判决置信度是否满足预设条件，包括：

9.根据权利要求6所述的方法，其特征在于，当检测到所述电子设备需要更新当前的目标阈值时，根据本次的目标置信度和本次之前

10.根据权利要求9所述的方法，其特征在于，根据获取的所述类别的判决置信度，更新所述类别的判决阈值，包括：

11.根据权利要求10所述的方法，其特征在于，根据所述类别的第一记忆阈值、所述类别的第二记忆阈值以及所述类别的模型阈值，更新所述类别的判决阈值，包括：

12.根据权利要求10所述的方法，其特征在于，根据第一存储区域中所述类别的判决置信度，确定所述类别的第一记忆阈值，包括：

13.根据权利要求10所述的方法，其特征在于，根据所述第二存储区域中所述类别的判决置信度，确定第二记忆阈值，包括：

14.根据权利要求10所述的方法，其特征在于，根据所述类别的第一记忆阈值、所述类别的第二记忆阈值以及所述类别的模型阈值，更新所述类别的判决阈值，包括：

15.根据权利要求14所述的方法，其特征在于，若i等于1，获取当前每个类别的判决阈值，包括：

16.根据权利要求14所述的方法，其特征在于，获取所述类别的注册阈值，包括：

17.根据权利要求14所述的方法，其特征在于，所述方法还包括：

18.根据权利要求14至17中任一项所述的方法，其特征在于，所述方法还包括：

19.根据权利要求2所述的方法，其特征在于，根据第i次的语音数据、第i次的位姿数据以及预设的判决模型，确定第i次的目标置信度，包括：

20.一种电子设备，其特征在于，包括：

21.一种计算机可读存储介质，包括计算机程序，其特征在于，当所述计算机程序在电子设备上运行时，使得所述电子设备执行权利要求1至19中任意一项所述的语音交互的方法。

...

【技术特征摘要】

1.一种语音交互的方法，其特征在于，包括：

3.根据权利要求2所述的方法，其特征在于，检测是否需要更新当前的目标阈值，包括：

4.根据所述权利要求3所述的方法，其特征在于，所述检测所述目标阈值中每个类别的判决阈值是否需要被更新，包括：

5.根据权利要求4所述的方法，其特征在于，根据所述第一比较结果，判断是否需要存储所述类别的判决置信度，包括：

6.根据权利要求4或5所述的方法，其特征在于，所述存储所述类别的判决置信度，包括：

7.根据权利要求6所述的方法，其特征在于，所述检测到存储的所述类别的判决置信度是否满足预设条件，包括：

8.根据权利要求6所述的方法，其特征在于，检测到存储的所述类别的判决置信度是否满足预设条件，包括：

9.根据权利要求6所述的方法，其特征在于，当检测到所述电子设备需要更新当前的目标阈值时，根据本次的目标置信度和本次之前的至少n个目标置信度，更新所述目标阈值，以供下一次判断是否启动所述语音交互应用，包括：

10.根据权利要求9所述的方法，其特征在于，根据获取的所述类别的判决置信度，更新所述类别的判决阈值，包括：

11.根据权利要求10所述的方法，其特征在于，根据...

【专利技术属性】
技术研发人员：高飞，王志超，夏日升，
申请(专利权)人：荣耀终端有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人