显示设备、语音识别方法、装置及存储介质制造方法及图纸

技术编号：40876491 阅读：4 留言：0更新日期：2024-04-08 16:45

本申请实施例涉及显示技术领域，公开了一种显示设备、语音识别方法、装置及存储介质，该显示设备包括：声音采集器，被配置为接收用户输入的语音指令；控制器，被配置为：响应于语音指令，获取屏幕截图；对屏幕截图进行图像识别和拼音转换，得到第一映射数据；对语音指令进行语音识别，得到第一语音识别结果，第一语音识别结果包括第二关键词；在第一映射数据中存在目标拼音的情况下，将第一语音识别结果中的第二关键词替换为目标拼音对应的目标关键词，得到第二语音识别结果，其中，目标拼音为至少一个第一拼音中与第二关键词对应的第二拼音匹配的拼音。应用本申请的技术方案，能够提供语音识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及显示，具体涉及一种显示设备、语音识别方法、装置及存储介质。

技术介绍

1、随着语音识别技术的发展，语音交互的应用场景越来越普遍。例如，在使用智能电视的过程中，用户可以通过智能电视的语音助手输入语音指令，使得智能电视对语音指令进行识别和分析，以识别语音指令对应的搜索结果，并向用户展示搜索结果。

2、然而，在语音识别的过程中，由于文字与拼音之间不是一一对应的关系，容易导致同音字识别混淆，影响语音识别的准确性。因此，语音识别的准确性有待提高。

技术实现思路

1、鉴于上述问题，本申请实施例提供了一种显示设备、语音识别方法、装置及存储介质，用于解决现有技术中语音识别的准确性较低的问题。

2、为达到上述目的，本申请的实施例采用如下技术方案：

3、根据本申请实施例的第一方面，提供了一种显示设备，包括：声音采集器，被配置为接收用户输入的语音指令；与声音采集器耦接的控制器，被配置为：响应于语音指令，获取屏幕截图；对屏幕截图进行图像识别和拼音转换，得到第一映射数据，第一映射数据包括至少一个第一关键词和至少一个第一拼音，一个第一拼音对应一个第一关键词；对语音指令进行语音识别，得到第一语音识别结果，第一语音识别结果包括第二关键词；在第一映射数据中存在目标拼音的情况下，将第一语音识别结果中的第二关键词替换为目标拼音对应的目标关键词，得到第二语音识别结果，其中，目标拼音为至少一个第一拼音中与第二关键词对应的第二拼音匹配的拼音。

4、在一种可选的方

5、在一种可选的方式中，控制器，具体被配置为：对屏幕截图进行特征提取，得到屏幕截图对应的图像特征；基于文字检测算法，对屏幕截图对应的图像特征进行文本检测，确定屏幕截图中的至少一个文本区域；基于文字识别算法，对屏幕截图中的至少一个文本区域进行文字识别，得到至少一个第一关键词；对至少一个第一关键词进行拼音转换，得到至少一个第一关键词对应的至少一个第一拼音。

6、在一种可选的方式中，控制器，具体被配置为：对语音指令进行特征提取，得到音频特征；通过目标声学模型和目标语言模型对音频特征进行处理，得到第一语音识别结果。

7、在一种可选的方式中，控制器，还被配置为：对第一语音识别结果进行分词处理，得到第二关键词；对第二关键词进行拼音转换，得到第二关键词对应的第二拼音。

8、在一种可选的方式中，显示设备还包括显示器，控制器，还被配置为：根据第二语音识别结果，确定第二语音识别结果对应的多媒体资源；控制显示器显示第二语音识别结果对应的多媒体资源。

9、在一种可选的方式中，显示设备还包括显示器，控制器，还被配置为：在第一映射数据中不存在目标拼音的情况下，根据第一语音识别结果，确定第一语音识别结果对应的多媒体资源；控制显示器显示第一语音识别结果对应的多媒体资源。

10、根据本申请实施例的第二方面，提供了一种语音识别方法，应用于本申请实施例第一方面所述的显示设备，该方法包括：响应于语音指令，获取屏幕截图；对屏幕截图进行图像识别和拼音转换，得到第一映射数据，第一映射数据包括至少一个第一关键词和至少一个第一拼音，一个第一拼音对应一个第一关键词；对语音指令进行语音识别，得到第一语音识别结果，第一语音识别结果包括第二关键词；在第一映射数据中存在目标拼音的情况下，将第一语音识别结果中的第二关键词替换为目标拼音对应的目标关键词，得到第二语音识别结果，其中，目标拼音为至少一个第一拼音中与第二关键词对应的第二拼音匹配的拼音。

11、在一种可选的方式中，第一关键词包括多个第一文字，第一拼音包括按照第一顺序排列的多个第三拼音，多个第三拼音分别与多个第一文字一一对应，第一顺序为多个第一文字在第一关键词中的位置指示的顺序；第二关键词包括多个第二文字，第二拼音包括按照第二顺序排列的多个第四拼音，多个第四拼音与多个第二文字一一对应，第二顺序为多个第二文字在第二关键词中的位置指示的顺序；在第一映射数据中存在目标拼音的情况下，将第一语音识别结果中的第二关键词替换为目标拼音对应的目标关键词之前，该方法还包括：在第一映射数据中存在与多个第四拼音对应的多个第三拼音，且与多个第三拼音的排序与多个第四拼音的排序一致的情况下，确定第一映射数据中存在目标拼音，且目标拼音包括与多个第四拼音对应的多个第三拼音。

12、在一种可选的方式中，对屏幕截图进行图像识别和拼音转换，得到第一映射数据，包括：对屏幕截图进行特征提取，得到屏幕截图对应的图像特征；基于文字检测算法，对屏幕截图对应的图像特征进行文本检测，确定屏幕截图中的至少一个文本区域；基于文字识别算法，对屏幕截图中的至少一个文本区域进行文字识别，得到至少一个第一关键词；对至少一个第一关键词进行拼音转换，得到至少一个第一关键词对应的至少一个第一拼音。

13、在一种可选的方式中，对语音指令进行语音识别，得到第一语音识别结果，包括：对所述语音指令进行特征提取，得到音频特征；通过目标声学模型和目标语言模型对所述音频特征进行处理，得到所述第一语音识别结果。

14、在一种可选的方式中，在对语音指令进行语音识别，得到第一语音识别结果之后，该方法还包括：对第一语音识别结果进行分词处理，得到第二关键词；对第二关键词进行拼音转换，得到第二关键词对应的第二拼音。

15、在一种可选的方式中，在将第一语音识别结果中的第二关键词替换为目标拼音对应的目标关键词，得到第二语音识别结果之后，该方法还包括：根据第二语音识别结果，确定第二语音识别结果对应的多媒体资源；控制显示器显示第二语音识别结果对应的多媒体资源。

16、在一种可选的方式中，在对语音指令进行语音识别，得到第一语音识别结果之后，该方法还包括：在第一映射数据中不存在目标拼音的情况下，根据第一语音识别结果，确定第一语音识别结果对应的多媒体资源；控制显示器显示第一语音识别结果对应的多媒体资源。

17、根据本申请实施例的第三方面，提供了一种语音识别装置，该装置包括：获取模块，用于响应于语音指令，获取屏幕截图；处理模块，用于对屏幕截图进行图像识别和拼音转换，得到第一映射数据，第一映射数据包括至少一个第一关键词和至少一个第一拼音，一个第一拼音对应一个第一关键词；语音识别模块，用于对语音指令进行语音识别，得到第一语音识别结果，第一语音识别结果包括第二关键词本文档来自技高网...

【技术保护点】

1.一种显示设备，其特征在于，包括：

2.根据权利要求1所述的显示设备，其特征在于，所述第一关键词包括多个第一文字，所述第一拼音包括按照第一顺序排列的多个第三拼音，所述多个第三拼音分别与所述多个第一文字一一对应，所述第一顺序为所述多个第一文字在所述第一关键词中的位置指示的顺序；

3.根据权利要求1所述的显示设备，其特征在于，所述控制器，具体被配置为：

4.根据权利要求1所述的显示设备，其特征在于，所述控制器，具体被配置为：

5.根据权利要求1所述的显示设备，其特征在于，所述控制器，还被配置为：

6.根据权利要求1-5中任一项所述的显示设备，其特征在于，所述显示设备还包括显示器，所述控制器，还被配置为：

7.根据权利要求1-5中任一项所述的显示设备，其特征在于，所述显示设备还包括显示器，所述控制器，还被配置为：

8.一种语音识别方法，其特征在于，应用于显示设备，所述方法包括：

9.一种语音识别装置，其特征在于，应用于显示设备，所述装置包括：

10.一种计算机可读存储介质，其特

...

【技术特征摘要】

1.一种显示设备，其特征在于，包括：

3.根据权利要求1所述的显示设备，其特征在于，所述控制器，具体被配置为：

4.根据权利要求1所述的显示设备，其特征在于，所述控制器，具体被配置为：

5.根据权利要求1所述的显示设备，其特征在于，所述控制器，还被配置为：

6....

【专利技术属性】
技术研发人员：任晓楠，崔保磊，冯瑞平，张大钊，
申请(专利权)人：海信视像科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人