语音响应时间的识别方法及装置制造方法及图纸

技术编号：35586066 阅读：33 留言：0更新日期：2022-11-16 15:00

本申请公开了一种语音响应时间的识别方法及装置。应用于语音识别技术领域。其中，该方法包括：获取对目标设备的显示屏幕进行录制所得到的目标视频，其中，目标视频包括对目标设备输入目标语音指令时显示屏幕上显示的画面；对目标视频中的帧图像进行字符识别，得到第一信息中的首字符出现的第一帧图像，以及第一信息中的尾字符出现的第二帧图像，其中，第一信息是目标设备对目标语音指令进行语音识别所得到的、且显示在显示屏幕上的部分或全部信息；根据第一帧图像对应的第一时间戳和第二帧图像对应的第二时间戳，确定目标设备的语音响应时间。本发明专利技术解决了相关技术中的语音响应时间的识别效率较低的技术问题。间的识别效率较低的技术问题。间的识别效率较低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
语音响应时间的识别方法及装置

[0001]本专利技术涉及计算机领域，具体而言，涉及一种语音响应时间的识别方法及装置。

技术介绍

[0002]相关技术中通常将语音响应时间作为衡量语音识别质量关键指标之一，语音响应时间通常是指发出语音指令到语音指令识别出来的时长，可以通过被识别出的语音指令对应的首字符和尾字符在电子设备的屏幕显示的时刻来确定语音响应时间。目前，当需要对语音响应时间进行对比分析时，通常需要录制多个视频，然后对上述视频通过人工逐帧分析，并记录语音指令对应的首字符和尾字符对应的时间点的方式来分析响应速度。然而，上述方式会导致语音响应时间的识别效率较低。
[0003]针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

[0004]本专利技术实施例提供了一种语音响应时间的识别方法及装置，以至少解决相关技术中的语音响应时间的识别效率较低的技术问题。
[0005]根据本专利技术实施例的一个方面，提供了一种语音响应时间的识别方法，包括：获取对目标设备的显示屏幕进行录制所得到的目标视频，其中，上述目标视频包括对上述目标设备输入目标语音指令时上述显示屏幕上显示的画面；对上述目标视频中的帧图像进行字符识别，得到第一信息中的首字符出现的第一帧图像，以及上述第一信息中的尾字符出现的第二帧图像，其中，上述第一信息是上述目标设备对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的部分或全部信息；上述第一信息与第二信息相同，上述第二信息为所述目标语音指令所表示的信息；确定上述第一帧图像...

【技术保护点】

【技术特征摘要】
1.一种语音响应时间的识别方法，其特征在于，包括：获取对目标设备的显示屏幕进行录制所得到的目标视频，其中，所述目标视频包括对所述目标设备输入目标语音指令时所述显示屏幕上显示的画面；对所述目标视频中的帧图像进行字符识别，得到第一信息中的首字符出现的第一帧图像，以及所述第一信息中的尾字符出现的第二帧图像，其中，所述第一信息是所述目标设备对所述目标语音指令进行语音识别所得到的、且显示在所述显示屏幕上的部分或全部信息，所述第一信息与第二信息相同，所述第二信息为所述目标语音指令所表示的信息；确定所述第一帧图像对应的第一时间戳和所述第二帧图像对应的第二时间戳，其中，所述第一时间戳和所述第二时间戳用于确定所述目标设备的语音响应时间。2.根据权利要求1所述的方法，其特征在于，所述对所述目标视频中的帧图像进行字符识别，得到第一信息中的首字符出现的第一帧图像，以及所述第一信息中的尾字符出现的第二帧图像，包括：对所述目标视频中的帧图像中预设的目标展示区域进行字符识别，分别识别到所述首字符和所述尾字符，并确定所述首字符出现的所述第一帧图像以及所述尾字符出现的所述第二帧图像，其中，所述目标展示区域为展示所述第一信息的区域。3.根据权利要求2所述的方法，其特征在于，所述对所述目标视频中的帧图像中预设的目标展示区域进行字符识别，分别识别到所述首字符和所述尾字符，并确定所述首字符出现的所述第一帧图像以及所述尾字符出现的所述第二帧图像之前，所述方法还包括：确定所述目标设备中的预设区域，其中，所述预设区域用于显示所述目标设备对输入的语音指令进行语音识别得到的信息；将所述预设区域确定为所述目标展示区域。4.根据权利要求1所述的方法，其特征在于，所述对所述目标视频中的帧图像进行字符识别，得到第一信息中的首字符出现的第一帧图像，包括：在所述识别到的字符包括所述第二信息中的首字符、且当前帧图像之前的帧图像中未识别到所述第二信息中的首字符时，将所述识别到的字符中与所述第二信息中的首字符相同的字符确定为所述第一信息中的首字符，并将所述当前帧图像确定为所述第一帧图像。5.根据权利要求1所述的方法，其特征在于，所述对所述目标视频中的帧图像进行字符识别，得到第一信息中的尾字符出现的第二帧图像，包括：在所述识别到的字符包括所述第二信息、且当前帧图像之前的帧图像中未识别到所述第二信息中的尾字符时，将所述识别到的...

【专利技术属性】
技术研发人员：陈姿，
申请(专利权)人：腾讯科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人