跟踪显示方法及提词器、电子设备、存储介质技术

技术编号:34511081 阅读:51 留言:0更新日期:2022-08-13 20:56
本申请提供一种跟踪显示方法及提词器、电子设备、存储介质。解决了相关技术中提词器在工作过程中无法实现理想语音跟踪的技术问题。本申请提出的跟踪显示方法,适用于不同的语言及语境场景。通过判断确定对应的跟踪显示方案以及语言逻辑。具体采用定位与语音跟踪的方式,通过候选位置的筛选与相似度的比较方法实现语音跟踪。一方面令语音跟踪与定位的过程并不严格依赖于语音识别的效果。另一方面,在定位过程中是基于迭代的思路对可能的位置进行筛选并完成定位,其比较的对象不是待跟踪全部文本。进而缩短了处理时间,并可在语音识别错误以及用户口误的情况下,仍可根据用户的实际发言内容实现精准定位。从而实现快速而精准的语音跟踪。语音跟踪。语音跟踪。

【技术实现步骤摘要】
跟踪显示方法及提词器、电子设备、存储介质


[0001]本申请涉及电子设备
,具体而言,涉及跟踪显示方法及提词器、电子设备、存储介质。

技术介绍

[0002]在用户进行录播或直播的过程中需要电子设备辅助提示用户相关的目标文本,以实现提词功能的同时帮助用户顺利的进行工作。通常提词功能可以通过独立的电子设备实现如提词器,也可以通过电子设备中以应用程序的形式实现。
[0003]在用户使用提词功能的过程中,目标文本会实时显示在提词器的屏幕上供用户浏览,同时提词器会根据用户发言时的语音,在显示目标文本的过程中实时标记用户的当前发言位置,以便于用户获取下一刻所需的提示文本。进而在实现提词功能的同时进行语音跟踪。
[0004]然而,提词器在实现语音跟踪功能的过程中,通常采用自动语音识别(ASR)模型对目标文本进行语音识别。在语音识别的过程中,受限于ASR模型自身的识别误差,例如在用户在发言时存在语速变化、停顿发言或出现口误的场景下,会出现无法准确识别用户发言位置的问题,进而降低用户的使用体验。针对相关技术中,提词器在工作过程中无法实现理想语音跟踪的问题,尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了跟踪显示方法及提词器、电子设备、存储介质,以至少解决相关技术中无法实现理想语音跟踪的技术问题。
[0006]在本申请的一个实施例中,提出了一种跟踪显示方法,方法包括:根据用户当前时刻输入的语音数据得到识别文本,并确定识别文本中的初始位置;其中,初始位置为上一时刻进行语音跟踪所确定的文本位置。根据初始位置、预设的候选位置总数以及预设的文本长度,确定多个候选位置以及每个候选位置对应的候选文本片段;其中,候选位置总数用于指示候选位置的数量,文本长度用于指示每一候选文本片段的文本长度。将每个候选位置对应的候选文本片段与识别文本进行相似度匹配,确定文本匹配结果。根据文本匹配结果确定当前时刻的语音跟踪位置,以及将语音跟踪位置呈现在用户界面中。
[0007]在本申请的一个实施例中,在识别文本为第一语言类型的情况下,根据初始位置、预设的候选位置总数以及预设的文本长度,确定多个候选位置以及每个候选位置对应的候选文本片段,包括:根据候选位置总数选取候选字符集合,候选字符集合包括多个第一字符;其中,第一字符为初始位置之后的多个连续的字符,第一字符的数量与候选位置总数相等;每一第一字符分别对应一个候选位置。根据文本长度与第一字符确定候选文本片段;其中,候选文本片段包括文本长度对应数量的多个连续的字符;第一字符位于对应的候选文本片段的末位。
[0008]在本申请的一个实施例中,根据初始位置、预设的候选位置总数以及预设的文本
长度,确定多个候选位置以及每个候选位置对应的候选文本片段,包括:根据候选位置总数选取候选字符集合,候选字符集合包括多个第一字符与第二字符;其中,第一字符为初始位置之后的多个连续的字符,第二字符包括初始位置对应的字符以及初始位置之前的多个连续的字符,第一字符与第二字符的总数与候选位置总数相等;每一第一字符以及第二字符分别对应一个候选位置。根据文本长度与第一字符、第二字符确定候选文本片段;其中,候选文本片段包括文本长度对应数量的多个连续的字符;第一字符位于对应的候选文本片段的末位,第二字符位于对应的候选文本片段的末位。
[0009]在本申请的一个实施例中,将每个候选位置对应的候选文本片段与识别文本进行相似度匹配,确定文本匹配结果;包括:根据每个候选文本片段与识别文本之间的相似度,确定每个候选文本片段对应的第一文本匹配值。根据多个候选位置,确定每个候选文本片段对应的距离惩罚值,距离惩罚值用于表征候选位置与初始位置之间的文本距离。根据每个候选文本片段对应的第一文本匹配值与距离惩罚值,确定每个候选文本片段对应的第二文本匹配值。根据多个候选文本片段对应的第二文本匹配值,确定文本匹配结果。
[0010]在本申请的一个实施例中,用户界面显示有待跟踪文本,所语音跟踪位置为候选文本片段末端文本对应在待跟踪文本中的位置;将语音跟踪位置呈现在用户界面中,包括:将语音跟踪位置标记在待跟踪文本的显示跟踪位置,以及将显示跟踪位置呈现在用户界面中;其中,显示跟踪位置为语音跟踪位置之后的文本位置。
[0011]在本申请的一个实施例中,在识别文本为第二语言类型的情况下,根据初始位置、预设的候选位置总数以及预设的文本长度,确定多个候选位置以及每个候选位置对应的候选文本片段,包括:根据候选位置总数选取候选单词集合,候选单词集合包括多个第一单词;其中,第一单词为初始位置之后的多个连续的单词,第一单词的数量与候选位置总数相等;每一第一单词分别对应一个候选位置。根据文本长度与第一单词确定候选文本片段;其中,候选文本片段包括文本长度对应数量的多个连续的单词;第一单词位于对应的候选文本片段的末位。
[0012]在本申请的一个实施例中,根据初始位置、预设的候选位置总数以及预设的文本长度,确定多个候选位置以及每个候选位置对应的候选文本片段,包括:根据候选位置总数选取候选单词集合,候选单词集合包括多个第一单词与第二单词;其中,第一单词为初始位置之后的多个连续的单词,第二单词包括初始位置对应的单词以及初始位置之前的多个连续的单词,第一单词与第二单词的总数与候选位置总数相等;每一第一单词以及第二单词分别对应一个候选位置。根据文本长度与第一单词、第二单词确定候选文本片段;其中,候选文本片段包括文本长度对应数量的多个连续的单词;第一单词位于对应的候选文本片段的末位,第二单词位于对应的候选文本片段的末位。
[0013]在本申请的一个实施例中,将每个候选位置对应的候选文本片段与识别文本进行相似度匹配,确定文本匹配结果,包括:根据每个候选文本片段与识别文本之间的相似度,确定每个候选文本片段对应的第三文本匹配值。根据第三文本匹配值确定每个候选文本片段对应的第一比较值和第二比较值;第一比较值用于表征候选文本片段与识别文本同一位置的两个单词中每个字母位置对应的字母相同比例;第二比较值用于表征候选文本片段与识别文本同一位置的两个单词中相同字母占字母总数的比例。根据多个候选位置,确定每个候选文本片段对应的距离惩罚值,距离惩罚值用于表征候选位置与初始位置之间的文本
距离。根据每个候选文本片段对应的第一比较值、第二比较值与距离惩罚值,确定每个候选文本片段对应的第四文本匹配值。根据多个候选文本片段对应的第四文本匹配值,确定文本匹配结果。
[0014]在本申请的一个实施例中,还包括:识别文本为第一类语言类型时设定的候选位置总数小于识别文本为第二类语言类型或第一类语言与第二类语言混合类型时设定的候选位置总数。
[0015]在本申请的一个实施例中,确定识别文本中的初始位置之前,还包括:检测识别文本的语言类型,以使根据不同的语言类型确定对应不同的初始位置。
[0016]在本申请的一个实施例中,还提供了一种提词器,提词器包括:
[0017]ASR模块,ASR模块被配置为根据用户当前时刻输入的语音数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跟踪显示方法,其特征在于,方法包括:根据用户当前时刻输入的语音数据得到识别文本,并确定所述识别文本中的初始位置;其中,所述初始位置为上一时刻进行语音跟踪所确定的文本位置;根据所述初始位置、预设的候选位置总数以及预设的文本长度,确定多个候选位置以及每个所述候选位置对应的候选文本片段;其中,所述候选位置总数用于指示候选位置的数量,所述文本长度用于指示每一候选文本片段的文本长度;将每个所述候选位置对应的所述候选文本片段与所述识别文本进行相似度匹配,确定文本匹配结果;根据所述文本匹配结果确定当前时刻的语音跟踪位置,以及将所述语音跟踪位置呈现在用户界面中。2.根据权利要求1所述的方法,其特征在于,在所述识别文本为第一语言类型的情况下,根据所述初始位置、预设的候选位置总数以及预设的文本长度,确定多个候选位置以及每个所述候选位置对应的候选文本片段,包括:根据所述候选位置总数选取候选字符集合,所述候选字符集合包括多个第一字符;其中,所述第一字符为所述初始位置之后的多个连续的字符,所述第一字符的数量与所述候选位置总数相等;每一所述第一字符分别对应一个所述候选位置;根据所述文本长度与所述第一字符确定所述候选文本片段;其中,所述候选文本片段包括所述文本长度对应数量的多个连续的字符;所述第一字符位于对应的所述候选文本片段的末位。3.根据权利要求1所述的方法,其特征在于,根据所述初始位置、预设的候选位置总数以及预设的文本长度,确定多个候选位置以及每个所述候选位置对应的候选文本片段,包括:根据所述候选位置总数选取候选字符集合,所述候选字符集合包括多个第一字符与第二字符;其中,所述第一字符为所述初始位置之后的多个连续的字符,所述第二字符包括所述初始位置对应的字符以及所述初始位置之前的多个连续的字符,所述第一字符与所述第二字符的总数与所述候选位置总数相等;每一所述第一字符以及所述第二字符分别对应一个所述候选位置;根据所述文本长度与所述第一字符、所述第二字符确定所述候选文本片段;其中,所述候选文本片段包括所述文本长度对应数量的多个连续的字符;所述第一字符位于对应的所述候选文本片段的末位,所述第二字符位于对应的所述候选文本片段的末位。4.根据权利要求2或3所述的方法,其特征在于,将每个所述候选位置对应的所述候选文本片段与所述识别文本进行相似度匹配,确定文本匹配结果;包括:根据每个所述候选文本片段与所述识别文本之间的相似度,确定每个所述候选文本片段对应的第一文本匹配值;根据多个所述候选位置,确定每个所述候选文本片段对应的距离惩罚值,所述距离惩罚值用于表征所述候选位置与所述初始位置之间的文本距离;根据每个所述候选文本片段对应的所述第一文本匹配值与所述距离惩罚值,确定每个所述候选文本片段对应的第二文本匹配值;根据多个所述候选文本片段对应的所述第二文本匹配值,确定所述文本匹配结果。
5.根据权利要求1所述的方法,其特征在于,所述用户界面显示有待跟踪文本,所语音跟踪位置为所述候选文本片段末端文本对应在所述待跟踪文本中的位置;所述将所述语音跟踪位置呈现在用户界面中,包括:将所述语音跟踪位置标记在所述待跟踪文本的显示跟踪位置,以及将所述显示跟踪位置呈现在所述用户界面中;其中,所述显示跟踪位置为所述语音跟踪位置之后的文本位置。6.根据权利要求1所述的方法,其特征在于,在所述识别文本为第二语言类型的情况下,根据所述初始位置、预设的候选位置总数以及预设的文本长度,确定多个候选位置以及每个所述候选位置对应的候选文本片段,包括:根据所述候选位置总数选取候选单词集合,所述候选单词集合包括多个第一单词;其中,所述第一单词为所述初始位置之后的多个连续的单词,所述第一单词的数量与所述候选位置总数相等;每一所述第一单词分别对应一个所述候选位置;根据所述文本长度与所述第一单词确定所述候选文本片段;其中,所述候选文本片段包括所述文本长度对应数量的多个连续的单词;所述第一单词位于对应的所述...

【专利技术属性】
技术研发人员:司马华鹏李慧水汤毅平汪成张亚萍
申请(专利权)人:南京硅基智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1