基于语音模糊匹配和置信区间的阅读进度估计制造技术

技术编号:28447590 阅读:27 留言:0更新日期:2021-05-15 21:08
本公开提供了一种技术,该技术用于增强计算设备在正被大声阅读文本源时检测文本源中的当前读取位置的能力。示例方法包括确定文本源的音位数据,该文本源包括字词序列;接收包括与文本源相关联的口头字词的音频数据;由处理设备将文本源的音位数据与音频数据的音位数据进行比较;以及基于比较音位数据来标识字词序列中的位置。词序列中的位置。词序列中的位置。

【技术实现步骤摘要】
【国外来华专利技术】基于语音模糊匹配和置信区间的阅读进度估计


[0001]本公开涉及基于计算机的人类话音识别领域,并且特别地涉及增强当用户大声阅读文本源时计算机设备标识文本源中的阅读位置的能力。

技术介绍

[0002]虚拟助理的能力和使用正在迅速扩展。传统的虚拟助理包括一些形式的计算机人机界面,其使人类能够与虚拟助理进行交互并使虚拟助理执行任务或服务。虚拟助理通常会记录并理解人类话音,并且可以通过合成答复来进行响应。虚拟助理可以响应于基于触摸或手势的命令来发起,或者可以连续地分析其环境以检测口头命令。当检测到该命令时,虚拟助理可以响应或执行一个或多个动作。

技术实现思路

[0003]下文是本公开的简化
技术实现思路
以便提供对本公开的一些方面的基本理解。此
技术实现思路
不是本公开的广泛概要。它既不旨在标识本公开的关键或决定性元素,也不旨在划定本公开的特定实施方式的任何范围或权利要求的任何范围。其唯一目的是为了以简化形式呈现本公开的一些构思作为稍后呈现的更详细描述的序言。
[0004]在本公开的第一方面,提供了一种方法。该方法可以包括确定(例如,计本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:确定文本源的音位数据,所述文本源包括字词序列;接收音频数据,所述音频数据包括与所述文本源相关联的口头字词;由处理设备比较所述文本源的所述音位数据和所述音频数据的音位数据;以及基于所述音位数据的比较来标识所述字词序列中的位置。2.根据权利要求1所述的方法,其中,所述文本源是书,并且所述位置是所述书中的当前阅读位置。3.根据权利要求1或者2所述的方法,其中,所述文本源的所述音位数据包括所述字词序列的音素编码,所述音素编码包括音素值的一个或多个序列。4.根据权利要求1至3中的任一项所述的方法,其中,比较音位数据包括计算所述音频数据的音位数据和所述文本源的音位数据之间的音位编辑距离。5.根据权利要求1至4中的任一项所述的方法,其中,比较音位数据包括计算表示音素值的两个或更多个序列之间的相似度的数值。6.根据权利要求1至5中的任一项所述的方法,其中,比较音位数据包括在与所述音频数据对应的音位数据与所述文本源的音位数据之间执行模糊匹配。7.根据权利要求1至6中的任一项所述的方法,其中,所述比较包括在没有使用话音识别将所述音频数据转换为文本的情况下比较所述音频数据和所述文本源。8.根据权利要求1至7中的任一项所述的方法,其中,标识所述字词序列中的位置包括:基于所述文本源的音位数据,确定所述口头字词与所述字词序列中的字词匹配;以及基于所述文本源的所述音位数据选择所述字词的位置。9.根据权利要求1至8中的任一项所述的方法,进一步包括:访问所述文本源的文本数据;基于所述文本数据生成所述音位数据;以及将所述音位数据与所述文本源相关联。10.一种包括处理设备的系统,所述处理设备被配置成:确定文本源的音位数据,所述文本源包括字词序列;接收包括与所述文本源相关联的口头字词的音频数据;比较所述文本源的所...

【专利技术属性】
技术研发人员:柴塔尼亚
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1