【技术实现步骤摘要】
本公开涉及计算机,特别是涉及一种解码方法、目标文本识别方法及装置。
技术介绍
1、端到端(end-to-end)模型能够针对输入直接得到对应的输出。
2、端到端模型的应用场景可以包括但不限于语音识别、光学字符识别。其中,语音识别是指识语音所对应的文本,光学字符识别是指识别图像中所包含的文本。
3、以语音识别场景为例,随着智能设备的普及,通过语音与设备进行交互的方式逐渐流行了起来,从“hi siri”到“小爱同学”,生活中几乎都能看到语音交互的身影。语音交互背后的技术主要包括三个部分:语音活动检测((voice activity detection,vad)、语音唤醒(kws,keyword spotting,)、语音识别(automatic speech recognition,asr)。
4、vad和kws主要用于激活休眠中的设备。例如,对苹果设备说一声“hi siri”,然后得到回应“我在”,设备则激活并切换到asr阶段,此时用户说的任何内容都会被翻译成文字,进行后续处理。
5、在as
...【技术保护点】
1.一种解码方法,其特征在于,用于对端到端模型针对输入进行处理得到的第一分类结果进行解码,所述第一分类结果用于表征所述输入中不同时间步对应的字符为字符解空间中不同字符的概率值,所述解码方法包括:
2.根据权利要求1所述的解码方法,其特征在于,
3.根据权利要求1所述的解码方法,其特征在于,还包括:
4.根据权利要求3所述的解码方法,其特征在于,针对所述第二分类结果进行解码,得到多个字符序列以及所述字符序列的累计概率值,包括:
5.根据权利要求4所述的解码方法,其特征在于,所述目标字符包括空白字符,所述字符前缀的累计概率值
...【技术特征摘要】
1.一种解码方法,其特征在于,用于对端到端模型针对输入进行处理得到的第一分类结果进行解码,所述第一分类结果用于表征所述输入中不同时间步对应的字符为字符解空间中不同字符的概率值,所述解码方法包括:
2.根据权利要求1所述的解码方法,其特征在于,
3.根据权利要求1所述的解码方法,其特征在于,还包括:
4.根据权利要求3所述的解码方法,其特征在于,针对所述第二分类结果进行解码,得到多个字符序列以及所述字符序列的累计概率值,包括:
5.根据权利要求4所述的解码方法,其特征在于,所述目标字符包括空白字符,所述字符前缀的累计概率值包括第一累计概率值和第二累计概率值,所述第一累计概率值为所述字符前缀以空白字...
【专利技术属性】
技术研发人员:张奕豪,王靖淞,涂威威,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。