解码方法、目标文本识别方法及装置制造方法及图纸

技术编号：41334809 阅读：23 留言：0更新日期：2024-05-20 09:54

本公开涉及一种解码方法、目标文本识别方法及装置，用于对端到端模型针对输入进行处理得到的第一分类结果进行解码，第一分类结果用于表征输入中不同时间步对应的字符为字符解空间中不同字符的概率值。解码方法包括：仅保留第一分类结果中属于目标字符的概率值，得到第二分类结果，目标字符包括目标文本集中出现的字符，目标文本集包括至少一条目标文本；针对第二分类结果进行解码，得到多个字符序列以及字符序列的累计概率值；基于累计概率值从多个字符序列中选取目标字符序列。由此，可以提升目标文本的命中率。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机，特别是涉及一种解码方法、目标文本识别方法及装置。

技术介绍

1、端到端(end-to-end)模型能够针对输入直接得到对应的输出。

2、端到端模型的应用场景可以包括但不限于语音识别、光学字符识别。其中，语音识别是指识语音所对应的文本，光学字符识别是指识别图像中所包含的文本。

3、以语音识别场景为例，随着智能设备的普及，通过语音与设备进行交互的方式逐渐流行了起来，从“hi siri”到“小爱同学”，生活中几乎都能看到语音交互的身影。语音交互背后的技术主要包括三个部分：语音活动检测((voice activity detection，vad)、语音唤醒(kws，keyword spotting,)、语音识别(automatic speech recognition，asr)。

4、vad和kws主要用于激活休眠中的设备。例如，对苹果设备说一声“hi siri”，然后得到回应“我在”，设备则激活并切换到asr阶段，此时用户说的任何内容都会被翻译成文字，进行后续处理。

5、在as...

【技术保护点】

1.一种解码方法，其特征在于，用于对端到端模型针对输入进行处理得到的第一分类结果进行解码，所述第一分类结果用于表征所述输入中不同时间步对应的字符为字符解空间中不同字符的概率值，所述解码方法包括：

2.根据权利要求1所述的解码方法，其特征在于，

3.根据权利要求1所述的解码方法，其特征在于，还包括：

4.根据权利要求3所述的解码方法，其特征在于，针对所述第二分类结果进行解码，得到多个字符序列以及所述字符序列的累计概率值，包括：

5.根据权利要求4所述的解码方法，其特征在于，所述目标字符包括空白字符，所述字符前缀的累计概率值包括第一累计概率值和...

【技术特征摘要】

2.根据权利要求1所述的解码方法，其特征在于，

3.根据权利要求1所述的解码方法，其特征在于，还包括：

4.根据权利要求3所述的解码方法，其特征在于，针对所述第二分类结果进行解码，得到多个字符序列以及所述字符序列的累计概率值，包括：

5.根据权利要求4所述的解码方法，其特征在于，所述目标字符包括空白字符，所述字符前缀的累计概率值包括第一累计概率值和第二累计概率值，所述第一累计概率值为所述字符前缀以空白字...

【专利技术属性】
技术研发人员：张奕豪，王靖淞，涂威威，
申请(专利权)人：第四范式北京技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人