数据处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号：24173646 阅读：21 留言：0更新日期：2020-05-16 03:49

本发明专利技术公开了一种数据处理方法、装置、电子设备和存储介质。其中，方法包括：获取待处理的语音数据，对所述语音数据进行文本识别，获得识别文本；基于第一预设策略，确定所述识别文本中的至少一个待注释词；基于第二预设策略，确定所述至少一个待注释词中每个待注释词对应的注释文本，得到至少一个注释文本；针对所述至少一个待注释词中的每个待注释词，在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本，得到更新后的识别文本；更新后的识别文本用于在播放所述语音数据时进行呈现。

Data processing methods, devices, electronic equipment and storage media

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、电子设备和存储介质
本专利技术涉及同声传译技术，具体涉及一种数据处理方法、装置、电子设备和存储介质。
技术介绍
机器同传翻译系统是指利用自动语音识别(ASR，AutomaticSpeechRecognition)技术对同传会议的演讲者的演讲内容进行自动识别，将演讲内容从语音数据转换为文本数据；再利用机器翻译(MT，MachineTranslation)技术对文本数据进行翻译，将演讲内容转换为目标语言文本，并将翻译的结果展示给用户。随着自动语音识别技术与机器翻译技术的显著发展，机器同传翻译系统已达到实用阶段，且与人工同传的差距越来越小。然而，相关机器同传翻译系统中，展示给用户的数据不能辅助用户更好地理解演讲者的演讲内容。
技术实现思路
为解决相关技术问题，本专利技术实施例提供一种数据处理方法、装置、电子设备和存储介质。本专利技术实施例的技术方案是这样实现的：本专利技术实施例提供了一种数据处理方法，包括：获取待处理的语音数据，对所述语音数据进行文本识别，获得识别文本；基于第一预设策略，确定所述识别文本中的至少一个待注释词；基于第二预设策略，确定所述至少一个待注释词中每个待注释词对应的注释文本，得到至少一个注释文本；针对所述至少一个待注释词中的每个待注释词，在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本，得到更新后的识别文本；更新后的识别文本用于在播放所述语音数据时进行呈现。上述方案中，...

【技术保护点】
1.一种数据处理方法，其特征在于，包括：/n获取待处理的语音数据，对所述语音数据进行文本识别，获得识别文本；/n基于第一预设策略，确定所述识别文本中的至少一个待注释词；/n基于第二预设策略，确定所述至少一个待注释词中每个待注释词对应的注释文本，得到至少一个注释文本；/n针对所述至少一个待注释词中的每个待注释词，在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本，得到更新后的识别文本；更新后的识别文本用于在播放所述语音数据时进行呈现。/n

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：
获取待处理的语音数据，对所述语音数据进行文本识别，获得识别文本；
基于第一预设策略，确定所述识别文本中的至少一个待注释词；
基于第二预设策略，确定所述至少一个待注释词中每个待注释词对应的注释文本，得到至少一个注释文本；
针对所述至少一个待注释词中的每个待注释词，在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本，得到更新后的识别文本；更新后的识别文本用于在播放所述语音数据时进行呈现。

2.根据权利要求1所述的方法，其特征在于，所述基于第一预设策略，确定所述识别文本中的至少一个待注释词，包括：
对所述识别文本进行语义分析，得到所述识别文本的语境；
基于所述识别文本的语境，结合预设算法模型，确定所述识别文本中的至少一个待注释词。

3.根据权利要求1所述的方法，其特征在于，所述基于第二预设策略，确定所述至少一个待注释词中每个待注释词对应的注释文本，包括：
针对所述至少一个待注释词中的每个待注释词，基于第一信息库，确定相应待注释词对应的注释文本；所述第一信息库存储有至少一个词语以及所述词语对应的注释信息。

4.根据权利要求3所述的方法，其特征在于，所述基于第一信息库，确定相应待注释词对应的注释文本，包括：
针对所述至少一个词语中的每个词语，确定相应词语与所述相应待注释词的语义匹配度；并确定所述相应词语对应的注释信息与所述识别文本的语境匹配度；
将所述语义匹配度和所述语境匹配度满足预设条件的所述相应词语对应的注释信息确定为所述相应待注释词对应的注释文本。

5.根据权利要求4所述的方法，其特征在于，将所述语义匹配度和所述语境匹配度满足预设条件的所述相应词语对应的注释信息确定为所述相应待注释词对应的注释文本，包括以下之一：
将所述语义匹配度大于或等于第一阈值，且所述语境匹配度大于或等于第二阈值...

【专利技术属性】
技术研发人员：郝杰，
申请(专利权)人：北京欧珀通信有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人