数据处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:24173646 阅读:21 留言:0更新日期:2020-05-16 03:49
本发明专利技术公开了一种数据处理方法、装置、电子设备和存储介质。其中,方法包括:获取待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;基于第一预设策略,确定所述识别文本中的至少一个待注释词;基于第二预设策略,确定所述至少一个待注释词中每个待注释词对应的注释文本,得到至少一个注释文本;针对所述至少一个待注释词中的每个待注释词,在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本,得到更新后的识别文本;更新后的识别文本用于在播放所述语音数据时进行呈现。

Data processing methods, devices, electronic equipment and storage media

【技术实现步骤摘要】
数据处理方法、装置、电子设备和存储介质
本专利技术涉及同声传译技术,具体涉及一种数据处理方法、装置、电子设备和存储介质。
技术介绍
机器同传翻译系统是指利用自动语音识别(ASR,AutomaticSpeechRecognition)技术对同传会议的演讲者的演讲内容进行自动识别,将演讲内容从语音数据转换为文本数据;再利用机器翻译(MT,MachineTranslation)技术对文本数据进行翻译,将演讲内容转换为目标语言文本,并将翻译的结果展示给用户。随着自动语音识别技术与机器翻译技术的显著发展,机器同传翻译系统已达到实用阶段,且与人工同传的差距越来越小。然而,相关机器同传翻译系统中,展示给用户的数据不能辅助用户更好地理解演讲者的演讲内容。
技术实现思路
为解决相关技术问题,本专利技术实施例提供一种数据处理方法、装置、电子设备和存储介质。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供了一种数据处理方法,包括:获取待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;基于第一预设策略,确定所述识别文本中的至少一个待注释词;基于第二预设策略,确定所述至少一个待注释词中每个待注释词对应的注释文本,得到至少一个注释文本;针对所述至少一个待注释词中的每个待注释词,在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本,得到更新后的识别文本;更新后的识别文本用于在播放所述语音数据时进行呈现。上述方案中,所述基于第一预设策略,确定所述识别文本中的至少一个待注释词,包括:对所述识别文本进行语义分析,得到所述识别文本的语境;基于所述识别文本的语境,结合预设算法模型,确定所述识别文本中的至少一个待注释词。上述方案中,所述基于第二预设策略,确定所述至少一个待注释词中每个待注释词对应的注释文本,包括:针对所述至少一个待注释词中的每个待注释词,基于第一信息库,确定相应待注释词对应的注释文本;所述第一信息库存储有至少一个词语以及所述词语对应的注释信息。上述方案中,所述基于第一信息库,确定相应待注释词对应的注释文本,包括:针对所述至少一个词语中的每个词语,确定相应词语与所述相应待注释词的语义匹配度;并确定所述相应词语对应的注释信息与所述识别文本的语境匹配度;将所述语义匹配度和所述语境匹配度满足预设条件的所述相应词语对应的注释信息确定为所述相应待注释词对应的注释文本。上述方案中,将所述语义匹配度和所述语境匹配度满足预设条件的所述相应词语对应的注释信息确定为所述相应待注释词对应的注释文本,包括以下之一:将所述语义匹配度大于或等于第一阈值,且所述语境匹配度大于或等于第二阈值的所述相应词语对应的注释信息确定为所述相应待注释词对应的注释文本;将所述语义匹配度与第一权值的乘积加上所述语境匹配度与第二权值的乘积大于或等于第三阈值的所述相应词语对应的注释信息确定为所述相应待注释词对应的注释文本。上述方案中,所述方法还包括:对所述识别文本进行分词,得到分词结果;基于所述第一预设策略,确定所述分词结果中的至少一个待注释词。上述方案中,在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本时,所述方法还包括:确定所述对应的注释文本的第一呈现格式,以在呈现更新后的识别文本时以所述第一呈现格式呈现所述对应的注释文本;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述获得的识别文本的呈现格式。本专利技术实施例还提供了一种数据处理装置,包括:获取单元,用于获取待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;第一处理单元,用于基于第一预设策略,确定所述识别文本中的至少一个待注释词;第二处理单元,用于基于第二预设策略,确定所述至少一个待注释词中每个待注释词对应的注释文本,得到至少一个注释文本;第三处理单元,用于针对所述至少一个待注释词中的每个待注释词,在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本,得到更新后的识别文本;更新后的识别文本用于在播放所述语音数据时进行呈现。本专利技术实施例还提供了一种电子设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,所述处理器用于运行所述计算机程序时,执行上述任一方法的步骤。本专利技术实施例还提供了一种存储介质,所述介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。本专利技术实施例提供的数据处理方法、装置、电子设备和存储介质,获取待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;基于第一预设策略,确定所述识别文本中的至少一个待注释词;基于第二预设策略,确定所述至少一个待注释词中每个待注释词对应的注释文本,得到至少一个注释文本;针对所述至少一个待注释词中的每个待注释词,在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本,得到更新后的识别文本;更新后的识别文本用于在播放所述语音数据时进行呈现。本专利技术实施例的方案,基于预设策略,确定识别文本中的待注释词和注释文本,并利用注释文本更新识别文本,如此,能够对同传会议中演讲者的演讲内容进行注释,从而能够使用户更好地理解演讲内容,提升用户体验。附图说明图1为相关技术中机器同传系统的结构示意图;图2为本专利技术实施例数据处理方法的流程示意图;图3为本专利技术实施例更新后的识别文本示意图一;图4为本专利技术实施例更新后的识别文本示意图二;图5为本专利技术应用实施例数据处理装置的结构示意图;图6为本专利技术应用实施例数据处理方法的流程示意图;图7为本专利技术实施例数据处理装置的结构示意图;图8为本专利技术实施例电子设备的硬件结构示意图。具体实施方式以下结合说明书附图及实施例对本专利技术的技术方案作进一步详细的阐述。在对本专利技术实施例的技术方案进行详细说明之前,首先对相关技术中的机器同传翻译系统进行简单说明,以下将机器同传翻译系统简称为机器同传系统。图1为相关技术中机器同传系统的结构示意图;如图1所示,所述系统可包括:机器同传服务端、语音处理服务器、用户持有的终端、操作端、显示屏幕。所述用户持有的终端可以为手机、平板电脑等;所述操作端可以采用个人电脑(PC,PersonalComputer)、手机等,其中,所述PC可以为台式电脑、笔记本电脑、平板电脑等。实际应用时,演讲者可以通过操作端进行会议演讲,在进行会议演讲的过程中,操作端采集演讲者的语音数据,将采集的语音数据发送给机器同传服务端,所述机器同传服务端通过语音处理服务器对语音数据进行识别,得到识别文本(所述识别文本可以是与语音数据相同语种的识别文本,也可以是对所述识别文本进行翻译后得到的其他语种的识别文本);机器同传服务端可以将识别文本发送给操作端,由操作端本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;/n基于第一预设策略,确定所述识别文本中的至少一个待注释词;/n基于第二预设策略,确定所述至少一个待注释词中每个待注释词对应的注释文本,得到至少一个注释文本;/n针对所述至少一个待注释词中的每个待注释词,在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本,得到更新后的识别文本;更新后的识别文本用于在播放所述语音数据时进行呈现。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;
基于第一预设策略,确定所述识别文本中的至少一个待注释词;
基于第二预设策略,确定所述至少一个待注释词中每个待注释词对应的注释文本,得到至少一个注释文本;
针对所述至少一个待注释词中的每个待注释词,在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本,得到更新后的识别文本;更新后的识别文本用于在播放所述语音数据时进行呈现。


2.根据权利要求1所述的方法,其特征在于,所述基于第一预设策略,确定所述识别文本中的至少一个待注释词,包括:
对所述识别文本进行语义分析,得到所述识别文本的语境;
基于所述识别文本的语境,结合预设算法模型,确定所述识别文本中的至少一个待注释词。


3.根据权利要求1所述的方法,其特征在于,所述基于第二预设策略,确定所述至少一个待注释词中每个待注释词对应的注释文本,包括:
针对所述至少一个待注释词中的每个待注释词,基于第一信息库,确定相应待注释词对应的注释文本;所述第一信息库存储有至少一个词语以及所述词语对应的注释信息。


4.根据权利要求3所述的方法,其特征在于,所述基于第一信息库,确定相应待注释词对应的注释文本,包括:
针对所述至少一个词语中的每个词语,确定相应词语与所述相应待注释词的语义匹配度;并确定所述相应词语对应的注释信息与所述识别文本的语境匹配度;
将所述语义匹配度和所述语境匹配度满足预设条件的所述相应词语对应的注释信息确定为所述相应待注释词对应的注释文本。


5.根据权利要求4所述的方法,其特征在于,将所述语义匹配度和所述语境匹配度满足预设条件的所述相应词语对应的注释信息确定为所述相应待注释词对应的注释文本,包括以下之一:
将所述语义匹配度大于或等于第一阈值,且所述语境匹配度大于或等于第二阈值...

【专利技术属性】
技术研发人员:郝杰
申请(专利权)人:北京欧珀通信有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1