同声传译方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24173595 阅读:17 留言:0更新日期:2020-05-16 03:48
本发明专利技术实施例公开了一种同声传译方法、装置、电子设备及存储介质。其中,方法包括:获得语音数据,对所述语音数据进行文本识别,得到识别文本;对所述语音数据进行切分,得到至少一个语音片段;确定所述至少一个语音片段中各语音片段对应的目标人物;确定所述目标人物对应的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标人物对应的目标文本片段;所述目标文本片段基于所述目标人物对应的语音片段得到;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为其他人物对应的识别文本中的文本片段的呈现格式;所述识别文本用于在所述语音数据被播放时进行呈现。

Simultaneous interpretation methods, devices, electronic equipment and storage media

【技术实现步骤摘要】
同声传译方法、装置、电子设备及存储介质
本专利技术涉及同声传译领域,尤其涉及一种同声传译方法、装置、电子设备及存储介质。
技术介绍
随着人工智能(AI,ArtificialIntelligence)技术不断发展与成熟,运用人工智能技术解决生活中常见问题的产品不断涌现。其中,机器同声传译(又称为机器同传、AI同声传译、AI同传),结合了语音识别(ASR,AutomaticSpeechRecognition)、机器翻译(MT,MachineTranslation)等技术,被广泛应用于会议、访谈节目等场景,替代或部分替代了人工,实现同声传译(SI,SimultaneousInterpretation)。相关机器同传系统中,通过语言识别技术自动识别语音,运用机器翻译技术将识别得到的源语言文字翻译成目标语言文字,通过屏幕直接展示翻译后的结果。然而,仅将演讲者的说话内容进行显示,用户在观看时无法确定演讲者,难以结合演讲者的相关身份信息理解演讲内容。
技术实现思路
为解决相关存在的技术问题,本专利技术实施例提供一种同声传译方法、装置、电子设备及存储介质。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种同声传译方法,包括:获得语音数据,对所述语音数据进行文本识别,得到识别文本;对所述语音数据进行切分,得到至少一个语音片段;确定所述至少一个语音片段中各语音片段对应的目标人物;确定所述目标人物对应的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标人物对应的目标文本片段;所述目标文本片段基于所述目标人物对应的语音片段得到;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为其他人物对应的识别文本中的文本片段的呈现格式;所述识别文本用于在所述语音数据被播放时进行呈现。上述方案中,所述对所述语音数据进行切分,得到所述语音数据中的至少一个语音片段,包括:对所述语音数据进行端点检测,根据检测得到的端点切分所述语音数据,得到至少一个语音片段。上述方案中,所述对所述语音数据进行切分,得到所述语音数据中的至少一个语音片段,包括:对所述语音数据进行语义分析,根据语义分析结果对所述语音数据进行切分,得到至少一个语音片段。上述方案中,所述确定所述至少一个语音片段中各语音片段对应的目标人物,包括:确定所述语音片段对应的目标声纹特征;根据所述目标声纹特征查询声纹数据库,确定所述语音数据对应的目标人物;所述声纹数据库包括至少一个声纹特征和所述至少一个声纹特征中各声纹特征对应的人物。上述方案中,所述确定所述至少一个语音片段中各语音片段对应的目标人物,包括:确定所述语音片段对应的目标采集声道;基于声道和人物的对应关系,确定所述目标采集声道对应的目标人物。上述方案中,所述确定所述目标人物对应的第一呈现格式,包括:根据所述目标人物查询呈现格式库,确定所述目标人物对应的第一呈现格式;所述呈现格式库包括至少一个人物和所述至少一个人物中各人物对应的呈现格式。上述方案中,利用所述语音数据获得的识别文本对应至少一种语种;所述方法还包括:接收终端发送的获取请求;所述获取请求用于获取识别文本;所述获取请求至少包括:目标语种;从至少一种语种的识别文本中获取所述目标语种对应的识别文本;将所述目标语种对应的识别文本发送给所述终端,以在所述语音数据被播放时通过所述终端呈现所述目标语种对应的识别文本。本专利技术实施例还提供了一种同声传译装置,包括:获取单元,用于获得语音数据,对所述语音数据进行文本识别,得到识别文本;第一处理单元,用于对所述语音数据进行切分,得到至少一个语音片段;确定所述至少一个语音片段中各语音片段对应的目标人物;第二处理单元,用于确定所述目标人物对应的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标人物对应的目标文本片段;所述目标文本片段基于所述目标人物对应的语音片段得到;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为其他人物对应的识别文本中的文本片段的呈现格式;所述识别文本用于在所述语音数据被播放时进行呈现。本专利技术实施例又提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一同声传译方法的步骤。本专利技术实施例还提供了一种存储介质,其上存储有计算机指令,所述指令被处理器执行时实现上述任一同声传译方法的步骤。本专利技术实施例提供的同声传译方法、装置、电子设备及存储介质,获得语音数据,对所述语音数据进行文本识别,得到识别文本;对所述语音数据进行切分,得到至少一个语音片段;确定所述至少一个语音片段中各语音片段对应的目标人物;确定所述目标人物对应的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标人物对应的目标文本片段;所述目标文本片段基于所述目标人物对应的语音片段得到;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为其他人物对应的识别文本中的文本片段的呈现格式;所述识别文本用于在所述语音数据被播放时进行呈现,如此,能够确定文本片段对应的目标人物,并按目标人物对应的呈现格式呈现相应的文本片段,便于用户将讲话者(即目标人物)与讲话者所说的内容对应,结合讲话者的身份理解讲话者所说的内容,从而能够准确帮助用户理解讲话者所说的内容,提升用户体验。附图说明图1为相关技术中同声传译方法的流程示意图;图2为本专利技术实施例的同声传译方法的一种流程示意图;图3为本专利技术实施例的确定讲话者的一种流程示意图图4为本专利技术实施例中确定语音片段对应的目标人物的一种流程示意图;图5为本专利技术实施例中确定语音片段对应的目标人物的另一种流程示意图;图6为本专利技术实施例中确定呈现格式的一种流程示意图;图7为本专利技术实施例中同声传译方法的另一种流程示意图;图8为本专利技术实施例的同声传译装置的组成结构示意图;图9为本专利技术实施例的电子设备的组成结构示意图。具体实施方式下面结合附图及实施例对本专利技术再作进一步详细的描述。图1为相关技术中同声传译方法的流程示意图;如图1所示,同传服务器启动后,在进行会议演讲的过程中,同传服务器获取演讲者的语音数据,对语音数据进行语音识别,得到识别文本(所述识别文本的语种与语音数据的语种相同);再对所述识别文本进行机器翻译,得到翻译结果(所述翻译结果的语种与所述识别文本的语种不同);同传服务器将所述翻译结果输出到显示设备,由显示设备显示所述翻译结果。实际应用中,相关技术中同声传译方法可以应用于同声传译系统。所述同声传译系统包括:机器同传服务端、终端、操作端、显示屏幕;所述终端可以为手机、平板电脑等;所述操作端可以为个人电脑(PC,PersonalComputer)。演讲者可以通过操作端进行会议演讲,在进行会议演讲的过程中,操作端采集演讲者的本文档来自技高网...

【技术保护点】
1.一种同声传译方法,其特征在于,包括:/n获得语音数据,对所述语音数据进行文本识别,得到识别文本;/n对所述语音数据进行切分,得到至少一个语音片段;确定所述至少一个语音片段中各语音片段对应的目标人物;/n确定所述目标人物对应的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标人物对应的目标文本片段;所述目标文本片段基于所述目标人物对应的语音片段得到;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为其他人物对应的识别文本中的文本片段的呈现格式;所述识别文本用于在所述语音数据被播放时进行呈现。/n

【技术特征摘要】
1.一种同声传译方法,其特征在于,包括:
获得语音数据,对所述语音数据进行文本识别,得到识别文本;
对所述语音数据进行切分,得到至少一个语音片段;确定所述至少一个语音片段中各语音片段对应的目标人物;
确定所述目标人物对应的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标人物对应的目标文本片段;所述目标文本片段基于所述目标人物对应的语音片段得到;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为其他人物对应的识别文本中的文本片段的呈现格式;所述识别文本用于在所述语音数据被播放时进行呈现。


2.根据权利要求1所述的方法,其特征在于,所述对所述语音数据进行切分,得到所述语音数据中的至少一个语音片段,包括:
对所述语音数据进行端点检测,根据检测得到的端点切分所述语音数据,得到至少一个语音片段。


3.根据权利要求1所述的方法,其特征在于,所述对所述语音数据进行切分,得到所述语音数据中的至少一个语音片段,包括:
对所述语音数据进行语义分析,根据语义分析结果对所述语音数据进行切分,得到至少一个语音片段。


4.根据权利要求1至3任一项所述的方法,其特征在于,所述确定所述至少一个语音片段中各语音片段对应的目标人物,包括:
确定所述语音片段对应的目标声纹特征;
根据所述目标声纹特征查询声纹数据库,确定所述语音数据对应的目标人物;所述声纹数据库包括至少一个声纹特征和所述至少一个声纹特征中各声纹特征对应的人物。


5.根据权利要求1至3任一项所述的方法,其特征在于,所述确定所述至少一个语音片段中各语音片段对应的目标人物,包括:
确定所述语音片段对应的目标采集声道;
基于声道和人物的对应关系,确定所述目标采集声道对应的目标人物。

【专利技术属性】
技术研发人员:杨林举
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1