信息处理方法、设备和介质技术

技术编号:29136589 阅读:26 留言:0更新日期:2021-07-02 22:32
本公开公开了一种信息处理方法、设备和介质,涉及数据处理技术领域。该方法包括:将字幕对应的语音转换为声学基元,以及,确定所述语音的时间信息;根据预先建立的映射关系,确定与所述声学基元对应的内容单元,所述内容单元为所述字幕对应的文本中的内容单元,所述映射关系包括所述声学基元与所述内容单元之间的映射关系;基于所述时间信息和所述内容单元,构建包含时间信息的文本,并基于所述包含时间信息的文本,构建字幕文件。本公开可以提高字幕文件的生成效率。

【技术实现步骤摘要】
信息处理方法、设备和介质
本公开涉及数据处理
,尤其涉及一种信息处理方法、设备和介质。
技术介绍
用户在观看视频时,可以通过视频显示界面上的字幕理解视频内容。视频提供者可以录制视频,以及制作与该视频对应的字幕文件,再将视频与字幕文件进行合成,以得到添加有字幕的视频。相关技术中,字幕文件采用离线非线性编辑的方式得到。但是,这种方式存在效率低的问题。
技术实现思路
本公开提供了一种信息处理方法、设备和介质。根据本公开的一方面,提供了一种信息处理方法,包括:将字幕对应的语音转换为声学基元,以及,确定所述语音的时间信息;根据预先建立的映射关系,确定与所述声学基元对应的内容单元,所述内容单元为所述字幕对应的文本中的内容单元,所述映射关系包括所述声学基元与所述内容单元之间的映射关系;基于所述时间信息和所述内容单元,构建包含时间信息的文本,并基于所述包含时间信息的文本,构建字幕文件。根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。根据本公开的技术方案,通过对字幕的语音进行处理,基于语音对应的声学基元以及时间信息,构建字幕文件,可以提高字幕文件的生成效率。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本公开的限定。其中:图1是本公开一实施例提供的信息处理方法的流程示意图;图2是本公开另一实施例提供的信息处理方法的流程示意图;图3是本公开实施例中语音转换为拼音的流程示意图;图4是本公开实施例中建立汉字信息与关联信息的对应关系的流程示意图;图5是用来实现本公开实施例的信息处理方法中任一方法的电子设备的示意图。具体实施方式以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是本公开一实施例提供的信息处理方法的流程示意图,如图1所示,该方法包括:101、将字幕对应的语音转换为声学基元,以及,确定所述语音的时间信息。102、根据预先建立的映射关系,确定与所述声学基元对应的内容单元,所述内容单元为所述字幕对应的文本中的内容单元,所述映射关系包括所述声学基元与所述内容单元之间的映射关系。103、基于所述时间信息和所述内容单元,构建包含时间信息的文本,并基于所述包含时间信息的文本,构建字幕文件。本实施例的执行主体可以为单侧主体,比如为终端或者服务器。具体地,可以基于应用程序(Application,APP)或者插件的形式实现。以APP形式实现为例,用户可以在移动终端上安装APP客户端,用户可以在APP客户端中录入字幕对应的语音,APP客户端将语音传输给部署APP服务端,APP服务端接收到语音后,可以对语音进行处理,以得到字幕文件。进一步地,为了方便用户录入语音,该APP还可以具有提词功能,即,该APP可以称为提词器APP,假设字幕对应的文本称为台词文本,该提词器APP具有显示台词文本和将语音转换为字幕文件的功能。本公开实施例中,是基于声学基元,将语音转换为字幕文件。声学基元是指发音单元,在不同的语言体系中,声学基元可以是不同的,比如,针对中文,声学基元可以具体为拼音,又比如,针对日文,声学基元可以为假名(包括片假名和平假名)。内容单元是指组成字幕对应的文本的单元,以中文为例,内容单元可以为汉字;或者,对应日文,内容单元可以为假名对应的日文文字。比如,可以预先建立拼音与汉字的映射关系,在采集到语音后,将语音转换为拼音,再根据映射关系,将拼音映射为对应的汉字。比如,语音是“啊”的语音,对应的拼音为“a”,预先建立拼音与汉字的映射关系中,“a”与“啊”存在映射关系,则可以基于“a”获取对应的汉字“啊”。可以理解的是,本实施例以映射关系中为拼音为例,为了便于查询,映射关系中可以是拼音对应的数字索引,比如,当前拼音为“a”,则可以先获取“a”对应的数字索引,比如为“28”,在映射关系中,假设“28”映射到“啊”,则可以基于拼音的数字索引确定对应的汉字。将语音转换为拼音时,可以采用各种相关技术实现,比如,采用已有的声学模型对语音进行处理,以得到对应的拼音。已有的声学模型比如为循环神经网络(RecurrentNeuralNetwork,RNN)+连接时间分类(ConnectionistTemporalClassification,CTC)结构。语音识别是指将语音识别为文字,将语音输入到语音识别模型中,输出为文字。但是,语音识别模型采用的算法较为复杂,并且准确度也较低。如果采用语音识别的方式,就需要较为复杂的算法,或者准确度较低。而本公开实施例中,是基于声学基元的处理,相对来讲,将语音识别为声学基元(如,拼音)的过程是较为简单和准确的,因此可以降低实现复杂度,以及提高准确度。进一步地,基于声学基元确定内容单元时,是根据预先建立的声学基元与内容单元之间的映射关系确定的。比如,可以预先建立拼音与汉字的映射关系,基于该映射关系,可以将拼音映射到汉字。通过映射关系,确定声学基元对应的内容单元,可以进一步提高准确度。比如,语音识别会存在一个拼音对应多个汉字的情况,在语音识别时,即使确定出了准确的拼音,但是,由于一音多字的问题,可能存在识别出错误的汉字的问题。而本公开实施例中,基于上述的映射关系确定汉字,由于映射关系中的汉字是字幕对应的文本中的汉字,拼音是汉字的拼音,因此,基于该映射关系可以从拼音映射到字幕文本中的汉字,确定础的汉字是准确的,并且相对于语音识别时,采用复杂的算法从拼音生成汉字,本实施例中采用映射关系的方式,可以简单实现。用户录入语音时,还可以记录对应的时间,比如,用户录入语音形式的“今天天气很好”时,记录“今”对应的时间信息为第1秒,“好”对应的时间信息为第3秒等。获取到内容单元以及语音的时间信息后,可以基于内容单元和时间信息构建包含时间信息的文本。在构建包含时间信息的文本时,可以逐句构建,具体地,可以对应所述内容单元本文档来自技高网...

【技术保护点】
1.一种信息处理方法,其特征在于,包括:/n将字幕对应的语音转换为声学基元,以及,确定所述语音的时间信息;/n根据预先建立的映射关系,确定与所述声学基元对应的内容单元,所述内容单元为所述字幕对应的文本中的内容单元,所述映射关系包括所述声学基元与所述内容单元之间的映射关系;/n基于所述时间信息和所述内容单元,构建包含时间信息的文本,并基于所述包含时间信息的文本,构建字幕文件。/n

【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:
将字幕对应的语音转换为声学基元,以及,确定所述语音的时间信息;
根据预先建立的映射关系,确定与所述声学基元对应的内容单元,所述内容单元为所述字幕对应的文本中的内容单元,所述映射关系包括所述声学基元与所述内容单元之间的映射关系;
基于所述时间信息和所述内容单元,构建包含时间信息的文本,并基于所述包含时间信息的文本,构建字幕文件。


2.根据权利要求1所述的方法,其特征在于,所述将字幕对应的语音转换为声学基元,包括:
采用预先建立的深度神经网络模型,将字幕对应的语音转换为声学基元,所述深度神经网络模型用于将语音转换为声学基元。


3.根据权利要求1所述的方法,其特征在于,所述映射关系为文本信息与关联信息的对应关系,所述根据预先建立的声学基元与内容单元之间的映射关系,确定与所述声学基元对应的内容单元,包括:
基于所述声学基元确定关联信息;
在预先建立的文本信息与关联信息的对应关系中,查找与所述关联信息对应的内容单元信息;
将所述内容单元信息,对应的内容单元确定为所述声学单元对应的内容单元。


4.根据权利要求3所述的方法,其特征在于,所述内容单元信息包括内容单元的文字编码,所述方法还包括:
将所述字幕对应的文本中的每个文字,转换为文字编码;
获取所述每个文字的声学基元,并确定所述声学基元对应的关联信息;
建立所述文字编码与所述关联信息的对应关系。


5.根据权利要求3所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:胡其斌董宗保单益峰
申请(专利权)人:上海掌门科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1