This application provides an electronic document conversion method and device, in which the method includes acquiring subtitle files of video to be processed, then extracting the speech speed characteristics of video to be processed, then segmenting the subtitle files according to the speech speed characteristics, and adding punctuation symbols to the segmented subtitle files, and furthermore, adding punctuation symbols to each section of the subtitle files after segmenting. The key frames are selected from the corresponding video frames to be processed, and the corresponding relationship between each subtitle file and the selected key frame is recorded. Finally, based on the corresponding relationship between each subtitle file after segmented processing and punctuation, and between each subtitle file and the selected key frame, an electronic document describing the video to be processed is created. In this way, the video to be processed can be converted into typesetted and formatted text, and the key frames in the video can be extracted. Combining the above text, an electronic document can be formed, which can vividly display the relevant information of the video to be processed.
【技术实现步骤摘要】
一种电子文档转换方法及装置
本申请涉及计算机
,尤其是涉及一种电子文档转换方法及装置。
技术介绍
随着计算机网络的发展,越来越多的信息以视频的形式呈现给大众。但是,网络视频的在线观看需要耗费大量的流量。例如一些在线教育视频,其针对的群体往往是学生,然而学生的大部分时间是处于没有无线网络的环境中,无法满足观看在线教育产品所需的网络条件,因此对于在线教育产品无法充分利用。目前,为满足不同网络条件下用户的需求,可以将视频文件(如在线教育视频)转换成文本,然而将视频或音频转换为电子文本文档时,最大的问题是转换后的文本无格式无排版,段落不明,断句混乱,若需对文本进行调整只能后期依靠人工,过程繁琐且费时费力。
技术实现思路
有鉴于此,本申请的目的在于提供一种电子文档转换方法及装置,以简化视频或音频转换成文本后人工调整文本格式的步骤。第一方面,本申请实施例提供了一种电子文档转换方法,该方法包括:获取待处理视频的字幕文件;提取所述待处理视频的语速特征;根据所述语速特征,对所述字幕文件进行分段处理,并为分段处理后的字幕文件添加标点符号;从分段处理后的每一段字幕文件对应的所述待处理视频的视频帧中选取关键帧,并记录每一段字幕文件与选取的关键帧之间的对应关系;基于经分段处理并添加标点符号后的每一段字幕文件、以及每一段字幕文件与选取的关键帧之间的对应关系,创建用于描述所述待处理视频的电子文档。结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述语速特征包括所述字幕文件中每个句子的平均语速、以及相邻句子之间的停顿间隔;根据所述语速特征,对所述字幕文件进行分段处 ...
【技术保护点】
1.一种电子文档转换方法,其特征在于,包括:获取待处理视频的字幕文件;提取所述待处理视频的语速特征;根据所述语速特征,对所述字幕文件进行分段处理,并为分段处理后的字幕文件添加标点符号;从分段处理后的每一段字幕文件对应的所述待处理视频的视频帧中选取关键帧,并记录每一段字幕文件与选取的关键帧之间的对应关系;基于经分段处理并添加标点符号后的每一段字幕文件、以及每一段字幕文件与选取的关键帧之间的对应关系,创建用于描述所述待处理视频的电子文档。
【技术特征摘要】
1.一种电子文档转换方法,其特征在于,包括:获取待处理视频的字幕文件;提取所述待处理视频的语速特征;根据所述语速特征,对所述字幕文件进行分段处理,并为分段处理后的字幕文件添加标点符号;从分段处理后的每一段字幕文件对应的所述待处理视频的视频帧中选取关键帧,并记录每一段字幕文件与选取的关键帧之间的对应关系;基于经分段处理并添加标点符号后的每一段字幕文件、以及每一段字幕文件与选取的关键帧之间的对应关系,创建用于描述所述待处理视频的电子文档。2.根据权利要求1所述的方法,其特征在于,所述语速特征包括所述字幕文件中每个句子的平均语速、以及相邻句子之间的停顿间隔;根据所述语速特征,对所述字幕文件进行分段处理,包括:计算当前的句子相邻的前一个句子的平均语速与所述当前的句子的平均语速之前的第一比值;以及,计算所述当前的句子与所述前一个句子之间的停顿间隔和所述当前的句子与所述当前的句子相邻的后一个句子的停顿间隔之间的第二比值;基于计算的所述第一比值、以及所述第二比值,确定所述字幕文件中相邻句子之间的相关性系数值;当计算出的相关性系数值小于第一预设阈值时,将所述当前的句子相邻的前一个句子与所述当前的句子之间的位置作为分段的划分点,将所述前一个句子作为上一段字幕文件中的最后一个句子,将所述当前的句子作为当前段字幕文件中的第一个句子。3.根据权利要求1所述的方法,其特征在于,在创建用于描述所述待处理视频的电子文档之后,还包括:提取所述字幕文件中的关键词,其中所述关键词用于标识所述电子文档。4.根据权利要求3所述的方法,其特征在于,提取所述字幕文件中的关键词,包括:统计所述字幕文件中至少一个词语中每个词语在所述字幕文件中的出现频率、以及每个词语在数据库中其他文档中的出现频率;根据每个词语在所述字幕文件中的出现频率、以及在所述数据库中其他文档中的出现频率,计算每个词语在所述字幕文件中的权重值;将计算的权重值高于第二预设阈值的词语确定为关键词。5.根据权利要求1所述的方法,其特征在于,所述获取待处理视频的字幕文件,包括:判断所述待处理视频是否含有字幕文件;若判断结果为是,则提取所述待处理视频的字幕文件;若判断结果为否,则提取所述...
【专利技术属性】
技术研发人员:陈雯,朱海军,
申请(专利权)人:北京慕华信息科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。