This application discloses a corpus extraction method, device and terminal device. The method includes: caption area voice image is intercepted according to preset frame number after acquiring audio and video data and acquiring caption area voice image without caption text data, acquiring multiple voice and image data, and caption image conversion in multiple voice and image data. The first speech data corresponding to the caption image is segmented according to the merged text, and the corpus of each first text unit is obtained. Compared with the existing technology, this application overcomes the problem of corpus extraction through multiple recording environments by matching the audio-video subtitle images without subtitles with the voice data after they are converted into text files, thus achieving the goal of reducing the cost of corpus extraction.
【技术实现步骤摘要】
一种语料提取方法、装置及终端设备
本申请涉及音视频语音信息检索
,尤其涉及一种语料提取方法、装置及终端设备。
技术介绍
在自动语音识别系统中,系统的性能和鲁棒性在很大程度上取决于识别模型建模过程中是否具有足够丰富的语料数据,即语料数据资源库是智能语音技术的关键性基础环节。而语料数据资源库中语料的规模和质量,在很大程度上决定了各种智能语音应用的广度和深度,同时也极大的影响着用户的体验。现有技术中,通过录音的方式提取语料,从而建立语料数据资源库。但在采用现有技术进行语料提取时,发现由于建立和收集语料的目的是为语音识别系统提供训练库和测试库,因此发音人的选择需覆盖全国不同地区、年龄、性别及文化程度,且需从多个录音环境进行语料提取,确保后续语音识别的匹配度,从而导致语料的提取成本太高。
技术实现思路
本申请实施例所要解决的技术问题在于,如何减少语料提取的成本。为解决上述问题,本申请实施例提供一种语料提取方法,适于在计算设备中执行,至少包括如下步骤:采集视频材料的音视频数据;将未包含字幕文本数据的所述音视频数据作为第一处理数据,通过边缘检测和灰度差分统计,获取所述第一处理 ...
【技术保护点】
1.一种语料提取方法,其特征在于,至少包括如下步骤:采集视频材料的音视频数据;将未包含字幕文本数据的所述音视频数据作为第一处理数据,通过边缘检测和灰度差分统计,获取所述第一处理数据的字幕区域语音图像后,根据预设帧数对所述字幕区域语音图像进行截取,获取N个语音图像数据;其中,一个语音图像数据包括一个字幕图像和与所述字幕图像对应的第一语音数据;N为正整数;通过OCR技术,将N个所述字幕图像转换为M个文本后,计算M个文本两两之间的余弦值,并将达到预设阈值的余弦值的两个所述文本,判断为属于同一所述字幕图像;其中,M≥N且M为正整数;将判断属于同一所述字幕图像的多个文本进行合并,获得 ...
【技术特征摘要】
1.一种语料提取方法,其特征在于,至少包括如下步骤:采集视频材料的音视频数据;将未包含字幕文本数据的所述音视频数据作为第一处理数据,通过边缘检测和灰度差分统计,获取所述第一处理数据的字幕区域语音图像后,根据预设帧数对所述字幕区域语音图像进行截取,获取N个语音图像数据;其中,一个语音图像数据包括一个字幕图像和与所述字幕图像对应的第一语音数据;N为正整数;通过OCR技术,将N个所述字幕图像转换为M个文本后,计算M个文本两两之间的余弦值,并将达到预设阈值的余弦值的两个所述文本,判断为属于同一所述字幕图像;其中,M≥N且M为正整数;将判断属于同一所述字幕图像的多个文本进行合并,获得与N个字幕图像一一对应的N个合并文本后,将所述语音图像数据中与所述字幕图像对应的所述第一语音数据,根据N个合并文本进行切分,获得N个合并文本中每个第一文字单元的第一文字语音数据,即每个第一文字单元的语料。2.根据权利要求1所述的语料提取方法,其特征在于,还包括:将包含所述字幕文本数据的所述音视频数据作为第二处理数据,通过正则化技术解析所述字幕文本数据,并根据时间轴对所述第二处理数据的第二语音数据进行切分,获取多个第二文字语音数据后,根据每个所述第二文字语音数据,对所述字幕文本数据的每个第二文字单元一一进行标注,获取每个第二文字单元的语料。3.根据权利要求1所述的语料提取方法,其特征在于,所述通过边缘检测和灰度差分统计,获取所述第一处理数据的字幕区语音图像后,根据预设帧数对所述字幕区域语音图像进行截取,获取N个语音图像数据,具体为:将所述第一处理数据的帧图像进行灰度转换,并通过索贝尔算子对进行灰度转换后的帧图像进行边缘检测后,通过灰度差分统计对进行所述边缘检测后的所述帧图像的字幕区域进行定位,得到所述字幕区域语音图像后,根据所述预设帧数对所述字幕区域语音图像进行截取。4.根据权利要求1所述的语料提取方法,其特征在于,所述通过OCR技术,将N个所述字幕图像转换为M个文本后,计算M个文本两两之间的余弦值,具体为:通过OCR技术,将N个所述字幕图像转换为M个文本后,将M个文本两两组成对比组后,通过TF-IDF获得所述对...
【专利技术属性】
技术研发人员:周发升,何伟宝,詹逸,陈渤,杨敬慈,皮樾,李锦韬,
申请(专利权)人:广州大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。