音频和文本的同步方法、计算设备及存储介质技术

技术编号：26847569 阅读：30 留言：0更新日期：2020-12-25 13:12

本发明专利技术公开了一种音频和文本的同步方法、计算设备及存储介质，其中，该方法包括：获取待匹配的音频和第一文本，将第一文本进行切分得到第一语句集合；将音频进行切分，得到音频片断集合，对音频片段集合中的各个音频片断进行语音识别得到各个片断语句，将各个片断语句组合得到第二文本，获取第二文本对应的字符序列；依次从第一语句集合中提取第一语句，获取第一语句对应的第一字符序列，依据预设窗口从第二文本对应的字符序列中提取第二字符序列，将第一字符序列与第二字符序列进行匹配，确定与第一字符序列相匹配的第三字符序列，建立第三字符序列对应的音频片断与第一语句的同步关系。该方案实现了对音频片断与语句的同步关系的精准确定。

全部详细技术资料下载

【技术实现步骤摘要】
音频和文本的同步方法、计算设备及存储介质
本专利技术涉及数据处理
，具体涉及一种音频和文本的同步方法、计算设备及存储介质。
技术介绍
随着电子书技术的不断发展，用户不仅可以用眼阅读书籍内容，还可以通过播放有声书籍获取书籍内容。其中，通过播放有声书籍获取书籍内容的方式还可称为听书方式，这种听书方式给用户带来了全新的阅读体验。然而对于由真人为书籍录制的音频，很难将音频与书籍文本进行同步，导致无法在音频播放过程中同步显示所读到的语句，当用户听不清或者听不懂音频所读的内容时，由于缺少同步语句的显示便不能很好地理解书籍内容，导致用户体验较差。
技术实现思路
鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的音频和文本的同步方法、计算设备及存储介质。根据本专利技术的一个方面，提供了一种音频和文本的同步方法，该方法包括：获取待匹配的音频和第一文本，将第一文本进行切分得到第一语句集合；将音频进行切分，得到音频片断集合，对音频片段集合中的各个音频片断进行语音识别...

【技术保护点】
1.一种音频和文本的同步方法，包括：/n获取待匹配的音频和第一文本，将所述第一文本进行切分得到第一语句集合；/n将所述音频进行切分，得到音频片断集合，对所述音频片段集合中的各个音频片断进行语音识别得到各个片断语句，将各个片断语句组合得到第二文本，获取第二文本对应的字符序列；/n依次从所述第一语句集合中提取第一语句，获取第一语句对应的第一字符序列，依据预设窗口从第二文本对应的字符序列中提取第二字符序列，将第一字符序列与第二字符序列进行匹配，确定与所述第一字符序列相匹配的第三字符序列，建立所述第三字符序列对应的音频片断与第一语句的同步关系；其中，所述第三字符序列为所述第二字符序列的至少一部分序列。...

【技术特征摘要】
1.一种音频和文本的同步方法，包括：
获取待匹配的音频和第一文本，将所述第一文本进行切分得到第一语句集合；
将所述音频进行切分，得到音频片断集合，对所述音频片段集合中的各个音频片断进行语音识别得到各个片断语句，将各个片断语句组合得到第二文本，获取第二文本对应的字符序列；
依次从所述第一语句集合中提取第一语句，获取第一语句对应的第一字符序列，依据预设窗口从第二文本对应的字符序列中提取第二字符序列，将第一字符序列与第二字符序列进行匹配，确定与所述第一字符序列相匹配的第三字符序列，建立所述第三字符序列对应的音频片断与第一语句的同步关系；其中，所述第三字符序列为所述第二字符序列的至少一部分序列。

2.根据权利要求1所述的方法，所述将所述第一文本进行切分得到第一语句集合进一步包括：
识别所述第一文本中包含的指定标点符号的符号位置，依据所述符号位置确定第一切分点，按照所述第一切分点切分所述第一文本，得到第一语句集合。

3.根据权利要求1所述的方法，所述将所述音频进行切分，得到音频片断集合进一步包括：
识别所述音频中包含的静默音的起始时间点和结束时间点，依据所述起始时间点和所述结束时间点确定第二切分点，按照所述第二切分点切分所述音频，得到音频片断集合。

4.根据权利要求3所述的方法，所述第二切分点包括：第二初次切分点；
所述识别所述音频中包含的静默音的起始时间点和结束时间点，依据所述起始时间点和所述结束时间点确定第二切分点，按照所述第二切分点切分所述音频，得到音频片断集合进一步包括：
识别所述音频中包含的静默时长超过第一预设时间间隔的静默音的起始时间点和结束时间点，将所述起始时间点和所述结束时间点确定为第二初次切分点；
按照所述第二初次切分点切分所述音频，得到包含有多个音频片断的音频片断集合。

5.根据权利要求4所述的方法，所述第二切分点还包括：第二再次切分点；所述方法还包括：
针对所述音频片断集合中包含有所述静默音的音频片断，依据第二预设时间间隔和/或该音频片断的中点时间点确定第二再次切分点，按照所述第二再次切分点切分该音频片断；其中，所述第二预设时间间隔小于所述第一预设时间间隔；
得到最终的音频片断集合，并记录每个音频片断在所述音频中的起始时间点和结束时间点。

6.根据权利要求1-5任一项所述的方法，所述将各个片断语句组合得到第二文本，获取第二文本对应的字符序列进一步包括：
按照各个音频片断在所述音频中的先后顺序，组合各个音频片断的片断语句得到第二文本；
获取第二文本包含的所有文字的拼音首字母作为第二文本对应的字符序列，并记录每个音频片断在所述第二文本对应的字符序列中所对应的起始字符和结束字符；
所述获取第一语句对应的第一字符序列具体为：获取第一语...

【专利技术属性】
技术研发人员：陈梦瑶，唐旺，
申请(专利权)人：掌阅科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人