有声电子书的生成方法技术

技术编号:39818939 阅读:8 留言:0更新日期:2023-12-22 19:38
本发明专利技术涉及数据处理领域,公开了一种有声电子书的生成方法

【技术实现步骤摘要】
有声电子书的生成方法、装置、设备及存储介质


[0001]本专利技术涉及数据处理领域,尤其涉及一种有声电子书的生成方法

装置

设备及存储介质


技术介绍

[0002]电子书即数字化的书籍,一般以电子文本或者图片格式存储文字内容,以供人们在电子显示设备上阅读

随着信息产业的发展,电子书也逐渐拓展为有声电子书,成为人们生活中必不可少的一部分,甚至已经渐渐取代了传统的阅读方式

对于有声电子书的生成,往往是靠人力通过编辑软件实现的,仅文章内容的形成就需要付出大量的脑力思考时间以及码字时间,生成有声电子书的效率很低


技术实现思路

[0003]本专利技术的主要目的在于解决有声电子书的生成效率低的技术问题

[0004]本专利技术第一方面提供了一种有声电子书的生成方法,所述有声电子书的生成方法包括:
[0005]在检测到生成指令时,解析所述指令,得到标题信息;
[0006]根据所述标题信息生成文章内容;
[0007]生成所述文章内容中的文本段落对应的段落大意;
[0008]生成所述段落大意对应的段落插图以及对所述文章内容的文本段落进行截图,得到文本图片;
[0009]根据所述文本图片以及所述段落插图生成视频;
[0010]将预设音频与所述视频合成,得到所述有声电子书

[0011]可选的,在本专利技术第一方面的第一种实现方式中,所述根据所述标题信息生成文章内容的步骤之后,所述方法还包括:
[0012]在检测到用户预置语音时,将所述用户语音输入预设的
VITS
语音生成模型,得到用户声纹;
[0013]根据所述用户声纹以及所述文章内容生成所述预设音频

[0014]可选的,在本专利技术第一方面的第二种实现方式中,所述根据所述用户声纹以及所述文章内容生成所述预设音频的步骤包括:
[0015]根据所述用户声纹以及所述文章内容进行
text

to

speech
操作,得到所述预设音频

[0016]可选的,在本专利技术第一方面的第三种实现方式中,所述根据所述标题信息生成文章内容的步骤包括:
[0017]将所述标题信息输入预设的
OPT
模型,得到所述
OPT
模型输出的所述文章内容

[0018]可选的,在本专利技术第一方面的第四种实现方式中,所述生成所述文章内容中的文本段落对应的段落大意的步骤包括:
[0019]将所述文章内容输入预先训练的
BERT
模型,得到所述
BERT
模型输出的所述段落大意

[0020]可选的,在本专利技术第一方面的第五种实现方式中,所述生成所述段落大意对应的段落插图的步骤包括:
[0021]将所述段落大意输入预先训练的
Stable

Diffusion
模型,得到所述
Stable

Diffusion
模型输出的所述段落插图

[0022]可选的,在本专利技术第一方面的第六种实现方式中,所述对所述文章内容的文本段落进行截图,得到文本图片的步骤包括:
[0023]对所述文章内容的文本段落进行截图,得到
png
格式的所述文本图片

[0024]本专利技术第二方面提供了一种有声电子书的生成装置,包括:
[0025]解析模块,用于在检测到生成指令时,解析所述指令,得到标题信息;
[0026]第一生成模块,用于根据所述标题信息生成文章内容;
[0027]第二生成模块,用于生成所述文章内容中的文本段落对应的段落大意;
[0028]第三生成模块,用于生成所述段落大意对应的段落插图以及对所述文章内容的文本段落进行截图,得到文本图片;
[0029]第四生成模块,用于根据所述文本图片以及所述段落插图生成视频;
[0030]合成模块,用于将预设音频与所述视频合成,得到所述有声电子书

[0031]本专利技术第三方面提供了一种有声电子书的生成设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述有声电子书的生成设备执行上述的有声电子书的生成方法

[0032]本专利技术的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的有声电子书的生成方法

[0033]在本专利技术实施例中,有声电子书的生成设备在检测到生成指令时,解析所述指令,得到标题信息;根据所述标题信息生成文章内容;生成所述文章内容中的文本段落对应的段落大意;生成所述段落大意对应的段落插图以及对所述文章内容的文本段落进行截图,得到文本图片;根据所述文本图片以及所述段落插图生成视频;将预设音频与所述视频合成,得到所述有声电子书

由于有声电子书的生成设备在获取到标题信息时即可根据标题信息生成文章内容,相对于付出大量的脑力思考时间以及码字时间形成文章内容,可节省大量的时间成本,进一步的,在得到文章内容时,还可根据文章内容生成与之契合的段落插图,基于得到的文章内容

段落插图可形成电子书,最后经过预设音频为电子书配音,可形成一键生成有声电子书的生成体系,显著提升了有声电子书的生成效率

附图说明
[0034]图1为本专利技术实施例中有声电子书的生成方法的一个实施例示意图;
[0035]图2为本专利技术实施例中有声电子书的生成方法的另一个实施例示意图;
[0036]图3为本专利技术实施例中有声电子书的生成装置的一个实施例示意图;
[0037]图4为本专利技术实施例中有声电子书的生成设备的一个实施例示意图

具体实施方式
[0038]本专利技术实施例提供了一种有声电子书的生成方法

装置

设备及存储介质

[0039]本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等
(
如果存在
)
是用于区别类似的对象,而不必用于描述特定的顺序或先后次序

应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施

此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程

方法

系统

产品或设备不必限于清楚地列出的那些步骤或单元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种有声电子书的生成方法,其特征在于,所述有声电子书的生成方法包括:在检测到生成指令时,解析所述指令,得到标题信息;根据所述标题信息生成文章内容;生成所述文章内容中的文本段落对应的段落大意;生成所述段落大意对应的段落插图以及对所述文章内容的文本段落进行截图,得到文本图片;根据所述文本图片以及所述段落插图生成视频;将预设音频与所述视频合成,得到所述有声电子书
。2.
根据权利要求1所述的有声电子书的生成方法,其特征在于,所述根据所述标题信息生成文章内容的步骤之后,所述方法还包括:在检测到用户预置语音时,将所述用户语音输入预设的
VITS
语音生成模型,得到用户声纹;根据所述用户声纹以及所述文章内容生成所述预设音频
。3.
根据权利要求2所述的有声电子书的生成方法,其特征在于,所述根据所述用户声纹以及所述文章内容生成所述预设音频的步骤包括:根据所述用户声纹以及所述文章内容进行
text

to

speech
操作,得到所述预设音频
。4.
根据权利要求1所述的有声电子书的生成方法,其特征在于,所述根据所述标题信息生成文章内容的步骤包括:将所述标题信息输入预设的
OPT
模型,得到所述
OPT
模型输出的所述文章内容
。5.
根据权利要求1所述的有声电子书的生成方法,其特征在于,所述生成所述文章内容中的文本段落对应的段落大意的步骤包括:将所述文章内容输入预先训练的
BERT
模型,得到所述
BERT
模型输出的所述段落大意
。6.
根据权利要求1所述的有声电子书...

【专利技术属性】
技术研发人员:蔡卓君
申请(专利权)人:上海积图科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1