【技术实现步骤摘要】
本专利技术涉及影音处理,更具体地说,涉及一种适配讲解内容的影音信息的实时生成方法。
技术介绍
1、在利用影音进行常规讲解、交互讲解、交互问答的应用场景中,通常采用预设的固定文件(通常为视频文件、音频文件)面向用户进行输出,作为讲解内容或答复内容。采用预设的固定文件的技术方案的不足;一方面是,由于固定文件的内容固定,则需要适配海量用户的难度极大,准确度与预设难度、文件数量之间存在负相关的相互制约;另一方面是,输出视频或音频的交互形式,形式陈旧,功能效果单一,往往为单纯的输出表达,难以进行其他的功能扩展,特别是视频、音频分别依靠显示机构、声音传播介质作为输出途径,为脱离于产品的形式,难以与产品进行直接结合。
技术实现思路
1、本专利技术的目的在于克服现有技术的不足,提供一种适配讲解内容的影音信息的实时生成方法,可通过影像素材、文字素材与声音素材的选择与排序组合,在较少的数据量的基础上,即可基本满足海量用户的适配需求;并且能够在交互的基础上,实时获取准确度更高的交互结果,在较低的预设难度、较少的
...【技术保护点】
1.一种适配讲解内容的影音信息的实时生成方法,设置若干影像素材、若干文字素材、若干声音素材,其特征在于,针对讲解员的身份构建相关联的影音生成模型,获取讲解内容并进行语义识别,利用影音生成模型选择相应的影像素材、文字素材、声音素材,影像素材、文字素材、声音素材的排序适配讲解内容,并进行拼接,实时生成适配讲解内容的影音信息;将历史讲解内容及对应的影像素材、文字素材、声音素材及其排序作为样本,对影音生成模型进行训练,更新影音生成模型;利用最新的影音生成模型对持续发生的讲解实时选择适配的影像素材、文字素材、声音素材及其排序,实时生成适配讲解内容的影音信息。
2.根
...【技术特征摘要】
1.一种适配讲解内容的影音信息的实时生成方法,设置若干影像素材、若干文字素材、若干声音素材,其特征在于,针对讲解员的身份构建相关联的影音生成模型,获取讲解内容并进行语义识别,利用影音生成模型选择相应的影像素材、文字素材、声音素材,影像素材、文字素材、声音素材的排序适配讲解内容,并进行拼接,实时生成适配讲解内容的影音信息;将历史讲解内容及对应的影像素材、文字素材、声音素材及其排序作为样本,对影音生成模型进行训练,更新影音生成模型;利用最新的影音生成模型对持续发生的讲解实时选择适配的影像素材、文字素材、声音素材及其排序,实时生成适配讲解内容的影音信息。
2.根据权利要求1所述的适配讲解内容的影音信息的实时生成方法,其特征在于,当用户以相同的问题重复请求讲解时,在后的讲解内容及对应的影像素材、文字素材、声音素材及其排序优先以不同于在前的讲解内容进行解答,并选择不同于在前的影像素材、文字素材、声音素材及其排序生成影音信息;如果在后的讲解内容与在前的讲解内容相同,则优先选择不同于在前的影像素材、文字素材、声音素材及其排序生成影音信息。
3.根据权利要求2所述的适配讲解内容的影音信息的实时生成方法,其特征在于,当用户以相同的问题重复请求讲解时,对用户的交互语气、肢体动作、表情神态进行识别与判断,结合所述的问题的文字,以及关于所述的问题的历史讲解内容、历史的用户的讲解讲求、回应内容,获得所述的问题的默认语义。
4.根据权利要求1所述的适配讲解内容的影音信息的实时生成方法,其特征在于,获取影像素材的方法包括对预置的长视频进行自动拉片,以镜头的转场为切割点,将长视频分割为若干影像素材,或者,对交互现场进行拍摄获得的视频,将交互现场的用户的影像作为影像素材;声音素材对应讲解内容,利用声音生成工具生成;对于需要发声的文字素材,将其转换获得对应的声音素材。
5.根据权利要求1所述的适配讲解内容的影音信息的实时生成方法,其特征在于,利用最新的影音生成模型对持续发生的讲解实时生成适配讲解内容的影音信息时,预设多种可能讲解顺序,对应每种可能讲解顺序生成连续的影音序列,每个影音序列包含对应当前的可能讲解顺序的多个影音信息;当用户请求讲解时,如果利用最新的影音生成模型实时生成适配讲解内容的影音信息在多个影音序列中的某一个影音序列中最靠前,则将该影音序列作为基础影音序列;并将其他影音序列最靠前的影音信息,与其在基础影音序列中的序列位置作为节点,生成树状影音拓扑;以此类推,对于持续发生的讲解实时调整树状影音拓扑。
6.根据权利要求1所述的适配讲解内容的影音信息的实时生成方法,其特征在于,获取交互现场存在的所有路径及所有交互位置;获取用户的行进路径、行进方向,当用户在某一个交互位置请求讲解时,获取当前的交互位置的讲解内容,还预先获取对应用户的行进路径、行进方向的其他交互位置的讲解内容,和/或获取对应用户的行进方向,从当前的交互位置出发的所有的可能路径,预先获取所有的可能路径中的交互位置的讲解内容;预先获取的所有的可能路径中的交互位置的讲解内容基于最新的影音生成模型,并基于讲解员与用户的交互内容进行实时调整。
7.根据权利要求6所述的适配讲解内容的影音信息的实时生成方法,其特征在于,对于预先获取所有的可能路径中的交互位置的讲解内容,当用户到达后续的交互位置时,删除未包含该后续的交互位置的可能路径,以及对应的讲解内容;或者,调整后续的其他交互位置的预先获取的讲解内容,调整后的讲解内容包含引导用户前往未包含该后续的交互位置的可能路径,或者引导用户脱离包含该后续的交互位置的可能路径。
8.根据权利要求1所述的适配讲解内容的影音信息的实时生成方法,其特征在于,用户通过与讲解员进行交互,和/或通过用户的目光落点、肢体动作、表情神态,生成讲解请求;其中,通过用户的目光落点、肢体动作、表情神态生成讲解请求,具体为,通过对用户的目光落点、目光停留时长、肢体动作、表情神态进行识别与判断,获得具备语义的讲解请求。
9.根据权利要求1所述的适配讲解内容的影音信息的实时生成方法,其特征在于,讲解员包括位于交互现场的真实讲解员、显示于交互现场的虚拟讲解员;对于真实讲解员,通过实时监听获取讲解内容;对于虚拟讲解员,在虚拟讲解员与用户进行交互的过程中,生成讲解内容的同时,同步获取虚拟讲解员的讲解内容。
10.根据权利要求9所述的适配讲解内容的影音信息的实时生成方法,其特征在于,结合讲解员的目光落点、肢体动作、表情神态、讲解内容以及用户的目光落点、肢体动作、表情神态、回应内容,确定相应的影像素材、文字素材、声音素材及其排序;并将历史的讲解员的目光落点、肢体动作、表情神态、历史讲解内容及对应的影像素材、文字素材、声音素材及其排序、讲解员信息与历史的用户的目光落点、肢体动作、表情神态、讲解请求、回应内容、用户信息,作为样本,结合历史讲解内容及对应的影像素材、文字素材、声音素材及其排序,对影音生成模型进行训练,更新影音生成模型。
11.根据权利要求10所述的适配讲解内容的影音信息的实时生成方法,其特征在于,如果讲解员为真实讲解员,则通过图像识别获取真实讲解员的目光落点、肢体动作、表情神态;
12.根据权利要求11所述的适配讲解内容的影音信息的实时生成方法,其特征在于,虚拟讲解员通过人机协同的虚拟交互系统与用户进行交互,所述的虚拟交互系统包括现场交互总成、远程训练总成;
13.根据权利要求12所述的适配讲解内容的影音信息的实时生成方法,其特征在于,...
【专利技术属性】
技术研发人员:陈飞,
申请(专利权)人:赣州市耀灵天华数字经济技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。