一种IPTV音视频实时转虚拟手语视频的实时智能流媒体系统技术方案

技术编号:35990130 阅读:51 留言:0更新日期:2022-12-17 23:05
本发明专利技术属于流媒体处理技术领域,具体涉及一种IPTV音视频实时转虚拟手语视频的实时智能流媒体系统,该IPTV流媒体处理系统,包括由CSCAE网元、CSAI网元以及CAMUX网元组合而成的集群服务器,通过IPTV实时流媒体处理系统对注入系统的实时流媒体增加手语解说视频后混流,生成新的手语解说流媒体,供用户实际观看。本发明专利技术能够通过IPTV实时流媒体处理系统对注入的IPTV实时流媒体进行处理,并生成带有手语解说的流媒体,便于听障人士观看,还降低了节目制作的成本,同时,通过对手语无法表述的词条进行转换,生成的带有手语解说的流媒体能够向听障用户进行准确的表述,帮助语言认知能力较弱的听障用户准确的了解流媒体中表述的含义。弱的听障用户准确的了解流媒体中表述的含义。弱的听障用户准确的了解流媒体中表述的含义。

【技术实现步骤摘要】
一种IPTV音视频实时转虚拟手语视频的实时智能流媒体系统


[0001]本专利技术属于流媒体处理
,具体涉及一种IPTV音视频实时转虚拟手语视频的实时智能流媒体系统。

技术介绍

[0002]随着计算机性能和网络传输大幅提升,传统卫星信号开始从卫星传输逐步推广互联网传输,人们从网络接收信息越来越广泛,其中以实时流媒体和长短视频方式为主要载体,但绝大多数的音视频对于全球数百万听障人士存在极度不友好,因为听障人士通常使用手语进行交流,有声的世界对于这部分群体是个悲伤且未知的领域,导致他们无法有效获取到最新新闻,教育,娱乐等咨询,并且现有的卫星或者OTT信号制作方除了极少数部分重大新闻事件配有手语解说之外,几乎所有电视节目信号都是没有手语解说,对于电视信号制作方而言,如果每个节目信号都配有手语解说,需要耗费大量的人力和金钱,成本不堪重负,同时又面临着全球几百万听障人士实际诉求而言,双方有着不可调和的矛盾点,且对于失去听力时间较早的用户而言,其语言认识能力较弱,手语翻译无法帮助此类用户准确的了解手语中表述的含义,例如:手语翻译“一打啤酒”时,会通过手语分别对“一”、“打”、“啤酒”进行表述,对于失去听力时间较早的听障人士而言,其无法明白“一打”此时是一个量词,表述的应该是“十二”的含义,基于上述问题,本申请提出了一种IPTV音视频实时转虚拟手语视频的实时智能流媒体系统,以解决上述问题。

技术实现思路

[0003]本专利技术的目的是提供一种IPTV音视频实时转虚拟手语视频的实时智能流媒体系统,能够通过IPTV实时流媒体处理系统对注入的IPTV实时流媒体进行处理,并生成带有手语解说的流媒体,便于听障人士观看,还降低了节目制作的成本,同时,通过对手语无法表述的词条进行转换,生成的带有手语解说的流媒体能够向听障用户进行准确的表述,帮助语言认知能力较弱的听障用户准确的了解流媒体中表述的含义。
[0004]本专利技术采取的技术方案具体如下:
[0005]一种IPTV音视频实时转虚拟手语视频的实时智能流媒体系统,包括:
[0006]多个应用网元组合而成的集群服务器,所述集群服务器至少包含:CSCAE网元、CSAI网元以及CAMUX网元,其中,CSCAE网元、CSAI网元以及CAMUX网元可以单独部署,也可以以集群方式部署,且CSCAE网元、CSAI网元以及CAMUX网元均通过有线通讯或无线通讯的方式接入网络;
[0007]主数据库,所述主数据库存储于集群服务器中,所述主数据库中至少包括:语音数据库、词条转换库、手语数据矩阵、VR手势模型库;
[0008]通过集群服务器,对注入系统的实时流媒体增加手语解说视频后混流,生成新的手语解说流媒体,供用户实际观看,具体步骤如下:
[0009]S100、将实时流媒体注入系统中;
[0010]S200、通过CSCAE网元对实时流媒体进行处理,获取实时流媒体中的详细信息,并提取其中的原始音频数据;
[0011]S300、对原始音频数据进行处理,提取其中的人物音频数据,根据语音数据库,将人物音频数据转换为文本数据;
[0012]S400、根据词条转换库,对文本数据进行转换,生成优化文本;
[0013]S500、通过CSAI网元和优化文本,从手语数据矩阵中提取与优化文本相对应的手语数据,并生成手语序列图像;
[0014]S600、根据VR手势模型库,将手语序列图像转换成手语视频流媒体;
[0015]S700、通过CAMUX网元以及实时流媒体的详细信息,将手语视频流媒体和实时流媒体做混流,生成手语解说流媒体;
[0016]S800、将手语解说流媒体注入CDN分发网络,供用户观看;
[0017]其中,将实时流媒体注入系统,可以是通过网络传输、无线传输或其他数据传输方式进行。
[0018]在一种优选方案中,所述S200中,通过CSCAE网元对实时流媒体进行处理的具体处理步骤包括:
[0019]S201、通过CSCAE网元对注入系统的流媒体进行分析,提取流媒体的详细信息;
[0020]S202、对流媒体实时分离音频数据和视频数据,提取视频IDR帧实时图像,并将其与原始音频数据分开存储;
[0021]其中,所述流媒体的详细信息包括:
[0022]音频个数、音频编码信息、音频DTS、音频PTS以及语言信息;
[0023]视频个数、视频编码信息、视频DTS、视频PTS以及视频IDR帧信息;
[0024]在此,DTS表示解码时间戳,PTS表示显示时间戳。
[0025]在一种优选方案中,所述S300中,对原始音频数据进行处理,提取其中的人物音频数据,根据语音数据库,将人物音频数据转换为文本数据的具体步骤如下:
[0026]S301、对原始音频信号进行预处理;
[0027]S302、提取音频特征,对音频中的人物音频、背景声音及噪声进行识别,并将人物音频数据连续分段存储;
[0028]S303、根据语音数据库进行模式匹配,将人物音频数据转换成文本数据;
[0029]在一种优选方案中,所述S400中,根据词条转换库,对文本数据进行转换,生成优化文本的具体步骤如下:
[0030]S401、对文本数据中的内容进行检索,提取文本数据中手语无法表述的词条;
[0031]S402、通过词条转换库,将手语无法表述的词条转换为手语能够表述的词条,并生成优化文本,其转换规则为:根据同义或近义的准则,将检索词转换为转换词。
[0032]进一步的,词条转换库通过机器人学习训练或人工收录的方式,对手语能够表述的词条和手语无法表述的词条进行收录,并将词条分类为两类:检索词和转换词,并根据同义或近义的准则,建立检索词和转换词之间的对应关系,其中,检索词为手语无法直接表述的词条;转换词为手语能够直接表述的词条。
[0033]在一种优选方案中,所述S400中,根据词条转换库,对文本数据进行转换,生成优化文本的具体步骤如下:
[0034]S40A、对文本数据中的内容进行检索,提取文本数据中手语无法表述的词条以及手语表述较为分散的词条;
[0035]S40B、通过词条转换库,将手语无法表述的词条以及手语表述较为分散的词条进行转换,并生成带有感情色彩的优化文本,其转换规则为:将前缀词条和后缀词条作为限定条件,将检索词替换为转换词,并在该转换词之前增加前置补充词,同时在该转换词后面增加后置补充词。
[0036]进一步的,词条转换库通过机器人学习训练或人工收录的方式,对手语能够表述的词条、手语无法表述的词条以及手语表述仅为分散的词条进行收录,并将词条分类为两类:前缀词条、检索词、后缀词条、前置补充词、转换词以及后置补充词,并根据同义或近义的准则,建立检索词和转换词之间的对应关系,其中,前缀词条为文本数据中,位于检索词前面的词条;检索词为手语无法直接表述的词条;后缀词条为文本数据中,位于检索词后面的词条;转换词为手语能够直接表述的词条;前置本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种IPTV音视频实时转虚拟手语视频的实时智能流媒体系统,其特征在于:包括:多个应用网元组合而成的集群服务器,所述集群服务器至少包含:CSCAE网元、CSAI网元以及CAMUX网元,其中,CSCAE网元、CSAI网元以及CAMUX网元可以单独部署,也可以以集群方式部署,且CSCAE网元、CSAI网元以及CAMUX网元均通过有线通讯或无线通讯的方式接入网络;主数据库,所述主数据库存储于集群服务器中,所述主数据库中至少包括:语音数据库、词条转换库、手语数据矩阵、VR手势模型库;通过集群服务器,对注入系统的实时流媒体增加手语解说视频后混流,生成新的手语解说流媒体,供用户实际观看,具体步骤如下:S100、将实时流媒体注入系统中;S200、通过CSCAE网元对实时流媒体进行处理,获取实时流媒体中的详细信息,并提取其中的原始音频数据;S300、对原始音频数据进行处理,提取其中的人物音频数据,根据语音数据库,将人物音频数据转换为文本数据;S400、根据词条转换库,对文本数据进行转换,生成优化文本;S500、通过CSAI网元和优化文本,从手语数据矩阵中提取与优化文本相对应的手语数据,并生成手语序列图像;S600、根据VR手势模型库,将手语序列图像转换成手语视频流媒体;S700、通过CAMUX网元以及实时流媒体的详细信息,将手语视频流媒体和实时流媒体做混流,生成手语解说流媒体;S800、将手语解说流媒体注入CDN分发网络,供用户观看;其中,将实时流媒体注入系统,可以是通过网络传输、无线传输或其他数据传输方式进行。2.根据权利要求1所述的一种IPTV音视频实时转虚拟手语视频的实时智能流媒体系统,其特征在于:所述S200中,通过CSCAE网元对实时流媒体进行处理的具体处理步骤包括:S201、通过CSCAE网元对注入系统的流媒体进行分析,提取流媒体的详细信息;S202、对流媒体实时分离音频数据和视频数据,提取视频IDR帧实时图像,并将其与原始音频数据分开存储;其中,所述流媒体的详细信息包括:音频个数、音频编码信息、音频DTS、音频PTS以及语言信息;视频个数、视频编码信息、视频DTS、视频PTS以及视频IDR帧信息;在此,DTS表示解码时间戳,PTS表示显示时间戳。3.根据权利要求1所述的一种IPTV音视频实时转虚拟手语视频的实时智能流媒体系统,其特征在于:所述S300中,对原始音频数据进行处理,提取其中的人物音频数据,根据语音数据库,将人物音频数据转换为文本数据的具体步骤如下:S301、对原始音频信号进行预处理;S302、提取音频特征,对音频中的人物音频、背景声音及噪声进行识别,并将人物音频数据连续分段存储;S303、根据语音数据库进行模式匹配,将人物音频数据转换成文本数据。
4.根据权利要求1所述的一种IPTV音视频实时转虚拟手语视频的实时智能流媒体系统,其特征在于:所述S400中,根据词条转换库,对文本数据进行转换,生成优化文本的具体步骤如下:S401、对文本数据中的内容进行检索,提取文本数据中手语无法表述的词条;S402、通过词条转换库,将手语无法表述的词条转换为手语能够表述的词条,并生成优化文本,其转换规则为:根据同义或近义的准则,将检索词转换为转换词;进一步的,词条转换库通过机器人学习训练或人工收录的方式,对手语能够表述的词条和手语无法表述的...

【专利技术属性】
技术研发人员:张道远李智胡秀华
申请(专利权)人:深圳市小溪流科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1