一种基于深度学习的数据编码芯片和方法技术

技术编号:21201110 阅读:22 留言:0更新日期:2019-05-25 01:36
本发明专利技术提供了一种基于深度学习的数据编码芯片和方法,所述方法通过语音识别单元将采集的音频信息转换为文字信息,并将得到的文字信息与预先存储的敏感词汇进行比对,当转换得到的文字信息中存在着敏感词汇时,采用该敏感词汇对应的处理方式对相应的音段信息进行处理,从而达到自动消除音频信息中敏感声音(即敏感词汇对应的音段信息)的目的。相较于人工识别判断的方式,有效提升了数据处理效率。

A Data Coding Chip and Method Based on Deep Learning

The invention provides a data encoding chip and method based on in-depth learning. The method converts the collected audio information into text information through a speech recognition unit, and compares the obtained text information with the pre-stored sensitive vocabulary. When there are sensitive vocabulary in the converted text information, the corresponding processing mode of the sensitive vocabulary is adopted to process the corresponding sound. Segment information is processed to automatically eliminate the sensitive voice (that is, segment information corresponding to sensitive vocabulary) in audio information. Compared with the way of artificial identification and judgment, it effectively improves the efficiency of data processing.

【技术实现步骤摘要】
一种基于深度学习的数据编码芯片和方法
本专利技术涉及芯片硬件电路领域,特别涉及一种基于深度学习的数据编码芯片和方法。
技术介绍
当前,在采用摄像头进行拍摄过程中,在采集的音频信息中出现了一些不期望出现的声音,比如有路人骂脏话或者其他一些不期望出现的声音出现,这种情况下,用户往往只能手动对音轨进行编辑,以便对不期望出现的声音进行删除,这种方式不仅花费了大量的人力和时间,同时也会导致音频信息由于部分音段的删除出现间断,影响了用户体验。
技术实现思路
为此,需要提供一种基于深度学习的数据编码的技术方案,用以解决当采集的音频流中出现敏感词汇或者当拍摄视频流画面中出现用户不期望看到的物体时,需要用户手动去除,费时费力的问题。为实现上述目的,专利技术人提供了一种基于深度学习的数据编码芯片所述芯片包括音频处理模块,所述音频处理模块包括语音识别单元、敏感词判断单元、敏感词处理单元和语音合成单元;所述语音识别单元用于接收语音采集单元采集的音频信息,对采集的音频信息进行语音识别,并将语音识别结果发送至敏感词判断单元;所述语音识别结果包括采集的音频信息对应的文字信息,以及各个文字信息在音频信息内的时间戳信息;所述敏感词判断单元用于接收音频信息的语音识别结果,判断音频信息对应的文字信息中是否包括有预先存储的敏感词,若是则第一音段信息存储于第一缓存单元中,所述第一音段信息为敏感词对应的音段信息;所述敏感词处理单元用于根据敏感词与处理方式的对应关系,采用相应的处理方式对第一音段信息进行处理,得到音段处理信息,并将音段处理信息发送至语音合成单元;所述语音合成单元用于根据第一音段信息对应的时间戳信息,将音段处理信息更换至音频信息中的对应位置,从而得到新的音频信息。进一步地,所述敏感词判断单元还用于判定音频信息对应的文字信息中包含有预先设置的敏感词时,将第二音段信息存储于第二缓存单元中,所述第二音段信息为非敏感词对应的音段信息;所述敏感词处理单元用于从第二缓存单元中获取第一音段信息前后的第二音段信息,并根据获取的第二音段信息预测出音频处理信息。进一步地,所述芯片包括视频处理模块,所述视频处理模块包括数据通路选择单元、神经网络分类识别单元、敏感物体判断单元、敏感区域划分单元、敏感物体存储列表、敏感区域处理单元、敏感区域缓存单元、图像合并单元、视频编码单元;所述数据通路选择单元用于接收图像采集单元采集的视频流数据,并将当前帧图像发送至神经网络分类识别单元;所述神经网络分类识别单元用于对当前帧图像进行物体识别,并将物体识别结果发送至敏感物体判断单元;所述敏感物体判断单元用于根据当前帧图像的物体识别结果,判断当前帧图像中是否包含有敏感物体存储列表中预先存储的敏感物体,若是则发送第一控制信号至数据通路选择单元,否则发送第二控制信号至数据通路选择单元;所述数据通路选择单元用于接收第一控制信号,将当前帧图像之后的连续N帧图像传输至神经网络分类识别单元;或者,用于接收第二控制信号,将当前帧图像之后的连续M帧图像传输至视频编码单元进行编码处理;N、M为正整数;所述敏感区域划分单元用于在当前帧图像中存在敏感物体的情况下,接收神经网络分类识别单元传输的当前帧图像,并划分出当前帧图像对应的敏感区域图像,并将敏感区域图像存储于敏感区域缓存单元中;所述敏感区域图像包含有敏感物体;所述敏感区域处理单元用于获取敏感区域缓存单元中的敏感区域图像,根据敏感物体与处理方式的对应关系,采用相应地处理方式处理敏感区域图像,并将处理结果发送至图像合并单元;所述图像合并单元用于接收当前帧图像和处理后的敏感区域图像,根据敏感区域图像在当前帧图像上的坐标位置,将处理后的敏感区域图像和当前帧图像合成为处理帧图像,并将所述处理帧图像传输至视频编码单元进行编码。进一步地,所述敏感区域划分单元包括轮廓识别单元和敏感区域坐标计算单元;所述轮廓识别单元用于识别出敏感区域图像中敏感物体的轮廓位置信息,所述轮廓位置信息以“第一标识行-第一起始坐标点-第一结束坐标点”的方式进行存储;所述敏感区域坐标计算单元用于根据轮廓位置信息、以及敏感区域图像在当前帧图像中的坐标信息,计算敏感区域图像内的敏感物体在当前帧图像中的坐标位置信息,并将所述坐标位置信息以“第二标识行-第二起始坐标点-第二结束坐标点”的方式进行存储;所述第二标识行的数值为第一标识行的数值与敏感区域图像在当前帧图像内的起始行之和,所述第二起始坐标点为第一起始坐标点与敏感区域图像在当前帧图像内的起始列之和,所述第二结束坐标点为第二结束坐标点与敏感区域图像在当前帧图像内的起始列之和。进一步地,所述视频处理模块还包括图像预测网络电路;所述图像预测网络电路用于根据敏感区域图像、当前帧图像、以及敏感区域图像在当前帧图像的坐标位置,根据预测出新的区域图像,并将新的区域图像送往图像合并单元。专利技术人还提供了一种基于深度学习的数据编码方法,所述方法应用于基于深度学习的数据编码芯片,所述芯片包括音频处理模块,所述音频处理模块包括语音识别单元、敏感词判断单元、敏感词处理单元和语音合成单元;所述方法包括以下步骤:语音识别单元接收语音采集单元采集的音频信息,对采集的音频信息进行语音识别,并将语音识别结果发送至敏感词判断单元;所述语音识别结果包括采集的音频信息对应的文字信息,以及各个文字信息在音频信息内的时间戳信息;敏感词判断单元接收音频信息的语音识别结果,判断音频信息对应的文字信息中是否包括有预先存储的敏感词,若是则第一音段信息存储于第一缓存单元中,所述第一音段信息为敏感词对应的音段信息;敏感词处理单元根据敏感词与处理方式的对应关系,采用相应的处理方式对第一音段信息进行处理,得到音段处理信息,并将音段处理信息发送至语音合成单元;语音合成单元根据第一音段信息对应的时间戳信息,将音段处理信息更换至音频信息中的对应位置,从而得到新的音频信息。进一步地,所述方法包括以下步骤:敏感词判断单元判定音频信息对应的文字信息中包含有预先设置的敏感词时,将第二音段信息存储于第二缓存单元中,所述第二音段信息为非敏感词对应的音段信息;敏感词处理单元从第二缓存单元中获取第一音段信息前后的第二音段信息,并根据获取的第二音段信息预测出音频处理信息。进一步地,所述芯片包括视频处理模块,所述视频处理模块包括数据通路选择单元、神经网络分类识别单元、敏感物体判断单元、敏感区域划分单元、敏感物体存储列表、敏感区域处理单元、敏感区域缓存单元、图像合并单元、视频编码单元;所述方法包括:数据通路选择单元接收图像采集单元采集的视频流数据,并将当前帧图像发送至神经网络分类识别单元;神经网络分类识别单元对当前帧图像进行物体识别,并将物体识别结果发送至敏感物体判断单元;敏感物体判断单元根据当前帧图像的物体识别结果,判断当前帧图像中是否包含有敏感物体存储列表中预先存储的敏感物体,若是则发送第一控制信号至数据通路选择单元,否则发送第二控制信号至数据通路选择单元;数据通路选择单元接收第一控制信号,将当前帧图像之后的连续N帧图像传输至神经网络分类识别单元;或者,用于接收第二控制信号,将当前帧图像之后的连续M帧图像传输至视频编码单元进行编码处理;N、M为正整数;敏感区域划分单元在当前帧图像中存在敏感物体的情况下,接收神经网络分类识本文档来自技高网...

【技术保护点】
1.一种基于深度学习的数据编码芯片,其特征在于,所述芯片包括音频处理模块,所述音频处理模块包括语音识别单元、敏感词判断单元、敏感词处理单元和语音合成单元;所述语音识别单元用于接收语音采集单元采集的音频信息,对采集的音频信息进行语音识别,并将语音识别结果发送至敏感词判断单元;所述语音识别结果包括采集的音频信息对应的文字信息,以及各个文字信息在音频信息内的时间戳信息;所述敏感词判断单元用于接收音频信息的语音识别结果,判断音频信息对应的文字信息中是否包括有预先存储的敏感词,若是则第一音段信息存储于第一缓存单元中,所述第一音段信息为敏感词对应的音段信息;所述敏感词处理单元用于根据敏感词与处理方式的对应关系,采用相应的处理方式对第一音段信息进行处理,得到音段处理信息,并将音段处理信息发送至语音合成单元;所述语音合成单元用于根据第一音段信息对应的时间戳信息,将音段处理信息更换至音频信息中的对应位置,从而得到新的音频信息。

【技术特征摘要】
1.一种基于深度学习的数据编码芯片,其特征在于,所述芯片包括音频处理模块,所述音频处理模块包括语音识别单元、敏感词判断单元、敏感词处理单元和语音合成单元;所述语音识别单元用于接收语音采集单元采集的音频信息,对采集的音频信息进行语音识别,并将语音识别结果发送至敏感词判断单元;所述语音识别结果包括采集的音频信息对应的文字信息,以及各个文字信息在音频信息内的时间戳信息;所述敏感词判断单元用于接收音频信息的语音识别结果,判断音频信息对应的文字信息中是否包括有预先存储的敏感词,若是则第一音段信息存储于第一缓存单元中,所述第一音段信息为敏感词对应的音段信息;所述敏感词处理单元用于根据敏感词与处理方式的对应关系,采用相应的处理方式对第一音段信息进行处理,得到音段处理信息,并将音段处理信息发送至语音合成单元;所述语音合成单元用于根据第一音段信息对应的时间戳信息,将音段处理信息更换至音频信息中的对应位置,从而得到新的音频信息。2.如权利要求1所述的基于深度学习的数据编码芯片,其特征在于,所述敏感词判断单元还用于判定音频信息对应的文字信息中包含有预先设置的敏感词时,将第二音段信息存储于第二缓存单元中,所述第二音段信息为非敏感词对应的音段信息;所述敏感词处理单元用于从第二缓存单元中获取第一音段信息前后的第二音段信息,并根据获取的第二音段信息预测出音频处理信息。3.如权利要求1所述的基于深度学习的数据编码芯片,其特征在于,所述芯片包括视频处理模块,所述视频处理模块包括数据通路选择单元、神经网络分类识别单元、敏感物体判断单元、敏感区域划分单元、敏感物体存储列表、敏感区域处理单元、敏感区域缓存单元、图像合并单元、视频编码单元;所述数据通路选择单元用于接收图像采集单元采集的视频流数据,并将当前帧图像发送至神经网络分类识别单元;所述神经网络分类识别单元用于对当前帧图像进行物体识别,并将物体识别结果发送至敏感物体判断单元;所述敏感物体判断单元用于根据当前帧图像的物体识别结果,判断当前帧图像中是否包含有敏感物体存储列表中预先存储的敏感物体,若是则发送第一控制信号至数据通路选择单元,否则发送第二控制信号至数据通路选择单元;所述数据通路选择单元用于接收第一控制信号,将当前帧图像之后的连续N帧图像传输至神经网络分类识别单元;或者,用于接收第二控制信号,将当前帧图像之后的连续M帧图像传输至视频编码单元进行编码处理;N、M为正整数;所述敏感区域划分单元用于在当前帧图像中存在敏感物体的情况下,接收神经网络分类识别单元传输的当前帧图像,并划分出当前帧图像对应的敏感区域图像,并将敏感区域图像存储于敏感区域缓存单元中;所述敏感区域图像包含有敏感物体;所述敏感区域处理单元用于获取敏感区域缓存单元中的敏感区域图像,根据敏感物体与处理方式的对应关系,采用相应地处理方式处理敏感区域图像,并将处理结果发送至图像合并单元;所述图像合并单元用于接收当前帧图像和处理后的敏感区域图像,根据敏感区域图像在当前帧图像上的坐标位置,将处理后的敏感区域图像和当前帧图像合成为处理帧图像,并将所述处理帧图像传输至视频编码单元进行编码。4.如权利要求3所述的基于深度学习的数据编码芯片,其特征在于,所述敏感区域划分单元包括轮廓识别单元和敏感区域坐标计算单元;所述轮廓识别单元用于识别出敏感区域图像中敏感物体的轮廓位置信息,所述轮廓位置信息以“第一标识行-第一起始坐标点-第一结束坐标点”的方式进行存储;所述敏感区域坐标计算单元用于根据轮廓位置信息、以及敏感区域图像在当前帧图像中的坐标信息,计算敏感区域图像内的敏感物体在当前帧图像中的坐标位置信息,并将所述坐标位置信息以“第二标识行-第二起始坐标点-第二结束坐标点”的方式进行存储;所述第二标识行的数值为第一标识行的数值与敏感区域图像在当前帧图像内的起始行之和,所述第二起始坐标点为第一起始坐标点与敏感区域图像在当前帧图像内的起始列之和,所述第二结束坐标点为第二结束坐标点与敏感区域图像在当前帧图像内的起始列之和。5.如权利要求3所述的基于深度学习的数据编码芯片,其特征在于,所述视频处理模块还包括图像预测网络电路;所述图像预测网络电路用于根据敏感区域图像、当前帧图像、以及敏感区域图像在当前帧图像的坐标位置,根据预测出新的区域图像,并将新的区域图像送往图像合并单元。...

【专利技术属性】
技术研发人员:廖裕民强书连
申请(专利权)人:福州瑞芯微电子股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1