唇动的语言识别方法、装置、介质及设备制造方法及图纸

技术编号:42409548 阅读:28 留言:0更新日期:2024-08-16 16:28
本发明专利技术涉及一种基于唇动分析的语言识别方法,适用于多人会议、会场和教室等多人聚集环境。通过分析现场人脸唇部信息并结合拾音调整分析的多层次手段,实现有效的现场语音信息的文字记录。具体步骤包括:采集音视频数据,分析音频数据中的语音信号起止时间;分析视频图像数据中的人脸唇部轮廓,确定唇动目标;调整拾音方向朝向唇动目标;对音频数据进行语音降噪,识别文字含义,组合连贯的识别文字内容。该方案可快速获取历史现场关键信息,节省处理成本。

【技术实现步骤摘要】

本专利技术属于语音分析与识别领域,具体涉及结合图像和声音数据实施的唇动语言识别。


技术介绍

1、当今社交和商务场景中,多人会议、会场和教室等多人聚集的环境中,人们通过说话来表达意思。通常,我们只能通过音视频录制来记录这些会议,以便在事后进行回放。然而,这种方法存在一些弊端:

2、现场噪声问题:录制的反馈信息中通常包含大量现场噪声,这会影响回放效果,使希望获取有效现场主题内容的人难以提取有用的信息。

3、文字记录的挑战:尽管文字在表达会议等主题内容时往往更具性价比,但由于现场的复杂性,很难用文字准确地记录现场的有效发言内容。

4、现有技术中有些方案会抓取视频中人脸动作比如唇动信息进行分析以辅助进行回放信息提取,但要么往往只针对视频信息进行优化,要么根据唇动信息引导语言信息方面的处理方法对计算量要求高,且处理手段过于单一,复杂场景下的效果不佳。


技术实现思路

1、为了解决这些问题,本专利技术通过分析现场人脸唇部信息并结合拾音调整分析的多层次手段,实现了有效的现场语音信息的文字记本文档来自技高网...

【技术保护点】

1.一种唇动的语言识别方法,其特征在于,包括:

2.根据权利要求1所述的一种唇动的语言识别方法,其特征在于:所述图像采集装置为摄像头、所述拾音装置为麦克风。

3.根据权利要求1所述的一种唇动的语言识别方法,其特征在于:所述语言模型在远程服务器上,所述语言模型响应所述数据分析单元的文字内容调整请求,将调整好的文字内容发送给所述数据分析单元。

4.根据权利要求1所述的一种唇动的语言识别方法,其特征在于,所述对比多个唇动目标对应的人脸轮廓大小包括:根据各个人脸区域水平和垂直方向的切边确定矩形选框,以矩形选框面积来衡量对应的人脸轮廓大小。</p>

5.根据...

【技术特征摘要】

1.一种唇动的语言识别方法,其特征在于,包括:

2.根据权利要求1所述的一种唇动的语言识别方法,其特征在于:所述图像采集装置为摄像头、所述拾音装置为麦克风。

3.根据权利要求1所述的一种唇动的语言识别方法,其特征在于:所述语言模型在远程服务器上,所述语言模型响应所述数据分析单元的文字内容调整请求,将调整好的文字内容发送给所述数据分析单元。

4.根据权利要求1所述的一种唇动的语言识别方法,其特征在于,所述对比多个唇动目标对应的人脸轮廓大小包括:根据各个人脸区域水平和垂直方向的切边确定矩形选框,以矩形选框面积来衡量对应的人脸轮廓大小。

5.根据权利要求1所述的一种唇动的语言识别方法,其特征在于,所述拾音装置的初始拾音方向和所述图像采集装置的拍摄视角相同包括:均朝向前方共同的目标点。

6.根据权利要求1所述的一种唇动的语言识别方法,其特征在于,所述指示所述拾音装置的拾音方向朝向拾音目标对应的唇部位置包括:移动所述拾音装置使其与初始拾音方向的偏转角度,等于所述视频图像中所述拾音目标与所述视...

【专利技术属性】
技术研发人员:黄锴许伟城李艳霞
申请(专利权)人:深圳市万屏时代科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1