一种基于音视频数据的事件录入方法、装置及计算机设备制造方法及图纸

技术编号：33963029 阅读：24 留言：0更新日期：2022-06-30 00:54

本发明专利技术涉及信息记录技术领域，公开了一种基于音视频数据的事件录入方法、装置及计算机设备，其方法是在采集获取到音视频数据后，一方面通过声纹识别技术和图像识别技术，可基于所述音视频数据识别得到录入人员的身份信息，另一方面通过语音识别技术和/或唇语识别技术，可基于所述音视频数据识别得到文字内容，然后将与所述音视频数据同期采集的时间信息和位置信息以及所述身份信息和所述文字内容作为记叙文事件四要素，生成记叙文事件，从而可实现自动录入记叙文事件四要素的目的，并避免人为出错，降低工作量，提升录入速度，以及由于会识别得到录入人员的身份信息，使得对人物进行验证成为可能，进而可避免出现数据录入作假问题。假问题。假问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于音视频数据的事件录入方法、装置及计算机设备

[0001]本专利技术属于信息记录
，具体地涉及一种基于音视频数据的事件录入方法、装置及计算机设备。

技术介绍

[0002]在日常工作中，部门管理员会要求部门成员对自己所做重要事件做好记录工作，而现有的事件录入方式主要有手写方式和电子录入方式，其中，前述手写方式需要手写时间、地点、人物和事件内容等记叙文事件四要素，存在不易汇总、易人为出错、工作量大、录入速度慢和难规避作假的问题，而前述电子录入方式是指通过打字录入时间、地点、人物和事件内容等记叙文事件四要素，同样也存在易人为出错、工作量大、录入速度慢和难规避作假的问题。

技术实现思路

[0003]为了解决现有事件录入方式所存在易人为出错、工作量大、录入速度慢和难规避作假的问题，本专利技术目的在于提供一种基于音视频数据的事件录入方法、装置及计算机设备。
[0004]第一方面，本专利技术提供了一种基于音视频数据的事件录入方法，包括：
[0005]采集获取音视频数据，其中，所述音视频数据包含有...

【技术保护点】

【技术特征摘要】
1.一种基于音视频数据的事件录入方法，其特征在于，包括：采集获取音视频数据，其中，所述音视频数据包含有音频数据和录入人员的嘴部视频数据；根据所述音频数据和所述嘴部视频数据，识别得到所述录入人员的身份信息；根据所述音频数据和/或所述嘴部视频数据，识别得到文字内容；将与所述音视频数据同期采集的时间信息和位置信息以及所述身份信息和所述文字内容作为记叙文事件四要素，生成记叙文事件。2.如权利要求1所述的事件录入方法，其特征在于，根据所述音频数据和所述嘴部视频数据，识别得到所述录入人员的身份信息，包括：根据所述音频数据，提取出声纹特征信息，以及根据所述嘴部视频数据，提取出包含有嘴唇特征和/或牙齿特征的嘴部特征信息；根据所述声纹特征信息，通过声纹识别技术得到所述录入人员的第一身份信息及与该第一身份信息对应的第一置信度，以及根据所述嘴部特征信息，通过人嘴识别技术得到所述录入人员的第二身份信息及与该第二身份信息对应的第二置信度；判断所述第一身份信息与所述第二身份信息是否一致且所述第二置信度和所述第一置信度是否均大于预设的置信度阈值；若判定所述第一身份信息与所述第二身份信息一致且所述第二置信度和所述第一置信度均大于所述置信度阈值，则将所述第一身份信息或所述第二身份信息作为所述录入人员的身份信息，否则输出事件录入失败消息。3.如权利要求2所述的事件录入方法，其特征在于，根据所述嘴部视频数据，提取出包含有嘴唇特征和/或牙齿特征的嘴部特征信息，包括：基于聚类算法对所述嘴部视频数据中的各个视频帧图像进行针对嘴唇及牙齿的聚类分析，识别出嘴唇和/或牙齿；针对识别出的嘴唇，先根据对应的嘴唇边界像素在视频帧图像中的像素坐标，对该视频帧图像进行图像分割处理，得到对应的嘴唇图像，然后从该嘴唇图像中提取出对应的嘴唇特征信息；针对识别出的牙齿，先根据对应的牙齿边界像素在视频帧图像中的像素坐标，对该视频帧图像进行图像分割处理，得到对应的牙齿图像，然后从该牙齿图像中提取出对应的牙齿特征信息；汇总提取而得的所有嘴唇特征信息和/或所有牙齿特征信息，得到包含有嘴唇特征和/或牙齿特征的嘴部特征信息。4.如权利要求1所述的事件录入方法，其特征在于，根据所述音频数据和/或所述嘴部视频数据，识别得到文字内容，包括有如下方式(A)～(C)中的任意一种：(A)将所述音频数据输入预先建模所得的且与所述身份信息对应的语音文字识别模型中，输出得到文字内容，其中，所述语音文字识别模型采用基于支持向量机、K最邻近法、随机梯度下降法、多变量线性回归、多层感知机、决策树、反向传播神经网络、卷积神经网络或径向基函数网络建模而得的人工智能模型；(B)将所述嘴部视频数据输入预先建模所得的且与所述身份信息对应的唇语文字识别模型中，输出得到文字内容，其中，所述唇语文字识别模型采用基于支持向量机、K最邻近
法、随机梯度下降法、多变量线性回归、多层感知机、决策树、反向传播神经网络、卷积神经网络或径向基函数网络建模而得的人工智能模型；(C)根据所述音频数据，通过语音识别技术获取到第一文字内容，以及根据所述嘴部视频数据，通过唇语识别技术获取到第二文字内容；使用所述第二文字内容对所述第一文字内容进行校对，得到最终的文字内容。5.如权利要求4所述的事件录入方法，其特征在于，使用所述第二文字内容对所述第一文字内容进行校对，得到最终的文字内容，包括：对所述第一文字内容进行分词处理，得到在采...

【专利技术属性】
技术研发人员：蓝海洋，王永杰，
申请(专利权)人：北京女娲补天科技信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人